快捷導(dǎo)航

python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)（一）K近鄰法

更新時(shí)間：2021年01月28日 16:40:05 作者：marvin521

這篇文章主要為大家詳細(xì)介紹了python機(jī)器學(xué)習(xí)理論與實(shí)戰(zhàn)第一篇，K近鄰法的相關(guān)資料，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

機(jī)器學(xué)習(xí)分兩大類，有監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。有監(jiān)督學(xué)習(xí)又可分兩類：分類（classification.）和回歸（regression），分類的任務(wù)就是把一個(gè)樣本劃為某個(gè)已知類別，每個(gè)樣本的類別信息在訓(xùn)練時(shí)需要給定，比如人臉識(shí)別、行為識(shí)別、目標(biāo)檢測(cè)等都屬于分類?；貧w的任務(wù)則是預(yù)測(cè)一個(gè)數(shù)值，比如給定房屋市場(chǎng)的數(shù)據(jù)（面積，位置等樣本信息）來預(yù)測(cè)房?jī)r(jià)走勢(shì)。而無監(jiān)督學(xué)習(xí)也可以成兩類：聚類（clustering）和密度估計(jì)（density estimation）,聚類則是把一堆數(shù)據(jù)聚成弱干組，沒有類別信息；密度估計(jì)則是估計(jì)一堆數(shù)據(jù)的統(tǒng)計(jì)參數(shù)信息來描述數(shù)據(jù),比如深度學(xué)習(xí)的RBM。

根據(jù)機(jī)器學(xué)習(xí)實(shí)戰(zhàn)講解順序，先學(xué)習(xí)K近鄰法（K Nearest Neighbors-KNN）

K近鄰法是有監(jiān)督學(xué)習(xí)方法，原理很簡(jiǎn)單，假設(shè)我們有一堆分好類的樣本數(shù)據(jù)，分好類表示每個(gè)樣本都一個(gè)對(duì)應(yīng)的已知類標(biāo)簽，當(dāng)來一個(gè)測(cè)試樣本要我們判斷它的類別是，就分別計(jì)算到每個(gè)樣本的距離，然后選取離測(cè)試樣本最近的前K個(gè)樣本的標(biāo)簽累計(jì)投票，得票數(shù)最多的那個(gè)標(biāo)簽就為測(cè)試樣本的標(biāo)簽。

例子（電影分類）：

（圖一）

（圖一）中橫坐標(biāo)表示一部電影中的打斗統(tǒng)計(jì)個(gè)數(shù)，縱坐標(biāo)表示接吻次數(shù)。我們要對(duì)（圖一）中的問號(hào)這部電影進(jìn)行分類，其他幾部電影的統(tǒng)計(jì)數(shù)據(jù)和類別如（圖二）所示：

（圖二）

從（圖二）中可以看出有三部電影的類別是Romance,有三部電影的類別是Action,那如何判斷問號(hào)表示的這部電影的類別？根據(jù)KNN原理,我們需要在（圖一）所示的坐標(biāo)系中計(jì)算問號(hào)到所有其他電影之間的距離。計(jì)算出的歐式距離如（圖三）所示：

（圖三）

由于我們的標(biāo)簽只有兩類，那假設(shè)我們選K=6/2=3,由于前三個(gè)距離最近的電影都是Romance,那么問號(hào)表示的電影被判定為Romance。

代碼實(shí)戰(zhàn)（Python版本）：

先來看看KNN的實(shí)現(xiàn)：

from numpy import * 
import operator 
from os import listdir 
 
 
def classify0(inX, dataSet, labels, k): 
 dataSetSize = dataSet.shape[0] #獲取一條樣本大小 
 diffMat = tile(inX, (dataSetSize,1)) - dataSet #計(jì)算距離 
 sqDiffMat = diffMat**2 #計(jì)算距離 
 sqDistances = sqDiffMat.sum(axis=1) #計(jì)算距離 
 distances = sqDistances**0.5 #計(jì)算距離 
 sortedDistIndicies = distances.argsort() #距離排序 
 classCount={}   
 for i in range(k): 
  voteIlabel = labels[sortedDistIndicies[i]] #前K個(gè)距離最近的投票統(tǒng)計(jì) 
  classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 #前K個(gè)距離最近的投票統(tǒng)計(jì) 
 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) #對(duì)投票統(tǒng)計(jì)進(jìn)行排序 
 return sortedClassCount[0][0] #返回最高投票的類別

下面取一些樣本測(cè)試KNN：

def file2matrix(filename): 
 fr = open(filename) 
 numberOfLines = len(fr.readlines())   #get the number of lines in the file 
 returnMat = zeros((numberOfLines,3))  #prepare matrix to return 
 classLabelVector = []      #prepare labels return  
 fr = open(filename) 
 index = 0 
 for line in fr.readlines(): 
  line = line.strip() 
  listFromLine = line.split('\t') 
  returnMat[index,:] = listFromLine[0:3] 
  classLabelVector.append(int(listFromLine[-1])) 
  index += 1 
 return returnMat,classLabelVector 
  
def autoNorm(dataSet): 
 minVals = dataSet.min(0) 
 maxVals = dataSet.max(0) 
 ranges = maxVals - minVals 
 normDataSet = zeros(shape(dataSet)) 
 m = dataSet.shape[0] 
 normDataSet = dataSet - tile(minVals, (m,1)) 
 normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide 
 return normDataSet, ranges, minVals 
  
def datingClassTest(): 
 hoRatio = 0.50  #hold out 50% 
 datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')  #load data setfrom file 
 normMat, ranges, minVals = autoNorm(datingDataMat) 
 m = normMat.shape[0] 
 numTestVecs = int(m*hoRatio) 
 errorCount = 0.0 
 for i in range(numTestVecs): 
  classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) 
  print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]) 
  if (classifierResult != datingLabels[i]): errorCount += 1.0 
 print "the total error rate is: %f" % (errorCount/float(numTestVecs)) 
 print errorCount

上面的代碼中第一個(gè)函數(shù)從文本文件中讀取樣本數(shù)據(jù)，第二個(gè)函數(shù)把樣本歸一化，歸一化的好處就是降低樣本不同特征之間數(shù)值量級(jí)對(duì)距離計(jì)算的顯著性影響

datingClassTest則是對(duì)KNN測(cè)試，留了一半數(shù)據(jù)進(jìn)行測(cè)試，文本文件中的每條數(shù)據(jù)都有標(biāo)簽，這樣可以計(jì)算錯(cuò)誤率，運(yùn)行的錯(cuò)誤率為：the total error rate is: 0.064000

總結(jié)：

優(yōu)點(diǎn)：高精度，對(duì)離群點(diǎn)不敏感，對(duì)數(shù)據(jù)不需要假設(shè)模型

缺點(diǎn)：判定時(shí)計(jì)算量太大，需要大量的內(nèi)存

工作方式：數(shù)值或者類別

下面挑選一步樣本數(shù)據(jù)發(fā)出來：