Python K最近鄰從原理到實現(xiàn)的方法
本來這篇文章是5月份寫的,今天修改了一下內(nèi)容,就成今天發(fā)表的了,CSDN這是出BUG了還是什么改規(guī)則了。。。
引文:決策樹和基于規(guī)則的分類器都是積極學(xué)習方法(eager learner)的例子,因為一旦訓(xùn)練數(shù)據(jù)可用,他們就開始學(xué)習從輸入屬性到類標號的映射模型。一個相反的策略是推遲對訓(xùn)練數(shù)據(jù)的建模,直到需要分類測試樣例時再進行。采用這種策略的技術(shù)被稱為消極學(xué)習法(lazy learner)。最近鄰分類器就是這樣的一種方法。
注:KNN既可以用于分類,也可以用于回歸。
1.K最近鄰分類器原理
首先給出一張圖,根據(jù)這張圖來理解最近鄰分類器,如下:
根據(jù)上圖所示,有兩類不同的樣本數(shù)據(jù),分別用藍色的小正方形和紅色的小三角形表示,而圖正中間的那個綠色的圓所標示的數(shù)據(jù)則是待分類的數(shù)據(jù)。也就是說,現(xiàn)在, 我們不知道中間那個綠色的數(shù)據(jù)是從屬于哪一類(藍色小正方形or紅色小三角形),下面,我們就要解決這個問題:給這個綠色的圓分類。
我們常說,物以類聚,人以群分,判別一個人是一個什么樣品質(zhì)特征的人,常??梢詮乃鹢r她身邊的朋友入手,所謂觀其友,而識其人。我們不是要判別上圖中那個綠色的圓是屬于哪一類數(shù)據(jù)么,好說,從它的鄰居下手。但一次性看多少個鄰居呢?從上圖中,你還能看到:
- 如果K=3,綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于紅色的三角形一類。
- 如果K=5,綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形,還是少數(shù)從屬于多數(shù),基于統(tǒng)計的方法,判定綠色的這個待分類點屬于藍色的正方形一類。
于此我們看到,當無法判定當前待分類點是從屬于已知分類中的哪一類時,我們可以依據(jù)統(tǒng)計學(xué)的理論看它所處的位置特征,衡量它周圍鄰居的權(quán)重,而把它歸為(或分配)到權(quán)重更大的那一類。這就是K近鄰算法的核心思想。其關(guān)鍵還在于K值的選取,所以應(yīng)當謹慎。
KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
KNN 算法本身簡單有效,它是一種 lazy-learning 算法,分類器不需要使用訓(xùn)練集進行訓(xùn)練,訓(xùn)練時間復(fù)雜度為0。KNN 分類的計算復(fù)雜度和訓(xùn)練集中的文檔數(shù)目成正比,也就是說,如果訓(xùn)練集中文檔總數(shù)為 n,那么 KNN 的分類時間復(fù)雜度為O(n)。
前面的例子中強調(diào)了選擇合適的K值的重要性。如果太小,則最近鄰分類器容易受到訓(xùn)練數(shù)據(jù)的噪聲而產(chǎn)生的過分擬合的影響;相反,如果K太大,最近分類器可能會誤會分類測試樣例,因為最近鄰列表中可能包含遠離其近鄰的數(shù)據(jù)點。(如下圖所示)
K較大時的最近鄰分類
可見,K值的選取還是非常關(guān)鍵。
2.算法算法描述
k近鄰算法簡單、直觀:給定一個訓(xùn)練數(shù)據(jù)集(包括類別標簽),對新的輸入實例,在訓(xùn)練數(shù)據(jù)集中找到與該實例最鄰近的k個實例,這k個實例的多數(shù)屬于某個類,就把該輸入實例分為這個類。下面是knn的算法步驟。
算法步驟如下所示:
對每個測試樣例
特征空間中兩個實例點的距離是兩個實例相似程度的反映。
一旦得到最近鄰列表,測試樣例就可以根據(jù)最近鄰的多數(shù)類進行分類,使用多數(shù)表決方法。
K值選擇
k值對模型的預(yù)測有著直接的影響,如果k值過小,預(yù)測結(jié)果對鄰近的實例點非常敏感。如果鄰近的實例恰巧是噪聲數(shù)據(jù),預(yù)測就會出錯。也就是說,k值越小就意味著整個模型就變得越復(fù)雜,越容易發(fā)生過擬合。
相反,如果k值越大,有點是可以減少模型的預(yù)測誤差,缺點是學(xué)習的近似誤差會增大。會使得距離實例點較遠的點也起作用,致使預(yù)測發(fā)生錯誤。同時,k值的增大意味著模型變得越來越簡單。如果k=N,那么無論輸入實例是什么,都將簡單的把它預(yù)測為樣本中最多的一類。這顯然實不可取的。
在實際建模應(yīng)用中,k值一般取一個較小的數(shù)值,通常采用cross-validation的方法來選擇最優(yōu)的k值。
3.K最鄰近算法實現(xiàn)(Python)
KNN.py(代碼來源《機器學(xué)習實戰(zhàn)》一書)
from numpy import * import operator class KNN: def createDataset(self): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labels def KnnClassify(self,testX,trainX,labels,K): [N,M]=trainX.shape #calculate the distance between testX and other training samples difference = tile(testX,(N,1)) - trainX # tile for array and repeat for matrix in Python, == repmat in Matlab difference = difference ** 2 # take pow(difference,2) distance = difference.sum(1) # take the sum of difference from all dimensions distance = distance ** 0.5 sortdiffidx = distance.argsort() # find the k nearest neighbours vote = {} #create the dictionary for i in range(K): ith_label = labels[sortdiffidx[i]]; vote[ith_label] = vote.get(ith_label,0)+1 #get(ith_label,0) : if dictionary 'vote' exist key 'ith_label', return vote[ith_label]; else return 0 sortedvote = sorted(vote.iteritems(),key = lambda x:x[1], reverse = True) # 'key = lambda x: x[1]' can be substituted by operator.itemgetter(1) return sortedvote[0][0] k = KNN() #create KNN object group,labels = k.createDataset() cls = k.KnnClassify([0,0],group,labels,3) print cls
運行:
1. 在Python Shell 中可以運行KNN.py
>>>import os >>>os.chdir("/home/liudiwei/code/data_miningKNN/") >>>execfile("KNN.py")
輸出:B
(B表示類別)
2.或者terminal中直接運行
$ python KNN.py
3.也可以不在KNN.py中寫輸出,而選擇在Shell中獲得結(jié)果,i.e.,
>>>import KNN >>> KNN.k.KnnClassify([0,0],KNN.group,KNN.labels,3)
附件(兩張自己的計算過程圖):
圖
1 KNN算法核心部分
圖2 KNN計算過程
說明:上述圖片僅供參考,看不懂就自己測試一組數(shù)據(jù)如[0,1]慢慢推導(dǎo)一下吧
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習有所幫助,也希望大家多多支持腳本之家。
- python機器學(xué)習理論與實戰(zhàn)(一)K近鄰法
- python實現(xiàn)K近鄰回歸,采用等權(quán)重和不等權(quán)重的方法
- 用python實現(xiàn)k近鄰算法的示例代碼
- python K近鄰算法的kd樹實現(xiàn)
- python實現(xiàn)KNN近鄰算法
- K最近鄰算法(KNN)---sklearn+python實現(xiàn)方式
- python實現(xiàn)K最近鄰算法
- python機器學(xué)習案例教程——K最近鄰算法的實現(xiàn)
- python k-近鄰算法實例分享
- K近鄰法(KNN)相關(guān)知識總結(jié)以及如何用python實現(xiàn)
相關(guān)文章
Pandas DataFrame中的tuple元素遍歷的實現(xiàn)
這篇文章主要介紹了Pandas DataFrame中的tuple元素遍歷的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習或者工作具有一定的參考學(xué)習價值,需要的朋友們下面隨著小編來一起學(xué)習學(xué)習吧2019-10-10解決python Jupyter不能導(dǎo)入外部包問題
這篇文章主要介紹了解決python Jupyter不能導(dǎo)入外部包問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04Python playwright學(xué)習之自動錄制生成腳本
playwright 可以支持自動錄制生成腳本,也就是說只需要在頁面上點點點,就可以自動生成對應(yīng)的腳本了。本文就來和大家詳細聊聊實現(xiàn)方法吧2023-02-02python基于socketserver實現(xiàn)并發(fā),驗證客戶端的合法性
TCP協(xié)議的socket一次只能和一個客戶端通信, 而socketsever可以時間和多個客戶端通信。本文將講解socketserver的具體使用2021-05-05Python+matplotlib實現(xiàn)堆疊圖的繪制
Matplotlib作為Python的2D繪圖庫,它以各種硬拷貝格式和跨平臺的交互式環(huán)境生成出版質(zhì)量級別的圖形。本文將利用Matplotlib庫繪制堆疊圖,感興趣的可以了解一下2022-03-03python中pivot()函數(shù)基礎(chǔ)知識點
在本篇內(nèi)容里小編給大家分享的是一篇關(guān)于python中pivot()函數(shù)基礎(chǔ)知識點內(nèi)容,對此有興趣的朋友們可以參考學(xué)習下。2021-01-01