Python實現(xiàn)KNN(K-近鄰)算法的示例代碼
一、概述
KNN(K-最近鄰)算法是相對比較簡單的機器學(xué)習(xí)算法之一,它主要用于對事物進行分類。用比較官方的話來說就是:給定一個訓(xùn)練數(shù)據(jù)集,對新的輸入實例,在訓(xùn)練數(shù)據(jù)集中找到與該實例最鄰近的K個實例, 這K個實例的多數(shù)屬于某個類,就把該輸入實例分類到這個類中。為了更好地理解,通過一個簡單的例子說明。
我們有一組自擬的關(guān)于電影中鏡頭的數(shù)據(jù):
那么問題來了,如果有一部電影 X,它的打戲為 3,吻戲為 2。那么這部電影應(yīng)該屬于哪一類?
我們把所有數(shù)據(jù)通過圖表顯示出來(圓點代表的是自擬的數(shù)據(jù),也稱訓(xùn)練集;三角形代表的是 X 電影的數(shù)據(jù),稱為測試數(shù)據(jù)):
計算測試數(shù)據(jù)到訓(xùn)練數(shù)據(jù)之間的距離,假設(shè) k 為 3,那么我們就找到距離中最小的三個點,假如 3 個點中有 2 個屬于動作片,1 個屬于愛情片,那么把該電影 X 分類為動作片。這種通過計算距離總結(jié) k 個最鄰近的類,按照”少數(shù)服從多數(shù)“原則分類的算法就為 KNN(K-近鄰)算法。
二、算法介紹
還是以上面的數(shù)據(jù)為例,打戲數(shù)為 x,吻戲數(shù)為 y,通過歐式距離公式計算測試數(shù)據(jù)到訓(xùn)練數(shù)據(jù)的距離,我上中學(xué)那會兒不知道這個叫做歐式距離公式,一直用”兩點間的距離公式“來稱呼這個公式: 。但是現(xiàn)實中的很多數(shù)據(jù)都是多維的,即使如此,也還是按照這個思路進行計算,比如如果是三維的話,就在根號里面再加上 z 軸差的平方,即
,以此類推。
知道了這個計算公式,就可以計算各個距離了。我們以到最上面的點的距離為例: ,那么從上到下的距離分別是:
,
,
,
?,F(xiàn)在我們把 k 定為 3,那么距離最近的就是后面三個數(shù)了,在這三個數(shù)中,有兩個屬于動作片,因此,電影 X 就分類為動作片。
三、算法實現(xiàn)
知道了原理,那就可以用代碼實現(xiàn)了,這里就不再贅述了,直接上帶注釋的 Python 代碼:
''' trainData - 訓(xùn)練集 testData - 測試集 labels - 分類 ''' def knn(trainData, testData, labels, k): # 計算訓(xùn)練樣本的行數(shù) rowSize = trainData.shape[0] # 計算訓(xùn)練樣本和測試樣本的差值 diff = np.tile(testData, (rowSize, 1)) - trainData # 計算差值的平方和 sqrDiff = diff ** 2 sqrDiffSum = sqrDiff.sum(axis=1) # 計算距離 distances = sqrDiffSum ** 0.5 # 對所得的距離從低到高進行排序 sortDistance = distances.argsort() count = {} for i in range(k): vote = labels[sortDistance[i]] count[vote] = count.get(vote, 0) + 1 # 對類別出現(xiàn)的頻數(shù)從高到低進行排序 sortCount = sorted(count.items(), key=operator.itemgetter(1), reverse=True) # 返回出現(xiàn)頻數(shù)最高的類別 return sortCount[0][0]
ps:np.tile(testData, (rowSize, 1)) 是將 testData 這個數(shù)據(jù)擴展為 rowSize 列,這樣能避免運算錯誤;
sorted(count.items(), key=operator.itemgetter(1), reverse=True) 排序函數(shù),里面的參數(shù) key=operator.itemgetter(1), reverse=True 表示按照 count 這個字典的值(value)從高到低排序,如果把 1 換成 0,則是按字典的鍵(key)從高到低排序。把 True 換成 False 則是從低到高排序。
四、測試與總結(jié)
用 Python 實現(xiàn)了算法之后,我們用上面的數(shù)據(jù)進行測試,看一下結(jié)果是否和我們預(yù)測的一樣為動作片:
trainData = np.array([[5, 1], [4, 0], [1, 3], [0, 4]]) labels = ['動作片', '動作片', '愛情片', '愛情片'] testData = [3, 2] X = knn(trainData, testData, labels, 3) print(X)
執(zhí)行這段代碼后輸出的結(jié)果為:動作片 。和預(yù)測的一樣。當(dāng)然通過這個算法分類的正確率不可能為 100%,可以通過增加修改數(shù)據(jù)測試,如果有大量多維的數(shù)據(jù)就更好了。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
使用Python pyWinAuto庫自動化Windows任務(wù)的示例代碼
pywinauto是Python的一個強大的自動化庫,它可以用于控制Windows應(yīng)用程序的用戶界面,本文將詳細介紹pywinauto庫的安裝、基本用法和高級應(yīng)用,以便你能夠更好地了解如何使用它來自動化Windows應(yīng)用程序,文中有詳細的代碼示例供大家參考,需要的朋友可以參考下2023-11-11Python中shutil模塊的常用文件操作函數(shù)用法示例
shutil模塊提供比OS模塊更強大的本地文件操作功能,包括文件的壓縮和解壓縮等,下面我們就來列舉Python中shutil模塊的常用文件操作函數(shù)用法示例:2016-07-07python編寫WAF與Sqlmap結(jié)合實現(xiàn)指紋探測
這篇文章主要為大家介紹了python編寫WAF指紋探測并與Sqlmap結(jié)合的示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05Python控制windows系統(tǒng)音量實現(xiàn)實例
這篇文章主要介紹了Python控制windows系統(tǒng)音量實現(xiàn)實例,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧2023-01-01