快捷導(dǎo)航

基于python實現(xiàn)KNN分類算法

更新時間：2020年04月23日 15:44:56 作者：諾坎普奇跡

這篇文章主要為大家詳細(xì)介紹了基于python實現(xiàn)KNN分類算法，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下

kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別，并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時，只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰近的樣本，而不是靠判別類域的方法來確定所屬類別的，因此對于類域的交叉或重疊較多的待分樣本集來說，kNN方法較其他方法更為適合。

通俗簡單的說，就是將這個樣本進(jìn)行分類，怎么分類，就是用該樣本的特征與空間中其他樣本做計算距離，當(dāng)出現(xiàn)大多數(shù)距離偏向于某個樣本類時，我們認(rèn)為該樣本屬于這個類別。

舉例說明：淘寶商品是按類進(jìn)行售賣的，對于零食類商品a,b,c，價格與銷量分別對應(yīng)（19，1000），（89，500），（9.9，3000）對與電器類商品d,e,f，價格與銷量分別為（1000，10），（499，30），（999，100），對于一個未知的產(chǎn)品（300，80），我們使用kNN算法進(jìn)行求解，我們假設(shè)k=3（k的值要時情況而定，沒有確定的）,分別求出未知產(chǎn)品到這六個點的歐式距離，即：sqrt((x1-y1)**2+(x2-y2)**2)計算出結(jié)果進(jìn)行倒序排序，我們得出前三的點分別為：e,b,f。所以我們認(rèn)為未知產(chǎn)品是電器類產(chǎn)品，當(dāng)然實際生活中不能僅僅有價格，銷量這兩個二維數(shù)據(jù)，可能是n維數(shù)據(jù)，歐式距離的公式也是一樣的，現(xiàn)實中也不僅僅有這兩個分類，kNN提供了一種簡單的解決思路。其中a,b,c,d,e,f稱為訓(xùn)練數(shù)據(jù)，未知數(shù)據(jù)稱為測試數(shù)據(jù)。

還有在進(jìn)行計算時有時需要格式化一下數(shù)據(jù)，例如對于c產(chǎn)品與未知產(chǎn)品，明顯計算銷量所產(chǎn)生的數(shù)據(jù)要遠(yuǎn)大于價格，為了減小這個帶來的誤差，可以使用以下：

參考鏈接

def normData(dataSet):
 maxVals = dataSet.max(axis=0)#按列獲取最大值，并返回數(shù)組
 minVals = dataSet.min(axis=0)
 ranges = maxVals - minVals
 retData = (dataSet - minVals) / ranges
 return retData, ranges, minVals

代碼

#?。痷ser/bin/env python
#-*- coding:utf-8 -*-
import numpy as np
import operator as opt

def normData(dataSet):#標(biāo)準(zhǔn)化訓(xùn)練集數(shù)據(jù)
 maxVals = dataSet.max(axis=0)
 minVals = dataSet.min(axis=0)
 ranges = maxVals - minVals
 retData = (dataSet - minVals) / ranges
 return retData, ranges, minVals

def kNN(dataSet, labels, testData, k):
 distSquareMat = (dataSet - testData) ** 2 # 計算差值的平方
 distSquareSums = distSquareMat.sum(axis=1) # 求每一行的差值平方和，axis=0則按列計算
 distances = distSquareSums ** 0.5 # 開根號，得出每個樣本到測試點的距離
 sortedIndices = distances.argsort() # 排序，得到排序后的下標(biāo)
 indices = sortedIndices[:k] # 取最小的k個
 labelCount = {} # 存儲每個label的出現(xiàn)次數(shù)，出現(xiàn)次數(shù)最多的就是我們要選擇的類別
 for i in indices:
 label = labels[i]
 labelCount[label] = labelCount.get(label, 0) + 1 # 次數(shù)加一，使用字典的get方法，第一次出現(xiàn)時默認(rèn)值是0
 sortedCount = sorted(labelCount.items(), key=opt.itemgetter(1), reverse=True) # 對label出現(xiàn)的次數(shù)從大到小進(jìn)行排序
 return sortedCount[0][0] # 返回出現(xiàn)次數(shù)最大的label

if __name__ == "__main__":#測試程序
 dataSet = np.array([[2, 3], [6, 8]])#訓(xùn)練集
 normDataSet, ranges, minVals = normData(dataSet)
 labels = ['a', 'b']#訓(xùn)練集分別為a和b類
 testData = np.array([3.9, 5.5])#測試數(shù)據(jù)
 normTestData = (testData - minVals) / ranges#同樣需要將測試數(shù)據(jù)標(biāo)準(zhǔn)化
 result = kNN(normDataSet, labels, normTestData, 1)#k=1
 print(result)

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: