Python機器學習k-近鄰算法(K Nearest Neighbor)實例詳解
本文實例講述了Python機器學習k-近鄰算法。分享給大家供大家參考,具體如下:
工作原理
存在一份訓練樣本集,并且每個樣本都有屬于自己的標簽,即我們知道每個樣本集中所屬于的類別。輸入沒有標簽的新數據后,將新數據的每個特征與樣本集中數據對應的特征進行比較,然后提取樣本集中與之最相近的k個樣本。觀察并統(tǒng)計這k個樣本的標簽,選擇數量最大的標簽作為這個新數據的標簽。
用以下這幅圖可以很好的解釋kNN算法:
不同形狀的點,為不同標簽的點。其中綠色點為未知標簽的數據點。現在要對綠色點進行預測。由圖不難得出:
- 如果k=3,那么離綠色點最近的有2個紅色三角形和1個藍色的正方形,這3個點投票,于是綠色的這個待分類點屬于紅色的三角形。
- 如果k=5,那么離綠色點最近的有2個紅色三角形和3個藍色的正方形,這5個點投票,于是綠色的這個待分類點屬于藍色的正方形。
kNN算法實施
偽代碼
對未知屬性的數據集中的每個點執(zhí)行以下操作
1. 計算已知類型類別數據集中的點與當前點之間的距離
2. 按照距離遞增次序排序
3. 選取與當前點距離最小的k個點
4. 確定前k個點所在類別的出現頻率
5. 返回前k個點出現頻率最高的類別作為當前點的預測分類
歐式距離(計算兩點之間的距離公式)
計算點x與點y之間歐式距離
python代碼實現
# -*- coding:utf-8 -*- #! python2 import numpy as np import operator # 訓練集 data_set = np.array([[1., 1.1], [1.0, 1.0], [0., 0.], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] def classify_knn(in_vector, training_data, training_label, k): """ :param in_vector: 待分類向量 :param training_data: 訓練集向量 :param training_label: 訓練集標簽 :param k: 選擇最近鄰居的數目 :return: 分類器對 in_vector 分類的類別 """ data_size = training_data.shape[0] # .shape[0] 返回二維數組的行數 diff_mat = np.tile(in_vector, (data_size, 1)) - data_set # np.tile(array, (3, 2)) 對 array 進行 3×2 擴展為二維數組 sq_diff_mat = diff_mat ** 2 sq_distances = sq_diff_mat.sum(axis=1) # .sum(axis=1) 矩陣以列求和 # distances = sq_distances ** 0.5 # 主要是通過比較求最近點,所以沒有必要求平方根 distances_sorted_index = sq_distances.argsort() # .argsort() 對array進行排序 返回排序后對應的索引 class_count_dict = {} # 用于統(tǒng)計類別的個數 for i in range(k): label = training_label[distances_sorted_index[i]] try: class_count_dict[label] += 1 except KeyError: class_count_dict[label] = 1 class_count_dict = sorted(class_count_dict.iteritems(), key=operator.itemgetter(1), reverse=True) # 根據字典的value值對字典進行逆序排序 return class_count_dict[0][0] if __name__ == '__main__': vector = [0, 0] # 待分類數據集 print classify_knn(in_vector=vector, training_data=data_set, training_label=labels, k=3)
運行結果:B
算法評價
- 優(yōu)點:精度高、對異常值不敏感、無數據輸入假定
- 缺點:計算復雜度高、空間復雜度高
- 使用數據范圍:數據型和標稱型
- 適用:kNN方法通常用于一個更復雜分類算法的一部分。例如,我們可以用它的估計值做為一個對象的特征。有時候,一個簡單的kNN算法在良好選擇的特征上會有很出色的表現。
更多關于Python相關內容感興趣的讀者可查看本站專題:《Python數學運算技巧總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設計有所幫助。
相關文章
OpenCV2.3.1+Python2.7.3+Numpy等的配置解析
這篇文章主要介紹了OpenCV2.3.1+Python2.7.3+Numpy等的配置解析,具有一定借鑒價值,需要的朋友可以參考下2018-01-01pandas.DataFrame的for循環(huán)迭代的實現
本文主要介紹了pandas.DataFrame的for循環(huán)迭代的實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2023-02-02python網絡編程之UDP通信實例(含服務器端、客戶端、UDP廣播例子)
UDP,用戶數據報傳輸協(xié)議,它位于TCP/IP協(xié)議的傳輸層,是一種無連接的協(xié)議,它發(fā)送的報文不能確定是否完整地到達了另外一端2014-04-04