用python實現(xiàn)k近鄰算法的示例代碼
K近鄰算法(或簡稱kNN)是易于理解和實現(xiàn)的算法,而且是你解決問題的強大工具。
什么是kNN
kNN算法的模型就是整個訓練數(shù)據(jù)集。當需要對一個未知數(shù)據(jù)實例進行預測時,kNN算法會在訓練數(shù)據(jù)集中搜尋k個最相似實例。對k個最相似實例的屬性進行歸納,將其作為對未知實例的預測。
相似性度量依賴于數(shù)據(jù)類型。對于實數(shù),可以使用歐式距離來計算。其他類型的數(shù)據(jù),如分類數(shù)據(jù)或二進制數(shù)據(jù),可以用漢明距離。
對于回歸問題,會返回k個最相似實例屬性的平均值。對于分類問題,會返回k個最相似實例屬性出現(xiàn)最多的屬性。
kNN如何工作
kNN屬于基于實例算法簇的競爭學習和懶惰學習算法。
基于實例的算法運用數(shù)據(jù)實例(或數(shù)據(jù)行)對問題進行建模,進而做出預測決策。kNN算法算是基于實例方法的一種極端形式,因為其保留所有的訓練集數(shù)據(jù)作為模型的一部分。
kNN是一個競爭學習算法,因為為了做出決策,模型內部元素(數(shù)據(jù)實例)需要互相競爭。 數(shù)據(jù)實例之間客觀相似度的計算,促使每個數(shù)據(jù)實例都希望在競爭中“獲勝”或者盡可能地與給定的未知數(shù)據(jù)實例相似,繼而在預測中做出貢獻。
懶惰學習是指直到需要預測時算法才建立模型。它很懶,因為它只在最后一刻才開始工作。優(yōu)點是只包含了與未知數(shù)據(jù)相關的數(shù)據(jù),稱之為局部模型。缺點是,在大型訓練數(shù)據(jù)集中會重復相同或相似的搜索過程,帶來昂貴的計算開銷。
最后,kNN的強大之處在于它對數(shù)據(jù)不進行任何假設,除了任意兩個數(shù)據(jù)實例之間距離的一致計算。因此,它被稱為成為無參數(shù)或者非線性的,因為它沒有預設的函數(shù)模型。
用python寫程序真的好舒服。
import numpy as np def read_data(filename): '''讀取文本數(shù)據(jù),格式:特征1 特征2 …… 類別''' f=open(filename,'rt') row_list=f.readlines() #以每行作為列表 f.close() data_array=[] labels_vector=[] while True: if not row_list: break row=row_list.pop(0).strip().split('\t') #去除換行號,分割制表符 temp_data_row=[float(a) for a in row[:-1]] #將字符型轉換為浮點型 data_array.append(temp_data_row) #取特征值 labels_vector.append(row[-1]) #取最后一個作為類別標簽 return np.array(data_array),np.array(labels_vector) def classify(test_data,dataset,labels,k): '''分類''' diff_dis_array=test_data-dataset #使用numpy的broadcasting dis_array=(np.add.reduce(diff_dis_array**2,axis=-1))**0.5 #求距離 dis_array_index=np.argsort(dis_array) #升序距離的索引 class_count={} for i in range(k): temp_label=labels[dis_array_index[i]] class_count[temp_label]=class_count.get(temp_label,0)+1 #獲取類別及其次數(shù)的字典 sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True) #字典的值按降序排列 return sorted_class_count[0][0] #返回元組列表的[0][0] def normalize(dataset): '''數(shù)據(jù)歸一化''' return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0)) k=3 #近鄰數(shù) test_data=[0,0] #待分類數(shù)據(jù) data,labels=read_data('testdata.txt') print('數(shù)據(jù)集:\n',data) print('標簽集:\n',labels) result=classify(test_data,normalize(data),labels,k) print('分類結果:',result)
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
python opencv3實現(xiàn)人臉識別(windows)
這篇文章主要為大家詳細介紹了python opencv3實現(xiàn)人臉識別程序,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-05-05anaconda升級sklearn版本的實現(xiàn)方法
這篇文章主要介紹了anaconda升級sklearn版本的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-02-02Python實現(xiàn)Canny及Hough算法代碼實例解析
這篇文章主要介紹了Python實現(xiàn)Canny與Hough算法代碼實例解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-08-08卷積神經(jīng)網(wǎng)絡經(jīng)典模型及其改進點學習匯總
這篇文章主要為大家介紹了卷積神經(jīng)網(wǎng)絡經(jīng)典模型及其改進點學習匯總,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05