快捷導(dǎo)航

原生python實(shí)現(xiàn)knn分類算法

更新時(shí)間：2019年10月24日 10:27:50 作者：大俠_

這篇文章主要介紹了原生python實(shí)現(xiàn)knn分類算法，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

一、題目要求

用原生Python實(shí)現(xiàn)knn分類算法。

二、題目分析

數(shù)據(jù)來(lái)源：鳶尾花數(shù)據(jù)集（見附錄Iris.txt）

數(shù)據(jù)集包含150個(gè)數(shù)據(jù)集，分為3類，分別是：Iris Setosa（山鳶尾）、Iris Versicolour（雜色鳶尾）和Iris Virginica（維吉尼亞鳶尾）。每類有50個(gè)數(shù)據(jù)，每個(gè)數(shù)據(jù)包含四個(gè)屬性，分別是：Sepal.Length（花萼長(zhǎng)度）、Sepal.Width（花萼寬度）、Petal.Length（花瓣長(zhǎng)度）和Petal.Width（花瓣寬度）。

將得到的數(shù)據(jù)集按照7:3的比例劃分，其中7為訓(xùn)練集，3為測(cè)試集。編寫算法實(shí)現(xiàn)：學(xué)習(xí)訓(xùn)練集的數(shù)據(jù)特征來(lái)預(yù)測(cè)測(cè)試集鳶尾花的種類，并且計(jì)算出預(yù)測(cè)的準(zhǔn)確性。

KNN是通過(guò)測(cè)量不同特征值之間的距離進(jìn)行分類。它的思路是：如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別，則該樣本也屬于這個(gè)類別，其中K通常是不大于20的整數(shù)。KNN算法中，所選擇的鄰居都是已經(jīng)正確分類的對(duì)象。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來(lái)決定待分樣本所屬的類別。

三、算法設(shè)計(jì)

1）將文本文件按行分割，寫入列表datas中

def data_read(filepath): # 讀取txt文件，將讀出的內(nèi)容存入datas列表中
  fp = open(filepath, "r")
  datas = [] # 存儲(chǔ)處理后的數(shù)據(jù)
  lines = fp.readlines() # 讀取整個(gè)文件數(shù)據(jù)
  for line in lines:
    row = line.strip('\n').split(',') # 去除兩頭的換行符，按空格分割
    datas.append(row)
  fp.close()
  return datas

2）劃分?jǐn)?shù)據(jù)集與測(cè)試集，將數(shù)據(jù)集的數(shù)據(jù)存入labeldata_list列表，標(biāo)簽存入label_list列表，測(cè)試集數(shù)據(jù)存入text_list列表，標(biāo)簽存入textlabel_list列表。

3）對(duì)得到的兩個(gè)數(shù)據(jù)集的數(shù)據(jù)和標(biāo)簽列表進(jìn)行處理。將labeldata_list列表數(shù)據(jù)轉(zhuǎn)換為元組labeldata_tuple，構(gòu)造形入{labeldata_tuple: label_list}的字典mydict。這樣不僅可以去掉重復(fù)數(shù)據(jù)，而且可唯一的標(biāo)識(shí)各個(gè)數(shù)據(jù)所對(duì)應(yīng)的鳶尾花種類。

for i in range(0, 105): # 數(shù)據(jù)集按照3:7的比例劃分，其中105行為訓(xùn)練集，45行為測(cè)試集
  labeldata_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  label_list.append(datas[i][4])

for i in range(105, 150): # 測(cè)試集的數(shù)據(jù)
  text_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  textlabel_list.append(datas[i][4])

j = 0
for i in labeldata_list:
  labeldata_tuple = tuple(i)
  mydict.update({labeldata_tuple: label_list[j]})
  j = j + 1

4）計(jì)算測(cè)試集數(shù)據(jù)與各個(gè)訓(xùn)練集數(shù)據(jù)之間的距離，得到distance_list列表，外層循環(huán)進(jìn)行一次，都會(huì)有一個(gè)該測(cè)試數(shù)據(jù)所對(duì)應(yīng)的與訓(xùn)練數(shù)據(jù)最短距離。標(biāo)記出該距離對(duì)應(yīng)的訓(xùn)練集，在一個(gè)近鄰的條件下，這個(gè)訓(xùn)練集的種類，就是該測(cè)試集的種類。
在計(jì)算距離時(shí)，使用絕對(duì)距離來(lái)計(jì)算。將每個(gè)訓(xùn)練集對(duì)應(yīng)數(shù)據(jù)的屬性值相減后求和add，得到一個(gè)測(cè)試數(shù)據(jù)與每個(gè)樣本的距離，add的最小值就是距離最小值。

for i in range(len(text_list)):
  count += 1
  for j in range(len(train_list)):
    add1 = abs(float(train_list[j][0]) - float(text_list[i][0])) + abs(float(train_list[j][1])
                                      - float(text_list[i][1])) + abs(
      float(train_list[j][2]) - float(text_list[i][2])) + abs(float(train_list[j][3])
                                  - float(text_list[i][3]))
    distance_list.append(add1)
    if add > add1:
      add = add1
      index = train_list[j]
  print("預(yù)測(cè)", text_list[i], "的標(biāo)簽是：", mydict.get(index))

5）判斷預(yù)測(cè)結(jié)果的準(zhǔn)確性：將預(yù)測(cè)的測(cè)試數(shù)據(jù)種類與原始數(shù)據(jù)對(duì)比，若相同，則分子加一。

right = 0 # 分子
count = 0 # 分母
for i in range(len(text_list)):
  count += 1
  for j in range(len(train_list)):
    add1 = abs(float(train_list[j][0]) - float(text_list[i][0])) + abs(float(train_list[j][1])
                                      - float(text_list[i][1])) + abs(
      float(train_list[j][2]) - float(text_list[i][2])) + abs(float(train_list[j][3])
                                  - float(text_list[i][3]))
    distance_list.append(add1)
    if add > add1:
      add = add1
      index = train_list[j]
  print("預(yù)測(cè)", text_list[i], "的標(biāo)簽是：", mydict.get(index))
  if mydict.get(index) == textlabel_list[i]: # 當(dāng)計(jì)算出來(lái)的1個(gè)近鄰與測(cè)試集正確的標(biāo)簽相同時(shí)，分子加一
    right = right + 1
print('預(yù)測(cè)準(zhǔn)確性：{:.2f}'.format(right / count))

6）舉例，繪圖

以測(cè)試集7.6,3.0,6.6,2.1,Iris-virginica為例：
首先運(yùn)用anaconda繪制出數(shù)據(jù)集的散點(diǎn)圖，其次，將需要測(cè)試的數(shù)據(jù)于數(shù)據(jù)集繪制在同一張圖上，在一個(gè)近鄰的前提下，距離測(cè)試數(shù)據(jù)最近的點(diǎn)的標(biāo)簽即為測(cè)試數(shù)據(jù)的的標(biāo)簽。如下圖，黑色的測(cè)試點(diǎn)距離紅點(diǎn)最近，所以，測(cè)試數(shù)據(jù)的標(biāo)簽就為virginica。

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris  #導(dǎo)入數(shù)據(jù)集iris
 
#載入數(shù)據(jù)集 
iris = load_iris() 
#獲取花卉兩列數(shù)據(jù)集 
DD = iris.data 
X = [x[0] for x in DD] 
Y = [x[1] for x in DD] 
#plt.scatter(7.6,3.0, color='black', marker='o')
plt.scatter(X[:50], Y[:50], color='red', marker='o', label='setosa') #前50個(gè)樣本
plt.scatter(X[50:100], Y[50:100], color='blue', marker='x', label='versicolor') #中間50個(gè)
plt.scatter(X[100:], Y[100:],color='green', marker='+', label='Virginica') #后50個(gè)樣本
plt.legend(loc=2) #左上角
plt.show()

算法數(shù)據(jù)流圖：

在這里插入圖片描述

計(jì)算各個(gè)測(cè)試數(shù)據(jù)與訓(xùn)練集間距離詳細(xì)流程圖：

在這里插入圖片描述

五、測(cè)試

導(dǎo)入數(shù)據(jù)集

在這里插入圖片描述

劃分?jǐn)?shù)據(jù)集

訓(xùn)練集：

在這里插入圖片描述

測(cè)試集：

在這里插入圖片描述

對(duì)得到的兩個(gè)數(shù)據(jù)集的數(shù)據(jù)和標(biāo)簽列表進(jìn)行處理

在這里插入圖片描述

計(jì)算測(cè)試集數(shù)據(jù)與各個(gè)訓(xùn)練集數(shù)據(jù)之間的距離

在這里插入圖片描述

判斷預(yù)測(cè)結(jié)果的準(zhǔn)確性

在這里插入圖片描述

繪圖舉例

在這里插入圖片描述

五、運(yùn)行結(jié)果

1.對(duì)測(cè)試集所有數(shù)據(jù)進(jìn)行預(yù)測(cè)，得到預(yù)測(cè)測(cè)試集的標(biāo)簽與預(yù)測(cè)準(zhǔn)確性

在這里插入圖片描述

繪出散點(diǎn)圖：7.6,3.0,6.6,2.1,Iris-virginica作為測(cè)試集的舉例

六、總結(jié)

學(xué)習(xí)了關(guān)于繪圖的函數(shù)與庫(kù)
發(fā)現(xiàn)在繪圖方面anaconde比pycharm要方便的多

對(duì)向量之間的距離公式進(jìn)行了復(fù)習(xí)
除了這次作業(yè)中使用到的絕對(duì)距離之外，還有：
a)歐氏距離
兩個(gè)n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的歐氏距離：
在這里插入圖片描述
b)曼哈頓距離
兩個(gè)n維向量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的曼哈頓距離

c)閔可夫斯基距離
兩個(gè)n維變量a(x11,x12,…,x1n)與 b(x21,x22,…,x2n)間的閔可夫斯基距離定義為：

對(duì)文件的讀操作進(jìn)行使用

算法缺點(diǎn)：用了許多for循環(huán)，會(huì)降低效率，增加算法的時(shí)間復(fù)雜度；只是一個(gè)近鄰的判斷依據(jù)

七、源代碼

def data_read(filepath): # 讀取txt文件，將讀出的內(nèi)容存入datas列表中
  fp = open(filepath, "r")
  datas = [] # 存儲(chǔ)處理后的數(shù)據(jù)
  lines = fp.readlines() # 讀取整個(gè)文件數(shù)據(jù)
  for line in lines:
    row = line.strip('\n').split(',') # 去除兩頭的換行符，按空格分割
    datas.append(row)
  fp.close()
  return datas


datas = data_read("iris .txt")

labeldata_list = [] # 訓(xùn)練集的數(shù)據(jù)
label_list = [] # 訓(xùn)練集的標(biāo)簽
text_list = [] # 測(cè)試集數(shù)據(jù)
textlabel_list = [] # 測(cè)試集標(biāo)簽
labeldata_tuple = () # 轉(zhuǎn)換列表為元組
mydict = {} # 以四維數(shù)據(jù)為鍵，以鳶尾花的特征為值。這樣便可唯一標(biāo)識(shí)

'''
劃分?jǐn)?shù)據(jù)集與測(cè)試集，將數(shù)據(jù)集的數(shù)據(jù)存入labeldata_list列表，標(biāo)簽存入label_list列表，
測(cè)試集數(shù)據(jù)存入text_list列表，標(biāo)簽存入textlabel_list列表。
'''
for i in range(0, 105): # 數(shù)據(jù)集按照3:7的比例劃分，其中105行為訓(xùn)練集，45行為測(cè)試集
  labeldata_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  label_list.append(datas[i][4])

for i in range(105, 150): # 測(cè)試集的數(shù)據(jù)
  text_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  textlabel_list.append(datas[i][4])

j = 0
for i in labeldata_list:
  labeldata_tuple = tuple(i)
  mydict.update({labeldata_tuple: label_list[j]})
  j = j + 1


add = 100
index = 0
distance_list = []
train_list = []
for key, value in mydict.items():
  train_list.append(key)

right = 0 # 分子
count = 0 # 分母
'''
在計(jì)算距離時(shí)，使用絕對(duì)距離來(lái)計(jì)算。
將每個(gè)訓(xùn)練集對(duì)應(yīng)數(shù)據(jù)的屬性值相減后求和add，
得到一個(gè)測(cè)試數(shù)據(jù)與每個(gè)樣本的距離，add的最小值就是距離最小值。
'''
for i in range(len(text_list)):
  count += 1
  for j in range(len(train_list)):
    add1 = abs(float(train_list[j][0]) - float(text_list[i][0])) + abs(float(train_list[j][1])
                                      - float(text_list[i][1])) + abs(
      float(train_list[j][2]) - float(text_list[i][2])) + abs(float(train_list[j][3])
                                  - float(text_list[i][3]))
    distance_list.append(add1)
    if add > add1:
      add = add1
      index = train_list[j]
  print("預(yù)測(cè)", text_list[i], "的標(biāo)簽是：", mydict.get(index))
  if mydict.get(index) == textlabel_list[i]: # 當(dāng)計(jì)算出來(lái)的1個(gè)近鄰與測(cè)試集正確的標(biāo)簽相同時(shí)，分子加一
    right = right + 1
print('預(yù)測(cè)準(zhǔn)確性：{:.2f}'.format(right / count))

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: