快捷導(dǎo)航

Python機(jī)器學(xué)習(xí)iris數(shù)據(jù)集預(yù)處理和模型訓(xùn)練方式

更新時(shí)間：2024年10月17日 10:13:42 作者：SuperYiY

iris數(shù)據(jù)集包含150個(gè)樣本,每個(gè)樣本有4個(gè)特征及其類別信息,本文介紹了iris數(shù)據(jù)集的基本操作和如何使用knn模型進(jìn)行花卉種類預(yù)測(cè),是機(jī)器學(xué)習(xí)中的經(jīng)典案例,適用于監(jiān)督式學(xué)習(xí)

一、iris數(shù)據(jù)集簡(jiǎn)介

iris數(shù)據(jù)集的中文名是安德森鳶尾花卉數(shù)據(jù)集，英文全稱是Anderson`s Iris data set。iris包含150個(gè)樣本，對(duì)應(yīng)數(shù)據(jù)集的每行數(shù)據(jù)。

每行數(shù)據(jù)包含每個(gè)樣本的四個(gè)特征和樣本的類別信息，所以iris數(shù)據(jù)集是一個(gè)150行5列的二維表。

通俗地說(shuō)，iris數(shù)據(jù)集是用來(lái)給花做分類的數(shù)據(jù)集，每個(gè)樣本包含了花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度四個(gè)特征（前4列），我們需要建立一個(gè)分類器，分類器可以通過(guò)樣本的四個(gè)特征來(lái)判斷樣本屬于山鳶尾（setosa）、變色鳶尾（versicolor）、維吉尼亞鳶尾（virginica）這三個(gè)名詞都是花的品種。iris的每個(gè)樣本都包含了品種信息，即目標(biāo)屬性（第5列，也叫target或label）

如圖所示部分?jǐn)?shù)據(jù)：

iris在機(jī)器學(xué)習(xí)中的應(yīng)用：

屬于監(jiān)督式學(xué)習(xí)應(yīng)用：根據(jù)花的四個(gè)特征預(yù)測(cè)鳶尾花卉屬于（iris-setosa，iris-versicolour，iris-virginica）中的那一品種。
機(jī)器學(xué)習(xí)中經(jīng)典案例，簡(jiǎn)單而具有代表性。

二、基本數(shù)據(jù)操作和模型訓(xùn)練

1.加載iris數(shù)據(jù)集

# iris數(shù)據(jù)集加載
from sklearn import datasets
iris = datasets.load_iris()

2.展示所有數(shù)據(jù)

#展示數(shù)據(jù)
print(iris.data
    )

3.展示每列的屬性名

print(iris.feature_names)

4.展示輸出目標(biāo)結(jié)果以及結(jié)果的含義

print(iris.target)
print(iris.target_names)

5.查看輸入和輸出數(shù)據(jù)類型

print(type(iris.data))
print(type(iris.target))

6.確認(rèn)行列維度

print(iris.data.shape)
print(iris.target.shape)

7.給x，y賦值

X =iris.data
Y = iris.target

8.利用knn模型進(jìn)行預(yù)測(cè)結(jié)果

from sklearn.neighbors import KNeighborsClassifier
#創(chuàng)建實(shí)例，假設(shè)k值為1
knn = KNeighborsClassifier(n_neighbors=1）
#訓(xùn)練數(shù)據(jù)集模型
knn.fit(x,y)

9.給定特征的值預(yù)測(cè)花的品種

#預(yù)測(cè)某種花的品種
knn.predict([[1,2,3,4]])

得到數(shù)組的數(shù)據(jù) “2” ，它代表的是花萼長(zhǎng)度為1、花萼寬度為2、花瓣長(zhǎng)度為3、花瓣寬度為4的鳶尾花卉預(yù)測(cè)結(jié)果的品種是第三種：維吉尼亞鳶尾（virginica）

#多種花的預(yù)測(cè)
x_test = [[1,2,3,4],[2,4,1,2]]
knn.predict(x_test)
`

得到數(shù)組的數(shù)據(jù) “2” 和 “0”，它代表的是

花萼長(zhǎng)度為1、花萼寬度為2、花瓣長(zhǎng)度為3、花瓣寬度為4的鳶尾花卉預(yù)測(cè)結(jié)果的品種是第三種：維吉尼亞鳶尾（virginica）
花萼長(zhǎng)度為2、花萼寬度為4、花瓣長(zhǎng)度為1、花瓣寬度為2的鳶尾花卉預(yù)測(cè)結(jié)果的品種是第一種：山鳶尾（setosa）