人工智能——K-Means聚類算法及Python實(shí)現(xiàn)

更新時間：2022年01月26日 14:16:47 作者：是夢吧，是你吧！

這篇文章主要介紹了人工智能——K-Means聚類算法及Python實(shí)現(xiàn)，一個能夠找到我圈出的這?些點(diǎn)集的算法，就被稱為聚類算法，下面就來看看文章具體的介紹吧

1 概述

1.1 無監(jiān)督學(xué)習(xí)

在一個典型的監(jiān)督學(xué)習(xí)中，我們有一個有標(biāo)簽的訓(xùn)練集，我們的目標(biāo)是找到能夠區(qū)分正
樣本和負(fù)樣本的決策邊界，在這里的監(jiān)督學(xué)習(xí)中，我們有一系列標(biāo)簽，我們需要據(jù)此擬合一
個假設(shè)函數(shù)。與此不同的是，在非監(jiān)督學(xué)習(xí)中，我們的數(shù)據(jù)沒有附帶任何標(biāo)簽，我們拿到的
數(shù)據(jù)就是這樣的：

在這里我們有一系列點(diǎn)，卻沒有標(biāo)簽。因此，我們的訓(xùn)練集可以寫成只有：

我們沒有任何標(biāo)簽?。因此，圖上畫的這些點(diǎn)沒有標(biāo)簽信息。也就是說，在非監(jiān) 督學(xué)習(xí)中，我們需要將一系列無標(biāo)簽的訓(xùn)練數(shù)據(jù)，輸入到一個算法中，然后我們告訴這個算法，快去為我們找找這個數(shù)據(jù)的內(nèi)在結(jié)構(gòu)給定數(shù)據(jù)。我們可能需要某種算法幫助我們尋找一種結(jié)構(gòu)。圖上的數(shù)據(jù)看起來可以分成兩個分開的點(diǎn)集（稱為簇），一個能夠找到我圈出的這些點(diǎn)集的算法，就被稱為聚類算法。
這將是我們介紹的第一個非監(jiān)督學(xué)習(xí)算法。當(dāng)然，此后我們還將提到其他類型的非監(jiān)督
學(xué)習(xí)算法，它們可以為我們找到其他類型的結(jié)構(gòu)或者其他的一些模式，而不只是簇。

我們將先介紹聚類算法。此后，我們將陸續(xù)介紹其他算法。那么聚類算法一般用來做什
么呢？

比如市場分割。也許你在數(shù)據(jù)庫中存儲了許多客戶的信息，而你希望將他們分成不同的客戶群，這樣你可以對不同類型的客戶分別銷售產(chǎn)品或者分別提供更適合的服務(wù)。社交網(wǎng)絡(luò)分析：事實(shí)上有許多研究人員正在研究這樣一些內(nèi)容，他們關(guān)注一群人，關(guān)注社交網(wǎng)絡(luò)，例如 Facebook ， Google+，或者是其他的一些信息，比如說：你經(jīng)常跟哪些人聯(lián)系，而這些人又經(jīng)常給哪些人發(fā)郵件，由此找到關(guān)系密切的人群。因此，這可能需要另一個聚類算法，你希望用它發(fā)現(xiàn)社交網(wǎng)絡(luò)中關(guān)系密切的朋友。研究這個問題，希望使用聚類算法來更好的組織計算機(jī)集群，或者更好的管理數(shù)據(jù)中心。因?yàn)槿绻阒罃?shù)據(jù)中心中，那些計算機(jī)經(jīng)常協(xié)作工作。那么，你可以重新分配資源，重新布局網(wǎng)絡(luò)。由此優(yōu)化數(shù)據(jù)中心，優(yōu)化數(shù)據(jù)通信。
最后，我實(shí)際上還在研究如何利用聚類算法了解星系的形成。然后用這個知識，了解一
些天文學(xué)上的細(xì)節(jié)問題。好的，這就是聚類算法。這將是我們介紹的第一個非監(jiān)督學(xué)習(xí)算法,接下來，我們將開始介紹一個具體的聚類算法。

1.2 聚類

1.3 K-Mean均值算法

2 K-Mean均值算法

2.1 引入

K- 均值是最普及的聚類算法，算法接受一個未標(biāo)記的數(shù)據(jù)集，然后將數(shù)據(jù)聚類成不同的
組

步驟：

設(shè)定 K 個類別的中心的初值；
計算每個樣本到 K個中心的距離，按最近距離進(jìn)行分類；
以每個類別中樣本的均值，更新該類別的中心；
重復(fù)迭代以上步驟，直到達(dá)到終止條件（迭代次數(shù)、最小平方誤差、簇中心點(diǎn)變化率）。

下面是一個聚類示例：

K-means聚類算法：

K-均值算法的偽代碼如下：

Repeat {
for i = 1 to m
c(i) := index (form 1 to K) of cluster centroid closest to x(i)
for k = 1 to K
μk := average (mean) of points assigned to cluster k
}

算法分為兩個步驟，第一個 for 循環(huán)是賦值步驟，即：對于每一個樣例 i ，計算其應(yīng)該屬
于的類。第二個 for 循環(huán)是聚類中心的移動，即：對于每一個類K ，重新計算該類的質(zhì)心。

from sklearn.cluster import KMeans ?# 導(dǎo)入 sklearn.cluster.KMeans 類
import numpy as np
?
X = np.array([[1,2], [1,4], [1,0], [10,2], [10,4], [10,0]])
kmCluster = KMeans(n_clusters=2).fit(X) ?# 建立模型并進(jìn)行聚類，設(shè)定 K=2
print("聚類中心坐標(biāo):",kmCluster.cluster_centers_) ?# 返回每個聚類中心的坐標(biāo)
print("分類結(jié)果:",kmCluster.labels_) ?# 返回樣本集的分類結(jié)果
print("顯示預(yù)測判斷:",kmCluster.predict([[0, 0], [12, 3]])) ?# 根據(jù)模型聚類結(jié)果進(jìn)行預(yù)測判斷

聚類中心坐標(biāo): [[10. ?2.]
?[ 1. ?2.]]
分類結(jié)果: [1 1 1 0 0 0]
顯示預(yù)測判斷: [1 0]
?
Process finished with exit code 0

2.2 針對大樣本集的改進(jìn)算法：Mini Batch K-Means

對于樣本集巨大的問題，例如樣本量大于 10萬、特征變量大于100，K-Means算法耗費(fèi)的速度和內(nèi)存很大。SKlearn 提供了針對大樣本集的改進(jìn)算法Mini Batch K-Means，并不使用全部樣本數(shù)據(jù)，而是每次抽樣選取小樣本集進(jìn)行 K-Means聚類，進(jìn)行循環(huán)迭代。Mini Batch K-Means 雖然性能略有降低，但極大的提高了運(yùn)行速度和內(nèi)存占用?！?/p>

from sklearn.cluster import MiniBatchKMeans # 導(dǎo)入 .MiniBatchKMeans 類
import numpy as np
X = np.array([[1,2], [1,4], [1,0], [4,2], [4,0], [4,4],
? ? ? ? ? ? ? [4,5], [0,1], [2,2],[3,2], [5,5], [1,-1]])
# fit on the whole data
mbkmCluster = MiniBatchKMeans(n_clusters=3,batch_size=6,max_iter=10).fit(X)
print("聚類中心的坐標(biāo):",mbkmCluster.cluster_centers_) # 返回每個聚類中心的坐標(biāo)
print("樣本集的分類結(jié)果:",mbkmCluster.labels_) ?# 返回樣本集的分類結(jié)果
print("顯示判斷結(jié)果：樣本屬于哪個類別:",mbkmCluster.predict([[0,0], [4,5]])) ?# 根據(jù)模型聚類結(jié)果進(jìn)行預(yù)測判斷

聚類中心的坐標(biāo): [[ 2.55932203 ?1.76271186]
?[ 0.75862069 -0.20689655]
?[ 4.20588235 ?4.5 ? ? ? ]]
樣本集的分類結(jié)果: [0 0 1 0 0 2 2 1 0 0 2 1]
顯示判斷結(jié)果：樣本屬于哪個類別: [1 2]
?
Process finished with exit code 0

2.3 圖像

from sklearn.cluster import kmeans_plusplus
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
?
# Generate sample data
n_samples = 4000
n_components = 4
?
X, y_true = make_blobs(
? ? n_samples=n_samples, centers=n_components, cluster_std=0.60, random_state=0
)
X = X[:, ::-1]
?
# Calculate seeds from kmeans++
centers_init, indices = kmeans_plusplus(X, n_clusters=4, random_state=0)
?
# Plot init seeds along side sample data
plt.figure(1)
colors = ["#4EACC5", "#FF9C34", "#4E9A06", "m"]
?
for k, col in enumerate(colors):
? ? cluster_data = y_true == k
? ? plt.scatter(X[cluster_data, 0], X[cluster_data, 1], c=col, marker=".", s=10)
?
plt.scatter(centers_init[:, 0], centers_init[:, 1], c="b", s=50)
plt.title("K-Means++ Initialization")
plt.xticks([])
plt.yticks([])
plt.show()

3 案例1

3.1 代碼

# ?-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans, MiniBatchKMeans
?
def main():
? ? # 讀取數(shù)據(jù)文件
? ? file = pd.read_excel('K-Means.xlsx', header=0) ?# 首行為標(biāo)題行
? ? file = file.dropna() ?# 刪除含有缺失值的數(shù)據(jù)
? ? # print(file.dtypes) ?# 查看 df 各列的數(shù)據(jù)類型
? ? # print(file.shape) ?# 查看 df 的行數(shù)和列數(shù)
? ? print(file.head())
?
? ? # 數(shù)據(jù)準(zhǔn)備
? ? z_scaler = lambda x:(x-np.mean(x))/np.std(x) ?# 定義數(shù)據(jù)標(biāo)準(zhǔn)化函數(shù)
? ? dfScaler = file[['D1','D2','D3','D4','D5','D6','D7','D8','D9','D10']].apply(z_scaler) ?# 數(shù)據(jù)歸一化
? ? dfData = pd.concat([file[['地區(qū)']], dfScaler], axis=1) ?# 列級別合并
? ? df = dfData.loc[:,['D1','D2','D3','D4','D5','D6','D7','D8','D9','D10']] ?# 基于全部 10個特征聚類分析
? ? # df = dfData.loc[:,['D1','D2','D7','D8','D9','D10']] ?# 降維后選取 6個特征聚類分析
? ? X = np.array(df) ?# 準(zhǔn)備 sklearn.cluster.KMeans 模型數(shù)據(jù)
? ? print("Shape of cluster data:", X.shape)
?
? ? # KMeans 聚類分析(sklearn.cluster.KMeans)
? ? nCluster = 4
? ? kmCluster = KMeans(n_clusters=nCluster).fit(X) ?# 建立模型并進(jìn)行聚類，設(shè)定 K=4
? ? print("Cluster centers:\n", kmCluster.cluster_centers_) ?# 返回每個聚類中心的坐標(biāo)
? ? print("Cluster results:\n", kmCluster.labels_) ?# 返回樣本集的分類結(jié)果
?
? ? # 整理聚類結(jié)果(太棒啦！)
? ? listName = dfData['地區(qū)'].tolist() ?# 將 dfData 的首列 '地區(qū)' 轉(zhuǎn)換為 list
? ? dictCluster = dict(zip(listName,kmCluster.labels_)) ?# 將 listName 與聚類結(jié)果關(guān)聯(lián)，組成字典
? ? listCluster = [[] for k in range(nCluster)]
? ? for v in range(0, len(dictCluster)):
? ? ? ? k = list(dictCluster.values())[v] ?# 第v個城市的分類是 k
? ? ? ? listCluster[k].append(list(dictCluster.keys())[v]) ?# 將第v個城市添加到 第k類
? ? print("\n聚類分析結(jié)果(分為{}類):".format(nCluster)) ?# 返回樣本集的分類結(jié)果
? ? for k in range(nCluster):
? ? ? ? print("第 {} 類：{}".format(k, listCluster[k])) ?# 顯示第 k 類的結(jié)果
?
? ? return
?
if __name__ == '__main__':
? ? main()

3.2 結(jié)果

地區(qū) D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
0 北京 5.96 310 461 1557 931 319 44.36 2615 2.20 13631
1 上海 3.39 234 308 1035 498 161 35.02 3052 0.90 12665
2 天津 2.35 157 229 713 295 109 38.40 3031 0.86 9385
3 陜西 1.35 81 111 364 150 58 30.45 2699 1.22 7881
4 遼寧 1.50 88 128 421 144 58 34.30 2808 0.54 7733
Shape of cluster data: (30, 10)
Cluster centers:
[[-3.04626787e-01 -2.89307971e-01 -2.90845727e-01 -2.88480032e-01
-2.85445404e-01 -2.85283077e-01 -6.22770669e-02 1.12938023e-03
-2.71308432e-01 -3.03408599e-01]
[ 4.44318512e+00 3.97251590e+00 4.16079449e+00 4.20994153e+00
4.61768098e+00 4.65296699e+00 2.45321197e+00 4.02147595e-01
4.22779099e+00 2.44672575e+00]
[ 1.52987871e+00 2.10479182e+00 1.97836141e+00 1.92037518e+00
1.54974999e+00 1.50344182e+00 1.13526879e+00 1.13595799e+00
8.39397483e-01 1.38149832e+00]
[ 4.17353928e-01 -6.60092295e-01 -5.55528420e-01 -5.50211065e-01
-2.95600461e-01 -2.42490616e-01 -3.10454580e+00 -2.70342746e+00
1.14743326e+00 2.67890118e+00]]
Cluster results:
[1 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0]

聚類分析結(jié)果(分為4類):
第 0 類：['陜西', '遼寧', '吉林', '黑龍江', '湖北', '江蘇', '廣東', '四川', '山東', '甘肅', '湖南', '浙江', '新疆', '福建', '山西', '河北', '安徽', '云南', '江西', '海南', '內(nèi)蒙古', '河南', '廣西', '寧夏', '貴州', '青海']
第 1 類：['北京']
第 2 類：['上海', '天津']
第 3 類：['西藏']

Process finished with exit code 0

4 案例2

4.1 案例——數(shù)據(jù)

（1）數(shù)據(jù)介紹：

現(xiàn)有1999年全國31個省份城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個主要變量數(shù)據(jù)，這八個變量分別是：食品、衣著、家庭設(shè)備用品及服務(wù)、醫(yī)療保健、交通和通訊、娛樂教育文化服務(wù)、居住以及雜項(xiàng)商品和服務(wù)。利用已有數(shù)據(jù)，對31個省份進(jìn)行聚類。

（2）實(shí)驗(yàn)?zāi)康模?/strong>

通過聚類，了解 1999 年各個省份的消費(fèi)水平在國內(nèi)的情況

1999年全國31個省份城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出數(shù)據(jù)：

4.2 代碼

#*========================1. 建立工程，導(dǎo)入sklearn相關(guān)包======================================** ? import numpy as np from sklearn.cluster import KMeans ? #*======================2. 加載數(shù)據(jù)，創(chuàng)建K-means算法實(shí)例，并進(jìn)行訓(xùn)練，獲得標(biāo)簽====================** ? def loadData(filePath): ? ? fr = open(filePath, 'r+') ? ? ? ? ? ?#r+：讀寫打開一個文本文件 ? ? lines = fr.readlines() ? ? ? ? ? #.readlines() 一次讀取整個文件（類似于 .read() ) .readline() 每次只讀.readlines() 慢得多。 ? ? retData = [] ? ? ? ? ? ? ? ? ? ? #retData：用來存儲城市的各項(xiàng)消費(fèi)信息 ? ? retCityName = [] ? ? ? ? ? ? ? ? #retCityName：用來存儲城市名稱 ? ? for line in lines: ? ? ? ? items = line.strip().split(",") ? ? ? ? retCityName.append(items[0]) ? ? ? ? retData.append([float(items[i]) for i in range(1, len(items))]) ? ? return retData, retCityName ? ? ?#返回值：返回城市名稱，以及該城市的各項(xiàng)消費(fèi)信息 ? def main(): ? ? data, cityName = loadData('city.txt') ? ?#1.利用loadData方法讀取數(shù)據(jù) ? ? km = KMeans(n_clusters=4) ? ? ? ? ? ? ? ?#2.創(chuàng)建實(shí)例 ? ? label = km.fit_predict(data) ? ? ? ? ? ? #3.調(diào)用Kmeans（）fit_predict()方法進(jìn)行計算 ? ? expenses = np.sum(km.cluster_centers_, axis=1) ? ? # print(expenses) ? ? CityCluster = [[], [], [], []] ? ? ? ? ?#將城市按label分成設(shè)定的簇 ? ? for i in range(len(cityName)): ? ? ? ? CityCluster[label[i]].append(cityName[i]) ? #將每個簇的城市輸出 ? ? for i in range(len(CityCluster)): ? ? ? ? ? ? ?#將每個簇的平均花費(fèi)輸出 ? ? ? ? print("Expenses:%.2f" % expenses[i]) ? ? ? ? print(CityCluster[i]) ? if __name__ == '__main__': ? ? main() ? #*=============3. 輸出標(biāo)簽，查看結(jié)果========================================** ? #將城市按照消費(fèi)水平n_clusters類，消費(fèi)水平相近的城市聚集在一類中 #expense：聚類中心點(diǎn)的數(shù)值加和，也就是平均消費(fèi)水平 ? ?

4.3 結(jié)果

從結(jié)果可以看出消費(fèi)水平相近的省市聚集在了一類，例如消費(fèi)最高的“北京”“上海”“廣東”
聚集在了消費(fèi)最高的類別。聚4類時，結(jié)果可以比較明顯的看出消費(fèi)層級。

4.4 拓展&&改進(jìn)

計算兩條數(shù)據(jù)相似性時，Sklearn 的K-Means默認(rèn)用的是歐式距離。雖然還有余弦相似度，馬氏距離等多種方法，但沒有設(shè)定計算距離方法的參數(shù)。

（1）如果想要自定義計算距離的方式時，可以更改此處源碼。
（2）建議使用 scipy.spatial.distance.cdist 方法。

使用形式：scipy.spatial.distance.cdist(A, B, metric=‘cosine’)：

重要參數(shù)：

• A：A向量
• B：B向量
• metric: 計算A和B距離的方法，更改此參
數(shù)可以更改調(diào)用的計算距離的方法

到此這篇關(guān)于人工智能——K-Means聚類算法及Python實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān) K-Means聚類算法及Python實(shí)現(xiàn)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:
基于K-Means聚類算法演示及可視化展示
Python實(shí)現(xiàn)聚類K-means算法詳解
python實(shí)現(xiàn)k-means算法
利用python實(shí)現(xiàn)聚類分析K-means算法的詳細(xì)過程
怎樣確定K-means算法中的k值

人工智能

K-Means

聚類算法

Python

相關(guān)文章

Python協(xié)程的2種實(shí)現(xiàn)方式分享
在?Python?中，協(xié)程（Coroutine）是一種輕量級的并發(fā)編程方式，可以通過協(xié)作式多任務(wù)來實(shí)現(xiàn)高效的并發(fā)執(zhí)行。本文主要介紹了Python實(shí)現(xiàn)協(xié)程的2種方式，希望對大家有所幫助
2023-04-04

Python繪制餅圖、圓環(huán)圖的實(shí)例
這篇文章主要介紹了Python繪制餅圖、圓環(huán)圖的實(shí)例,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-02-02

Python如何自動獲取目標(biāo)網(wǎng)站最新通知
這篇文章主要介紹了Python如何自動獲取目標(biāo)網(wǎng)站最新通知,本文給大家分享實(shí)現(xiàn)思路及示例代碼，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-06-06

python提取字典key列表的方法
這篇文章主要介紹了python提取字典key列表的方法,涉及Python中keys方法的使用技巧,具有一定參考借鑒價值,需要的朋友可以參考下
2015-07-07

Python中22個萬用公式的小結(jié)
在大家的日常python程序的編寫過程中，都會有自己解決某個問題的解決辦法，或者是在程序的調(diào)試過程中，用來幫助調(diào)試的程序公式，本文總結(jié)了22個萬用公式，感興趣的可以了解一下
2021-07-07

jupyter notebook 添加kernel permission denied的操作
這篇文章主要介紹了jupyter notebook 添加kernel permission denied的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04

Tensorflow使用支持向量機(jī)擬合線性回歸
這篇文章主要為大家詳細(xì)介紹了Tensorflow使用支持向量機(jī)擬合線性回歸，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-09-09

python網(wǎng)絡(luò)編程示例(客戶端與服務(wù)端)
這篇文章主要介紹了python網(wǎng)絡(luò)編程示例，提供了客戶端與服務(wù)端,需要的朋友可以參考下
2014-04-04

python創(chuàng)建與遍歷二叉樹的方法實(shí)例
這篇文章主要給大家介紹了關(guān)于python創(chuàng)建與遍歷二叉樹的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2021-03-03

python的環(huán)境conda簡介
conda是一個包，依賴和環(huán)境管理工具，適用于多種語言，如: Python, R, Scala, Java, Javascript, C/ C++, FORTRAN，這篇文章主要介紹了python的環(huán)境conda簡介,需要的朋友可以參考下
2022-09-09

最新評論

大家感興趣的內(nèi)容

1Python入門教程超詳細(xì)1小時學(xué)會Python
2Pycharm?2020最新永久激活碼（附最新激活碼和插件
3Python 元組(Tuple)操作詳解
4Python 列表(List)操作方法詳解
5Python 字典(Dictionary)操作詳解
6Pycharm 2020年最新激活碼（親測有效）
7python strip()函數(shù) 介紹
8pycharm 使用心得（一）安裝和首次使用
9python中使用xlrd、xlwt操作excel表格詳解
10python 中文亂碼問題深入分析

最近更新的內(nèi)容

趣味Python實(shí)戰(zhàn)練習(xí)之自動更換桌面壁紙腳本附源碼
Python環(huán)境下搭建屬于自己的pip源的教程
python dataframe如何選擇某一列非空的行
python 實(shí)現(xiàn)多維數(shù)組轉(zhuǎn)向量
分析解決Python中sqlalchemy數(shù)據(jù)庫連接池QueuePool異常
在Django的視圖(View)外使用Session的方法
python中CURL 和python requests
打印tensorflow恢復(fù)模型中所有變量與操作節(jié)點(diǎn)方式
Python切片操作去除字符串首尾的空格
pytorch讀取圖像數(shù)據(jù)轉(zhuǎn)成opencv格式實(shí)例

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

人工智能——K-Means聚類算法及Python實(shí)現(xiàn)

目錄

1 概述

1.1 無監(jiān)督學(xué)習(xí)

1.2 聚類

1.3 K-Mean均值算法

2 K-Mean均值算法

2.1 引入

2.2 針對大樣本集的改進(jìn)算法：Mini Batch K-Means

2.3 圖像

3 案例1

3.1 代碼

3.2 結(jié)果

4 案例2

4.1 案例——數(shù)據(jù)

4.2 代碼

4.3 結(jié)果

4.4 拓展&&改進(jìn)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具