欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

怎樣確定K-means算法中的k值

 更新時(shí)間:2024年06月29日 11:05:05   作者:Sun_Sherry  
這篇文章主要介紹了怎樣確定K-means算法中的k值問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

1. K-means算法

k-means算法是機(jī)器學(xué)習(xí)中常用的聚類算法,原理簡(jiǎn)單實(shí)現(xiàn)容易,內(nèi)存占用量也比較小。但使用這個(gè)方法時(shí),需要事先指定將要聚合成的簇?cái)?shù)

在先驗(yàn)知識(shí)缺乏的情況下,想要確定是非常困難的。

目前常用的用來(lái)確定的方法主要有兩種:肘部法、輪廓系數(shù)法。

2. 初始k值的選擇

1) 肘部法

肘部法所使用的聚類評(píng)價(jià)指標(biāo)為:數(shù)據(jù)集中所有樣本點(diǎn)到其簇中心的距離之和的平方。但是肘部法選擇的并不是誤差平方和最小的,而是誤差平方和突然變小時(shí)對(duì)應(yīng)的值。

2) 輪廓系數(shù)法

輪廓系數(shù)是一種非常常用的聚類效果評(píng)價(jià)指標(biāo)。該指標(biāo)結(jié)合了內(nèi)聚度和分離度兩個(gè)因素。其具體計(jì)算過程如下:

假設(shè)已經(jīng)通過聚類算法將待分類的數(shù)據(jù)進(jìn)行了聚類,并最終得到了個(gè)簇。

對(duì)于每個(gè)簇中的每個(gè)樣本點(diǎn),分別計(jì)算其輪廓系數(shù)。

具體地,需要對(duì)每個(gè)樣本點(diǎn)計(jì)算以下兩個(gè)指標(biāo):

:樣本點(diǎn)到與其屬于同一個(gè)簇的其他樣本點(diǎn)的距離的平均值。

越小,說明該樣本屬于該類的可能性越大。

:樣本點(diǎn)到其他簇中的所有樣本的平均距離的最小值 ,

則樣本點(diǎn)的輪廓系數(shù)為:

而所有樣本點(diǎn)的輪廓系數(shù)的平均值,即為該聚類結(jié)果總的輪廓系數(shù)

,越接近與1,聚類效果越好。

3) 具體案例

先利用sklearn.datasets中的方法生成自己的聚類數(shù)據(jù)集。

具體如下:

對(duì)數(shù)據(jù)x進(jìn)行歸一化(因?yàn)镵Means算法中涉及到距離的計(jì)算),具體如下:

使用肘部法確定值,其代碼如下:

使用輪廓系數(shù)確定值,其代碼如下:

總結(jié)

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

最新評(píng)論