python實(shí)現(xiàn)密度聚類(模板代碼+sklearn代碼)
本人在此就不搬運(yùn)書上關(guān)于密度聚類的理論知識(shí)了,僅僅實(shí)現(xiàn)密度聚類的模板代碼和調(diào)用skelarn的密度聚類算法。
有人好奇,為什么有sklearn庫(kù)了還要自己去實(shí)現(xiàn)呢?其實(shí),庫(kù)的代碼是比自己寫的高效且容易,但自己實(shí)現(xiàn)代碼會(huì)對(duì)自己對(duì)算法的理解更上一層樓。
#調(diào)用科學(xué)計(jì)算包與繪圖包 import numpy as np import random import matplotlib.pyplot as plt
# 獲取數(shù)據(jù) def loadDataSet(filename): dataSet=np.loadtxt(filename,dtype=np.float32,delimiter=',') return dataSet
#計(jì)算兩個(gè)向量之間的歐式距離 def calDist(X1 , X2 ): sum = 0 for x1 , x2 in zip(X1 , X2): sum += (x1 - x2) ** 2 return sum ** 0.5
#獲取一個(gè)點(diǎn)的ε-鄰域(記錄的是索引) def getNeibor(data , dataSet , e): res = [] for i in range(dataSet.shape[0]): if calDist(data , dataSet[i])<e: res.append(i) return res
#密度聚類算法 def DBSCAN(dataSet , e , minPts): coreObjs = {}#初始化核心對(duì)象集合 C = {} n = dataSet.shape[0] #找出所有核心對(duì)象,key是核心對(duì)象的index,value是ε-鄰域中對(duì)象的index for i in range(n): neibor = getNeibor(dataSet[i] , dataSet , e) if len(neibor)>=minPts: coreObjs[i] = neibor oldCoreObjs = coreObjs.copy() k = 0#初始化聚類簇?cái)?shù) notAccess = list(range(n))#初始化未訪問(wèn)樣本集合(索引) while len(coreObjs)>0: OldNotAccess = [] OldNotAccess.extend(notAccess) cores = coreObjs.keys() #隨機(jī)選取一個(gè)核心對(duì)象 randNum = random.randint(0,len(cores)-1) cores=list(cores) core = cores[randNum] queue = [] queue.append(core) notAccess.remove(core) while len(queue)>0: q = queue[0] del queue[0] if q in oldCoreObjs.keys() : delte = [val for val in oldCoreObjs[q] if val in notAccess]#Δ = N(q)∩Γ queue.extend(delte)#將Δ中的樣本加入隊(duì)列Q notAccess = [val for val in notAccess if val not in delte]#Γ = Γ\Δ k += 1 C[k] = [val for val in OldNotAccess if val not in notAccess] for x in C[k]: if x in coreObjs.keys(): del coreObjs[x] return C
# 代碼入口 dataSet = loadDataSet(r"E:\jupyter\sklearn學(xué)習(xí)\sklearn聚類\DataSet.txt") print(dataSet) print(dataSet.shape) C = DBSCAN(dataSet, 0.11, 5) draw(C, dataSet)
結(jié)果圖:
下面是調(diào)用sklearn庫(kù)的實(shí)現(xiàn)
db = skc.DBSCAN(eps=1.5, min_samples=3).fit(dataSet) #DBSCAN聚類方法 還有參數(shù),matric = ""距離計(jì)算方法 labels = db.labels_ #和X同一個(gè)維度,labels對(duì)應(yīng)索引序號(hào)的值 為她所在簇的序號(hào)。若簇編號(hào)為-1,表示為噪聲 print('每個(gè)樣本的簇標(biāo)號(hào):') print(labels) raito = len(labels[labels[:] == -1]) / len(labels) #計(jì)算噪聲點(diǎn)個(gè)數(shù)占總數(shù)的比例 print('噪聲比:', format(raito, '.2%')) n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0) # 獲取分簇的數(shù)目 print('分簇的數(shù)目: %d' % n_clusters_) print("輪廓系數(shù): %0.3f" % metrics.silhouette_score(X, labels)) #輪廓系數(shù)評(píng)價(jià)聚類的好壞 for i in range(n_clusters_): print('簇 ', i, '的所有樣本:') one_cluster = X[labels == i] print(one_cluster) plt.plot(one_cluster[:,0],one_cluster[:,1],'o') plt.show()
到此這篇關(guān)于python實(shí)現(xiàn)密度聚類(模板代碼+sklearn代碼)的文章就介紹到這了,更多相關(guān)python 密度聚類內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python數(shù)據(jù)分析之用sklearn預(yù)測(cè)糖尿病
- Python之Sklearn使用入門教程
- 運(yùn)行python提示no module named sklearn的解決方法
- python安裝sklearn模塊的方法詳解
- python3.6中anaconda安裝sklearn踩坑實(shí)錄
- Python sklearn中的.fit與.predict的用法說(shuō)明
- python實(shí)點(diǎn)云分割k-means(sklearn)詳解
- python中sklearn的pipeline模塊實(shí)例詳解
- python sklearn包——混淆矩陣、分類報(bào)告等自動(dòng)生成方式
- Python sklearn庫(kù)實(shí)現(xiàn)PCA教程(以鳶尾花分類為例)
- Python 機(jī)器學(xué)習(xí)工具包SKlearn的安裝與使用
相關(guān)文章
Python繪圖示例程序中的幾個(gè)語(yǔ)法糖果你知道嗎
這篇文章主要為大家詳細(xì)介紹了Python繪圖示例程序中的幾個(gè)語(yǔ)法糖果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助2022-02-02Python MongoDB 插入數(shù)據(jù)時(shí)已存在則不執(zhí)行,不存在則插入的解決方法
這篇文章主要介紹了Python MongoDB 插入數(shù)據(jù)時(shí)已存在則不執(zhí)行,不存在則插入的解決方法,結(jié)合實(shí)例形式分析了Python基于日志判斷數(shù)據(jù)是否已經(jīng)插入的相關(guān)操作技巧,需要的朋友可以參考下2019-09-09Python實(shí)現(xiàn)雙人五子棋對(duì)局
這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)雙人五子棋對(duì)局,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-05-05利用tkinter實(shí)現(xiàn)下拉框聯(lián)動(dòng)
這篇文章主要介紹了利用tkinter實(shí)現(xiàn)下拉框聯(lián)動(dòng)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-01-01python進(jìn)行數(shù)據(jù)預(yù)處理的4個(gè)重要步驟
在數(shù)據(jù)科學(xué)項(xiàng)目中,數(shù)據(jù)預(yù)處理是最重要的事情之一,本文詳細(xì)給大家介紹python進(jìn)行數(shù)據(jù)預(yù)處理的4個(gè)重要步驟:拆分訓(xùn)練集和測(cè)試集,處理缺失值,處理分類特征和進(jìn)行標(biāo)準(zhǔn)化處理,需要的朋友可以參考下2023-06-06Python批量對(duì)word文檔進(jìn)行操作步驟
這篇文章主要介紹了Python批量對(duì)word文檔進(jìn)行操作,一步步逐步完成創(chuàng)建文檔,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2022-02-02使用python自動(dòng)追蹤你的快遞(物流推送郵箱)
本文講解如何讓 python自動(dòng)為你查詢快遞信息 ,并在物流發(fā)生更新或者到達(dá)指定地點(diǎn)時(shí)第一時(shí)間將 物流推送至你的郵箱,本文通過(guò)實(shí)例代碼截圖的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2020-03-03jupyter notebook實(shí)現(xiàn)顯示行號(hào)
這篇文章主要介紹了jupyter notebook實(shí)現(xiàn)顯示行號(hào),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-04-04