Python sklearn分類決策樹(shù)方法詳解
決策樹(shù)模型
決策樹(shù)(decision tree)是一種基本的分類與回歸方法。
分類決策樹(shù)模型是一種描述對(duì)實(shí)例進(jìn)行分類的樹(shù)形結(jié)構(gòu)。決策樹(shù)由結(jié)點(diǎn)(node)和有向邊(directed edge)組成。結(jié)點(diǎn)有兩種類型:內(nèi)部結(jié)點(diǎn)(internal node)和葉結(jié)點(diǎn)(leaf node)。內(nèi)部結(jié)點(diǎn)表示一個(gè)特征或?qū)傩?,葉結(jié)點(diǎn)表示一個(gè)類。
用決策樹(shù)分類,從根結(jié)點(diǎn)開(kāi)始,對(duì)實(shí)例的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果,將實(shí)例分配到其子結(jié)點(diǎn);這時(shí),每一個(gè)子結(jié)點(diǎn)對(duì)應(yīng)著該特征的一個(gè)取值。如此遞歸地對(duì)實(shí)例進(jìn)行測(cè)試并分配,直至達(dá)到葉結(jié)點(diǎn)。最后將實(shí)例分到葉結(jié)點(diǎn)的類中。
用于預(yù)測(cè)一個(gè)人是否肥胖或不肥胖的決策樹(shù)
決策樹(shù)學(xué)習(xí)
決策樹(shù)學(xué)習(xí)算法包括3部分:特征選擇、樹(shù)的生成和樹(shù)的剪枝。常用的算法有ID3、 C4.5和CART。
1、特征選擇的目的在于選取對(duì)訓(xùn)練數(shù)據(jù)能夠分類的特征。特征選擇的關(guān)鍵是其準(zhǔn)則。常用的準(zhǔn)則如下:
(1)樣本集合D對(duì)特征A的信息增益(ID3)
(2)樣本集合D對(duì)特征A的信息增益比(C4.5)
(3)樣本集合D的基尼指數(shù)(CART)
2.決策樹(shù)的生成。通常使用信息增益最大、信息增益比最大或基尼指數(shù)最小作為特征選擇的準(zhǔn)則。決策樹(shù)的生成往往通過(guò)計(jì)算信息增益或其他指標(biāo),從根結(jié)點(diǎn)開(kāi)始,遞歸地產(chǎn)生決策樹(shù)。這相當(dāng)于用信息增益或其他準(zhǔn)則不斷地選取局部最優(yōu)的特征,或?qū)⒂?xùn)練集分割為能夠基本正確分類的子集。
3.決策樹(shù)的剪枝。由于生成的決策樹(shù)存在過(guò)擬合問(wèn)題,需要對(duì)它進(jìn)行剪枝,以簡(jiǎn)化學(xué)到的決策樹(shù)。決策樹(shù)的剪枝,往往從已生成的樹(shù)上剪掉一些葉結(jié)點(diǎn)或葉結(jié)點(diǎn)以上的子樹(shù),并將其父結(jié)點(diǎn)或根結(jié)點(diǎn)作為新的葉結(jié)點(diǎn),從而簡(jiǎn)化生成的決策樹(shù)。
使用Scikit-learn進(jìn)行決策樹(shù)分類
import numpy as np from sklearn.datasets import load_iris from sklearn import tree import matplotlib.pyplot as plt iris=load_iris() print(iris.feature_names) print(iris.target_names) #劃分?jǐn)?shù)據(jù)集 removed =[0,50,100] new_target = np.delete(iris.target,removed) new_data = np.delete(iris.data,removed, axis=0) #訓(xùn)練分類器 clf = tree.DecisionTreeClassifier() # 定義決策樹(shù)分類器 clf=clf.fit(new_data,new_target) prediction = clf.predict(iris.data[removed]) print("Original Labels",iris.target[removed]) print("Labels Predicted",prediction) #繪制決策樹(shù) plt.figure(figsize=(15, 10)) tree.plot_tree(clf, feature_names=iris.feature_names, filled=True) plt.show()
參考鏈接傳送門
到此這篇關(guān)于Python sklearn分類決策樹(shù)方法詳解的文章就介紹到這了,更多相關(guān)Python sklearn決策樹(shù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python中使用sklearn進(jìn)行特征降維的方法
- Python sklearn CountVectorizer使用詳解
- Python?sklearn?中的?make_blobs()?函數(shù)示例詳解
- Python?sklearn預(yù)測(cè)評(píng)估指標(biāo)混淆矩陣計(jì)算示例詳解
- Python+Sklearn實(shí)現(xiàn)異常檢測(cè)
- Python sklearn中的K-Means聚類使用方法淺析
- python?sklearn與pandas實(shí)現(xiàn)缺失值數(shù)據(jù)預(yù)處理流程詳解
- Python sklearn對(duì)文本數(shù)據(jù)進(jìn)行特征化提取
相關(guān)文章
python list count統(tǒng)計(jì)個(gè)數(shù)的實(shí)現(xiàn)
這篇文章主要介紹了python list count統(tǒng)計(jì)個(gè)數(shù)的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-02-02在PyTorch中實(shí)現(xiàn)高效的多進(jìn)程并行處理
PyTorch是一個(gè)流行的深度學(xué)習(xí)框架,一般情況下使用單個(gè)GPU進(jìn)行計(jì)算時(shí)是十分方便的,但是當(dāng)涉及到處理大規(guī)模數(shù)據(jù)和并行處理時(shí),需要利用多個(gè)GPU,所以這篇文章我們將介紹如何利用torch.multiprocessing模塊,在PyTorch中實(shí)現(xiàn)高效的多進(jìn)程處理,需要的朋友可以參考下2024-07-07NumPy中np.random.rand函數(shù)的實(shí)現(xiàn)
np.random.rand是NumPy庫(kù)中的一個(gè)函數(shù),用于生成隨機(jī)數(shù),本文主要介紹了NumPy中np.random.rand函數(shù)的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2024-07-07Python pathlib模塊使用方法及實(shí)例解析
這篇文章主要介紹了Python pathlib模塊使用方法及實(shí)例解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-10-10Python實(shí)現(xiàn)隨機(jī)漫步的詳細(xì)過(guò)程
隨機(jī)漫步顧名思義每一步都是隨機(jī)的,假設(shè)有一個(gè)點(diǎn),下一步往哪里走,走多遠(yuǎn),這些都沒(méi)有明確的表示,完全是隨機(jī)的,最后走到哪里,是由一系列隨機(jī)決策決定的,這篇文章主要給大家介紹了關(guān)于Python實(shí)現(xiàn)隨機(jī)漫步的相關(guān)資料,需要的朋友可以參考下2023-03-03python如何用matplotlib創(chuàng)建三維圖表
這篇文章主要介紹了python如何在matplotlib中創(chuàng)建三維圖表,幫助大家更好的利用python進(jìn)行數(shù)據(jù)分析,感興趣的朋友可以了解下2021-01-01Python使用tkinter庫(kù)實(shí)現(xiàn)文本顯示用戶輸入功能示例
這篇文章主要介紹了Python使用tkinter庫(kù)實(shí)現(xiàn)文本顯示用戶輸入功能,結(jié)合實(shí)例形式分析了tkinter庫(kù)獲取用戶輸入及控件顯示相關(guān)操作技巧,需要的朋友可以參考下2018-05-05