快捷導(dǎo)航

Python機(jī)器學(xué)習(xí)算法庫(kù)scikit-learn學(xué)習(xí)之決策樹實(shí)現(xiàn)方法詳解

更新時(shí)間：2019年07月04日 11:37:02 作者：Yeoman92

這篇文章主要介紹了Python機(jī)器學(xué)習(xí)算法庫(kù)scikit-learn學(xué)習(xí)之決策樹實(shí)現(xiàn)方法,結(jié)合實(shí)例形式分析了決策樹算法的原理及使用sklearn庫(kù)實(shí)現(xiàn)決策樹的相關(guān)操作技巧,需要的朋友可以參考下

本文實(shí)例講述了Python機(jī)器學(xué)習(xí)算法庫(kù)scikit-learn學(xué)習(xí)之決策樹實(shí)現(xiàn)方法。分享給大家供大家參考，具體如下：

決策樹

決策樹(DTs)是一種用于分類和回歸的非參數(shù)監(jiān)督學(xué)習(xí)方法。目標(biāo)是創(chuàng)建一個(gè)模型，通過從數(shù)據(jù)特性中推導(dǎo)出簡(jiǎn)單的決策規(guī)則來(lái)預(yù)測(cè)目標(biāo)變量的值。

例如，在下面的例子中，決策樹通過一組if-then-else決策規(guī)則從數(shù)據(jù)中學(xué)習(xí)到近似正弦曲線的情況。樹越深，決策規(guī)則越復(fù)雜，模型也越合適。

這里寫圖片描述

決策樹的一些優(yōu)勢(shì)是:

便于說明和理解，樹可以可視化表達(dá)；
需要很少的數(shù)據(jù)準(zhǔn)備。其他技術(shù)通常需要數(shù)據(jù)標(biāo)準(zhǔn)化，需要?jiǎng)?chuàng)建虛擬變量，并刪除空白值。
使用樹的成本是用于對(duì)樹進(jìn)行訓(xùn)練的數(shù)據(jù)點(diǎn)的對(duì)數(shù)。
能夠處理數(shù)值和分類數(shù)據(jù)。其他技術(shù)通常是專門分析只有一種變量的數(shù)據(jù)集。
能夠處理多輸出問題。
使用白盒模型。如果一個(gè)給定的情況在模型中可以觀察到，那么這個(gè)條件的解釋很容易用布爾邏輯來(lái)解釋。相比之下，在黑盒模型中(例如:在人工神經(jīng)網(wǎng)絡(luò)中，結(jié)果可能更難解釋。
可以使用統(tǒng)計(jì)測(cè)試驗(yàn)證模型。這樣就可以解釋模型的可靠性。
即使它的假設(shè)在某種程度上違反了生成數(shù)據(jù)的真實(shí)模型，也會(huì)表現(xiàn)得很好。

決策樹的缺點(diǎn)包括:

決策樹學(xué)習(xí)可能會(huì)生成過于復(fù)雜的樹，不能代表普遍的規(guī)則，這就稱為過擬合。修剪(目前不支持的)機(jī)制，設(shè)置葉片節(jié)點(diǎn)所需的最小樣本數(shù)目或設(shè)置樹的最大深度是避免此問題的必要條件。
決策樹可能不穩(wěn)定，因?yàn)閿?shù)據(jù)中的小變化可能導(dǎo)致生成完全不同的樹。這個(gè)問題通過在一個(gè)集合中使用多個(gè)決策樹來(lái)減輕。
實(shí)際的決策樹學(xué)習(xí)算法是基于啟發(fā)式算法的，例如在每個(gè)節(jié)點(diǎn)上進(jìn)行局部最優(yōu)決策的貪婪算法。這種算法不能保證返回全局最優(yōu)決策樹。通過在集合學(xué)習(xí)者中訓(xùn)練多個(gè)樹，可以減少這種情況，在這里，特征和樣本是隨機(jī)抽取的。
有些概念很難學(xué)習(xí)，因?yàn)闆Q策樹無(wú)法很容易地表達(dá)它們，例如XOR、奇偶性或多路復(fù)用問題。

分類

決策樹分類器（DecisionTreeClassifier）是一個(gè)能夠在數(shù)據(jù)集上執(zhí)行多類分類的類。

與其他分類器一樣，決策樹分類器以輸入兩個(gè)數(shù)組作為輸入:數(shù)組X，稀疏或密集，[n_samples,n_features]保存訓(xùn)練樣本，以及數(shù)組Y的整數(shù)值，[n_samples]，保存訓(xùn)練樣本的類標(biāo)簽:

>>> from sklearn import tree
>>> X = [[0, 0], [1, 1]]
>>> Y = [0, 1]
>>> clf = tree.DecisionTreeClassifier()
>>> clf = clf.fit(X, Y)

模型可以用來(lái)預(yù)測(cè)樣本的類別:

>>> clf.predict([[2., 2.]])
array([1])

或者，可以預(yù)測(cè)每個(gè)類的概率，在葉片上同一類的訓(xùn)練樣本的分?jǐn)?shù)

>>> clf.predict_proba([[2., 2.]])
array([[ 0., 1.]])

DecisionTreeClassifier可以同時(shí)進(jìn)行二進(jìn)制(其中標(biāo)簽為[- 1,1])分類和多類(標(biāo)簽為[0]，……,k - 1])分類。

使用虹膜數(shù)據(jù)集，我們可以構(gòu)建如下的樹:

>>> from sklearn.datasets import load_iris
>>> from sklearn import tree
>>> iris = load_iris()
>>> clf = tree.DecisionTreeClassifier()
>>> clf = clf.fit(iris.data, iris.target)

訓(xùn)練之后，我們可以使用export_graphviz 將樹導(dǎo)出為Graphviz格式。下面是一個(gè)在整個(gè)iris（虹膜）數(shù)據(jù)集上輸出的樹示例:

>>> with open("iris.dot", 'w') as f:
...   f = tree.export_graphviz(clf, out_file=f)

然后我們可以使用Graphviz的dot工具來(lái)創(chuàng)建一個(gè)PDF文件(或者任何其他受支持的文件類型):dot -Tpdf iris.dot -o iris.pdf

>>> import os
>>> os.unlink('iris.dot')

或者，如果我們安裝了Python模塊pydotplus，我們可以在Python中直接生成PDF文件(或任何其他受支持的文件類型):

>>> import pydotplus
>>> dot_data = tree.export_graphviz(clf, out_file=None)
>>> graph = pydotplus.graph_from_dot_data(dot_data)
>>> graph.write_pdf("iris.pdf")

export_graphviz exporter 還支持各種各樣的選項(xiàng)，包括根據(jù)它們的類(或用于回歸的值)著色節(jié)點(diǎn)，如果需要的話，還可以使用顯式變量和類名IPython還可以使用Image()函數(shù)來(lái)顯示這些情節(jié):

>>> from IPython.display import Image
>>> dot_data = tree.export_graphviz(clf, out_file=None,
             feature_names=iris.feature_names,
             class_names=iris.target_names,
             filled=True, rounded=True,
             special_characters=True)
>>> graph = pydotplus.graph_from_dot_data(dot_data)
>>> Image(graph.create_png())

這里寫圖片描述

模型可以用來(lái)預(yù)測(cè)樣本的類別:

>>> clf.predict(iris.data[:1, :])
array([0])

或者，可以預(yù)測(cè)每個(gè)類的概率，這是同一類在葉子中的訓(xùn)練樣本的分?jǐn)?shù):

>>> clf.predict_proba(iris.data[:1, :])
array([[ 1., 0., 0.]])

這里寫圖片描述

Examples:

Plot the decision surface of a decision tree on the iris dataset

回歸

這里寫圖片描述

使用決策樹類回歸，決策樹也可以應(yīng)用于回歸問題。

在分類設(shè)置中，fit方法將數(shù)組X和y作為參數(shù)，只有在這種情況下，y被期望有浮點(diǎn)值而不是整數(shù)值:

>>> from sklearn import tree
>>> X = [[0, 0], [2, 2]]
>>> y = [0.5, 2.5]
>>> clf = tree.DecisionTreeRegressor()
>>> clf = clf.fit(X, y)
>>> clf.predict([[1, 1]])
array([ 0.5])

Examples:

Decision Tree Regression

多輸出問題

一個(gè)多輸出問題是一個(gè)受監(jiān)督的學(xué)習(xí)問題，有幾個(gè)輸出可以預(yù)測(cè)，即當(dāng)Y是一個(gè)二維數(shù)組[n_samples,n_output]。

當(dāng)輸出之間沒有相關(guān)性時(shí)，解決這類問題的一個(gè)非常簡(jiǎn)單的方法是建立n個(gè)獨(dú)立的模型，即每一個(gè)輸出，然后使用這些模型獨(dú)立地預(yù)測(cè)每一個(gè)輸出。

然而，因?yàn)榭赡芘c相同輸入相關(guān)的輸出值本身是相關(guān)的，通常更好的方法是構(gòu)建一個(gè)能夠同時(shí)預(yù)測(cè)所有n輸出的單一模型。首先，它需要較低的培訓(xùn)時(shí)間，因?yàn)橹粯?gòu)建了一個(gè)估計(jì)值。其次，結(jié)果估計(jì)量的泛化精度通常會(huì)增加。

對(duì)于決策樹，這種策略可以很容易地用于支持多輸出問題。這需要以下更改: