快捷導(dǎo)航

python工具dtreeviz決策樹(shù)可視化和模型可解釋性

更新時(shí)間：2022年03月03日 11:03:18 作者：Python學(xué)習(xí)與數(shù)據(jù)挖掘

這篇文章主要介紹了python工具dtreeviz決策樹(shù)可視化和模型可解釋性，決策樹(shù)是梯度提升機(jī)和隨機(jī)森林的基本構(gòu)建塊，在學(xué)習(xí)這些模型的工作原理和模型可解釋性時(shí)，可視化決策樹(shù)是一個(gè)非常有幫助，下文相關(guān)資料，需要的小伙伴可任意參考一下

決策樹(shù)是梯度提升機(jī)和隨機(jī)森林的基本構(gòu)建塊，在學(xué)習(xí)這些模型的工作原理和模型可解釋性時(shí)，可視化決策樹(shù)是一個(gè)非常有幫助。不過(guò)，當(dāng)前的可視化包還很初級(jí)，對(duì)新手沒(méi)有多少幫助。

最近逛 Github 時(shí)，發(fā)現(xiàn)一款非常棒的 dtreeviz 工具庫(kù)：它用于決策樹(shù)可視化和模型解釋。使用 dtreeviz 可以可視化特征空間如何在決策節(jié)點(diǎn)上分割，訓(xùn)練樣本如何分布在葉節(jié)點(diǎn)中，樹(shù)如何對(duì)特定觀察進(jìn)行預(yù)測(cè)等等。這些操作對(duì)于理解分類或回歸決策樹(shù)的工作方式至關(guān)重要。

一、安裝

pip install dtreeviz ? ? ? ? ? ? # install dtreeviz for sklearn
pip install dtreeviz[xgboost] ? ?# install XGBoost related dependency
pip install dtreeviz[pyspark] ? ?# install pyspark related dependency
pip install dtreeviz[lightgbm] ? # install LightGBM related dependency

二、用法

dtree：創(chuàng)建決策樹(shù)可視化的主要功能。給定決策樹(shù)回歸器或分類器，使用 graphviz 創(chuàng)建并返回樹(shù)可視化。

1.所需的庫(kù)

導(dǎo)入所需要的基本庫(kù)

from sklearn.datasets import *
from sklearn import tree
from dtreeviz.trees import *

2.回歸決策樹(shù)

樹(shù)的默認(rèn)方向是自上而下，但您可以使用orientation=“LR” 將其更改為從左到右。view() 給出一個(gè)帶有渲染的 graphviz 對(duì)象的彈出窗口。

regr = tree.DecisionTreeRegressor(max_depth=2)
boston = load_boston()
regr.fit(boston.data, boston.target)

viz = dtreeviz(regr,
? ? ? ? ? ? ? ?boston.data,
? ? ? ? ? ? ? ?boston.target,
? ? ? ? ? ? ? ?target_name='price',
? ? ? ? ? ? ? ?feature_names=boston.feature_names)
? ? ? ? ? ? ??
viz.view() ? ?

3.分類決策樹(shù)

分類樹(shù)需要class_names 的附加參數(shù)，給出類值與類名的映射。

classifier = tree.DecisionTreeClassifier(max_depth=2) ?# limit depth of tree
iris = load_iris()
classifier.fit(iris.data, iris.target)

viz = dtreeviz(classifier,?
? ? ? ? ? ? ? ?iris.data,?
? ? ? ? ? ? ? ?iris.target,
? ? ? ? ? ? ? ?target_name='variety',
? ? ? ? ? ? ? ?feature_names=iris.feature_names,?
? ? ? ? ? ? ? ?class_names=["setosa", "versicolor", "virginica"] ?# need class_names for classifier
? ? ? ? ? ? ? ) ?
? ? ? ? ? ? ??
viz.view()?

4.預(yù)測(cè)路徑

突出顯示參數(shù) X 中傳遞的單個(gè)觀察的特征值所在的決策節(jié)點(diǎn)。給出觀察的特征值并突出樹(shù)用于遍歷路徑的特征。

regr = tree.DecisionTreeRegressor(max_depth=2) ?# limit depth of tree
diabetes = load_diabetes()
regr.fit(diabetes.data, diabetes.target)
X = diabetes.data[np.random.randint(0, len(diabetes.data)),:] ?# random sample from training

viz = dtreeviz(regr,
? ? ? ? ? ? ? ?diabetes.data,?
? ? ? ? ? ? ? ?diabetes.target,?
? ? ? ? ? ? ? ?target_name='value',?
? ? ? ? ? ? ? ?orientation ='LR', ?# left-right orientation
? ? ? ? ? ? ? ?feature_names=diabetes.feature_names,
? ? ? ? ? ? ? ?X=X) ?# need to give single observation for prediction
? ? ? ? ? ? ??
viz.view() ?

如果只想可視化預(yù)測(cè)路徑，則需要設(shè)置參數(shù)show_just_path=True

dtreeviz(regr,
? ? ? ? diabetes.data,?
? ? ? ? diabetes.target,?
? ? ? ? target_name='value',?
? ? ? ? orientation ='TD', ?# top-down orientation
? ? ? ? feature_names=diabetes.feature_names,
? ? ? ? X=X, # need to give single observation for prediction
? ? ? ? show_just_path=True ? ??
? ? ? ? )

5.解釋預(yù)測(cè)路徑

這些可視化對(duì)于向沒(méi)有機(jī)器學(xué)習(xí)技能的人解釋為什么您的模型做出特定預(yù)測(cè)很有用。在explain_type=plain_english 的情況下，它在預(yù)測(cè)路徑中搜索并找到特征值范圍。

X = dataset[features].iloc[10]
print(X)
Pclass ? ? ? ? ? ? ?3.0
Age ? ? ? ? ? ? ? ? 4.0
Fare ? ? ? ? ? ? ? 16.7
Sex_label ? ? ? ? ? 0.0
Cabin_label ? ? ? 145.0
Embarked_label ? ? ?2.0

print(explain_prediction_path(tree_classifier, X, feature_names=features, explanation_type="plain_english"))
2.5 <= Pclass?
Age < 36.5
Fare < 23.35
Sex_label < 0.5

在explain_type=sklearn_default（僅適用于scikit-learn）的情況下，我們可以僅可視化預(yù)測(cè)路徑中涉及的特征的重要性。特征的重要性是基于雜質(zhì)的平均減少來(lái)計(jì)算的。

explain_prediction_path(tree_classifier, X, feature_names=features, explanation_type="sklearn_default")

此外我們還可以自定義顏色，比如：

dtreeviz.trees.dtreeviz(regr,
? ? ? ? ? ? ? ? ? ? ? ? boston.data,
? ? ? ? ? ? ? ? ? ? ? ? boston.target,
? ? ? ? ? ? ? ? ? ? ? ? target_name='price',
? ? ? ? ? ? ? ? ? ? ? ? feature_names=boston.feature_names,
? ? ? ? ? ? ? ? ? ? ? ? colors={'scatter_marker': '#00ff00'})