python決策樹(shù)之CART分類(lèi)回歸樹(shù)詳解
決策樹(shù)之CART(分類(lèi)回歸樹(shù))詳解,具體內(nèi)容如下
1、CART分類(lèi)回歸樹(shù)簡(jiǎn)介
CART分類(lèi)回歸樹(shù)是一種典型的二叉決策樹(shù),可以處理連續(xù)型變量和離散型變量。如果待預(yù)測(cè)分類(lèi)是離散型數(shù)據(jù),則CART生成分類(lèi)決策樹(shù);如果待預(yù)測(cè)分類(lèi)是連續(xù)型數(shù)據(jù),則CART生成回歸決策樹(shù)。數(shù)據(jù)對(duì)象的條件屬性為離散型或連續(xù)型,并不是區(qū)別分類(lèi)樹(shù)與回歸樹(shù)的標(biāo)準(zhǔn),例如表1中,數(shù)據(jù)對(duì)象

2、CART分類(lèi)回歸樹(shù)分裂屬性的選擇
2.1 CART分類(lèi)樹(shù)——待預(yù)測(cè)分類(lèi)為離散型數(shù)據(jù)
選擇具有最小
對(duì)于樣本集

其中,在樣本集
對(duì)于含有

其中,
對(duì)于屬性

對(duì)于樣本集

所得到的屬性
2.2 CART回歸樹(shù)——待預(yù)測(cè)分類(lèi)為連續(xù)型數(shù)據(jù)
區(qū)別于分類(lèi)樹(shù),回歸樹(shù)的待預(yù)測(cè)分類(lèi)為連續(xù)型數(shù)據(jù)。同時(shí),區(qū)別于分類(lèi)樹(shù)選取
針對(duì)含有連續(xù)型分類(lèi)結(jié)果的樣本集

其中,
對(duì)于含有

對(duì)于屬性

對(duì)于樣本集

所得到的屬性
3、CART分類(lèi)回歸樹(shù)的剪枝
由于決策樹(shù)的建立完全是依賴(lài)于訓(xùn)練樣本,因此該決策樹(shù)對(duì)訓(xùn)練樣本能夠產(chǎn)生完美的擬合效果。但這樣的決策樹(shù)對(duì)于測(cè)試樣本來(lái)說(shuō)過(guò)于龐大而復(fù)雜,可能產(chǎn)生較高的分類(lèi)錯(cuò)誤率。這種現(xiàn)象就稱(chēng)為過(guò)擬合。因此需要將復(fù)雜的決策樹(shù)進(jìn)行簡(jiǎn)化,即去掉一些節(jié)點(diǎn)解決過(guò)擬合問(wèn)題,這個(gè)過(guò)程稱(chēng)為剪枝。
剪枝方法分為預(yù)剪枝和后剪枝兩大類(lèi)。預(yù)剪枝是在構(gòu)建決策樹(shù)的過(guò)程中,提前終止決策樹(shù)的生長(zhǎng),從而避免過(guò)多的節(jié)點(diǎn)產(chǎn)生。預(yù)剪枝方法雖然簡(jiǎn)單但實(shí)用性不強(qiáng),因?yàn)楹茈y精確的判斷何時(shí)終止樹(shù)的生長(zhǎng)。后剪枝是在決策樹(shù)構(gòu)建完成之后,對(duì)那些置信度不達(dá)標(biāo)的節(jié)點(diǎn)子樹(shù)用葉子結(jié)點(diǎn)代替,該葉子結(jié)點(diǎn)的類(lèi)標(biāo)號(hào)用該節(jié)點(diǎn)子樹(shù)中頻率最高的類(lèi)標(biāo)記。后剪枝方法又分為兩種,一類(lèi)是把訓(xùn)練數(shù)據(jù)集分成樹(shù)的生長(zhǎng)集和剪枝集;另一類(lèi)算法則是使用同一數(shù)據(jù)集進(jìn)行決策樹(shù)生長(zhǎng)和剪枝。常見(jiàn)的后剪枝方法有CCP(Cost Complexity Pruning)、REP(Reduced Error Pruning)、PEP(Pessimistic Error Pruning)、MEP(Minimum Error Pruning)。其中,悲觀錯(cuò)誤剪枝法PEP(Pessimistic Error Pruning)在“決策樹(shù)之C4.5算法詳解”中有詳細(xì)介紹,感興趣的小童鞋可以了解學(xué)習(xí)。這里我們?cè)敿?xì)介紹CART分類(lèi)回歸樹(shù)中應(yīng)用最廣泛的剪枝算法——代價(jià)復(fù)雜性剪枝法CCP(Cost Complexity Pruning)。
代價(jià)復(fù)雜性剪枝法CCP(Cost Complexity Pruning)主要包含兩個(gè)步驟:(1)從原始決策樹(shù)
CCP剪枝法步驟(1)
生成子樹(shù)序列

其中,
例如:圖1中

圖1,決策樹(shù)中訓(xùn)練樣本總個(gè)數(shù)為80。對(duì)于節(jié)點(diǎn)
表2

從表2可以看出,在原始樹(shù)
CCP剪枝法步驟(2)
如何根據(jù)第1步產(chǎn)生的子樹(shù)序列
參考文獻(xiàn)
[1] 魏紅寧. 決策樹(shù)剪枝方法的比較[J]. 西南交通大學(xué)學(xué)報(bào), 2005, 40(1):44-48.
[2] 張宇. 決策樹(shù)分類(lèi)及剪枝算法研究[D]. 哈爾濱理工大學(xué), 2009.
[3] Breiman L, Friedman J H, Olshen R, et al. Classification and Regression Trees[J]. Biometrics, 1984, 40(3):358.
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python面向?qū)ο笾?lèi)屬性和類(lèi)方法案例分析
這篇文章主要介紹了python面向?qū)ο笾?lèi)屬性和類(lèi)方法,結(jié)合案例形式分析了Python面相對(duì)象中類(lèi)屬性和類(lèi)方法的相關(guān)概念、原理與使用技巧,需要的朋友可以參考下2019-12-12
詳解如何使用Python的Plotly庫(kù)進(jìn)行交互式圖形可視化
Python中有許多強(qiáng)大的工具和庫(kù)可用于創(chuàng)建交互式圖形,其中之一就是Plotly庫(kù),Plotly庫(kù)提供了豐富的功能和靈活的接口,使得創(chuàng)建各種類(lèi)型的交互式圖形變得簡(jiǎn)單而直觀,本文將介紹如何使用Plotly庫(kù)來(lái)創(chuàng)建交互式圖形,需要的朋友可以參考下2024-05-05
python實(shí)現(xiàn)QQ定時(shí)發(fā)送新年祝福信息
大家好,本篇文章主要講的是python實(shí)現(xiàn)QQ定時(shí)發(fā)送新年祝福信息,感興趣的同學(xué)感快來(lái)看一看吧,對(duì)你有幫助的話(huà)記得收藏一下2022-02-02
python3 pillow生成簡(jiǎn)單驗(yàn)證碼圖片的示例
本篇文章主要介紹了python3 pillow生成簡(jiǎn)單驗(yàn)證碼圖片的示例,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2017-09-09
python在windows下實(shí)現(xiàn)ping操作并接收返回信息的方法
這篇文章主要介紹了python在windows下實(shí)現(xiàn)ping操作并接收返回信息的方法,實(shí)例分析了Python實(shí)現(xiàn)ping操作的技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-03-03
Ubuntu16.04 安裝多個(gè)python版本的問(wèn)題及解決方法
Ubuntu16.04自帶python2.7與python3.5,Ubuntu 官方 apt 庫(kù)中還未收錄 python 3.8,因此添加 deadsnakes PPA 源安裝python3.8,否則會(huì)出現(xiàn)報(bào)錯(cuò),接下來(lái)通過(guò)本文給大家介紹Ubuntu16.04 安裝python的問(wèn)題,一起看看吧2021-09-09
python-opencv在有噪音的情況下提取圖像的輪廓實(shí)例
下面小編就為大家?guī)?lái)一篇python-opencv在有噪音的情況下提取圖像的輪廓實(shí)例。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-08-08
python basemap 畫(huà)出經(jīng)緯度并標(biāo)定的實(shí)例
今天小編就為大家分享一篇python basemap 畫(huà)出經(jīng)緯度并標(biāo)定的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07

