欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)CART決策樹算法及詳細(xì)注釋

 更新時間:2021年10月29日 09:45:49   作者:Polaris_T  
CART算法是一種樹構(gòu)建算法,既可以用于分類任務(wù),又可以用于回歸,本文僅討論基本的CART分類決策樹構(gòu)建,不討論回歸樹和剪枝等問題,感興趣的朋友跟隨小編一起看看吧

一、CART決策樹算法簡介

CART(Classification And Regression Trees 分類回歸樹)算法是一種樹構(gòu)建算法,既可以用于分類任務(wù),又可以用于回歸。相比于 ID3 和 C4.5 只能用于離散型數(shù)據(jù)且只能用于分類任務(wù),CART 算法的適用面要廣得多,既可用于離散型數(shù)據(jù),又可以處理連續(xù)型數(shù)據(jù),并且分類和回歸任務(wù)都能處理。

本文僅討論基本的CART分類決策樹構(gòu)建,不討論回歸樹和剪枝等問題。

首先,我們要明確以下幾點(diǎn):
1. CART算法是二分類常用的方法,由CART算法生成的決策樹是二叉樹,而 ID3 以及 C4.5 算法生成的決策樹是多叉樹,從運(yùn)行效率角度考慮,二叉樹模型會比多叉樹運(yùn)算效率高。
2. CART算法通過基尼(Gini)指數(shù)來選擇最優(yōu)特征。

二、基尼系數(shù)

基尼系數(shù)代表模型的不純度,基尼系數(shù)越小,則不純度越低,注意這和 C4.5的信息增益比的定義恰好相反。

分類問題中,假設(shè)有K個類,樣本點(diǎn)屬于第k類的概率為pk,則概率分布的基尼系數(shù)定義為:

在這里插入圖片描述

若CART用于二類分類問題(不是只能用于二分類),那么概率分布的基尼系數(shù)可簡化為

在這里插入圖片描述

假設(shè)使用特征 A 將數(shù)據(jù)集 D 劃分為兩部分 D1 和 D2,此時按照特征 A 劃分的數(shù)據(jù)集的基尼系數(shù)為:

在這里插入圖片描述

三、CART決策樹生成算法

輸入:訓(xùn)練數(shù)據(jù)集D,停止計算的條件
輸出:CART決策樹
根據(jù)訓(xùn)練數(shù)據(jù)集,從根結(jié)點(diǎn)開始,遞歸地對每個結(jié)點(diǎn)進(jìn)行以下操作,構(gòu)建二叉決策樹:
(1)計算現(xiàn)有特征對該數(shù)據(jù)集的基尼指數(shù),如上面所示;
(2)選擇基尼指數(shù)最小的值對應(yīng)的特征為最優(yōu)特征,對應(yīng)的切分點(diǎn)為最優(yōu)切分點(diǎn)(若最小值對應(yīng)的特征或切分點(diǎn)有多個,隨便取一個即可);
(3)按照最優(yōu)特征和最優(yōu)切分點(diǎn),從現(xiàn)結(jié)點(diǎn)生成兩個子結(jié)點(diǎn),將訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)按特征和屬性分配到兩個子結(jié)點(diǎn)中;
(4)對兩個子結(jié)點(diǎn)遞歸地調(diào)用(1)(2)(3),直至滿足停止條件。
(5)生成CART樹。
算法停止的條件:結(jié)點(diǎn)中的樣本個數(shù)小于預(yù)定閾值,或樣本集的基尼指數(shù)小于預(yù)定閾值(樣本基本屬于同一類,如完全屬于同一類則為0),或者特征集為空。
注:最優(yōu)切分點(diǎn)是將當(dāng)前樣本下分為兩類(因?yàn)槲覀円獦?gòu)造二叉樹)的必要條件。對于離散的情況,最優(yōu)切分點(diǎn)是當(dāng)前最優(yōu)特征的某個取值;對于連續(xù)的情況,最優(yōu)切分點(diǎn)可以是某個具體的數(shù)值。具體應(yīng)用時需要遍歷所有可能的最優(yōu)切分點(diǎn)取值去找到我們需要的最優(yōu)切分點(diǎn)。

四、CART算法的Python實(shí)現(xiàn)

若是二分類問題,則函數(shù)calcGini和choose_best_feature可簡化如下:

# 計算樣本屬于第1個類的概率p
def calcProbabilityEnt(dataset):
    numEntries = len(dataset)
    count = 0
    label = dataset[0][len(dataset[0]) - 1]
    for example in dataset:
        if example[-1] == label:
            count += 1
    probabilityEnt = float(count) / numEntries
    return probabilityEnt

def choose_best_feature(dataset):
    # 特征總數(shù)
    numFeatures = len(dataset[0]) - 1
    # 當(dāng)只有一個特征時
    if numFeatures == 1:
        return 0
    # 初始化最佳基尼系數(shù)
    bestGini = 1
    # 初始化最優(yōu)特征
    index_of_best_feature = -1
    for i in range(numFeatures):
        # 去重,每個屬性值唯一
        uniqueVals = set(example[i] for example in dataset)
        # 定義特征的值的基尼系數(shù)
        Gini = {}
        for value in uniqueVals:
            sub_dataset1, sub_dataset2 = split_dataset(dataset,i,value)
            prob1 = len(sub_dataset1) / float(len(dataset))
            prob2 = len(sub_dataset2) / float(len(dataset))
            probabilityEnt1 = calcProbabilityEnt(sub_dataset1)
            probabilityEnt2 = calcProbabilityEnt(sub_dataset2)
            Gini[value] = prob1 * 2 * probabilityEnt1 * (1 - probabilityEnt1) + prob2 * 2 * probabilityEnt2 * (1 - probabilityEnt2)
            if Gini[value] < bestGini:
                bestGini = Gini[value]
                index_of_best_feature = i
                best_split_point = value
    return index_of_best_feature, best_split_point

五、運(yùn)行結(jié)果

在這里插入圖片描述

到此這篇關(guān)于Python實(shí)現(xiàn)CART決策樹算法及詳細(xì)注釋的文章就介紹到這了,更多相關(guān)Python策樹算法內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python實(shí)現(xiàn)飛船游戲的縱向移動

    python實(shí)現(xiàn)飛船游戲的縱向移動

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)飛船游戲的縱向移動,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-04-04
  • 如何基于pythonnet調(diào)用halcon腳本

    如何基于pythonnet調(diào)用halcon腳本

    這篇文章主要介紹了如何基于pythonnet調(diào)用halcon腳本,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-01-01
  • Python中sklearn實(shí)現(xiàn)交叉驗(yàn)證示例分析

    Python中sklearn實(shí)現(xiàn)交叉驗(yàn)證示例分析

    這篇文章主要介紹了Python中sklearn實(shí)現(xiàn)交叉驗(yàn)證,本文python的版本為3.8,各個版本之間函數(shù)名字略有不同,但是原理都是一樣的,集成開發(fā)環(huán)境使用的是Anaconda的Spyder,需要的朋友可以參考下
    2023-08-08
  • Django異步任務(wù)之Celery的基本使用

    Django異步任務(wù)之Celery的基本使用

    這篇文章主要給大家介紹了關(guān)于Django異步任務(wù)之Celery使用的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用Django具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-03-03
  • python使用信號量動態(tài)更新配置文件的操作

    python使用信號量動態(tài)更新配置文件的操作

    這篇文章主要介紹了python使用信號量動態(tài)更新配置文件的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • 關(guān)于Python使用logging庫進(jìn)行有效日志管理的方法詳解

    關(guān)于Python使用logging庫進(jìn)行有效日志管理的方法詳解

    在開發(fā)大型軟件或處理復(fù)雜問題時,我們經(jīng)常需要一種方法來記錄和跟蹤程序的運(yùn)行狀態(tài),Python 提供了一個名為 logging 的標(biāo)準(zhǔn)庫,可以幫助我們更好地完成這項(xiàng)任務(wù),在這篇文章中,我們將介紹如何使用 Python 的 logging 庫進(jìn)行日志記錄
    2023-06-06
  • Python基礎(chǔ)語法之容器詳解

    Python基礎(chǔ)語法之容器詳解

    這篇文章主要介紹了Python基礎(chǔ)語法之容器的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下,希望能夠給你帶來幫助
    2021-09-09
  • 淺談Python的元編程

    淺談Python的元編程

    提到元這個字,你也許會想到元數(shù)據(jù),元數(shù)據(jù)就是描述數(shù)據(jù)本身的數(shù)據(jù),元類就是類的類,本文的主要目的是向大家介紹這些元編程技術(shù),并且給出實(shí)例來演示它們是怎樣定制化源代碼的行為。剛興趣的朋友可以參考一下
    2021-09-09
  • Python常用的模塊和簡單用法

    Python常用的模塊和簡單用法

    這篇文章主要給大家介紹Python#常用的模塊和簡單用法,以random 隨機(jī)模塊展開話題,感興趣的小伙伴可以參考一下
    2021-10-10
  • Python中itertools的用法詳解

    Python中itertools的用法詳解

    循環(huán)器(iterator)是對象的容器,包含有多個對象。這篇文章主要介紹了python itertools用法,需要的朋友可以參考下
    2020-02-02

最新評論