ID3決策樹以及Python實(shí)現(xiàn)詳細(xì)過程

更新時(shí)間：2024年01月06日 10:26:43 作者：春風(fēng)不曾溫柔

決策樹是我本人非常喜歡的機(jī)器學(xué)習(xí)模型,非常直觀容易理解,并且和數(shù)據(jù)結(jié)構(gòu)的結(jié)合很緊密,下面這篇文章主要給大家介紹了關(guān)于ID3決策樹以及Python實(shí)現(xiàn)的相關(guān)資料,需要的朋友可以參考下

3.1 首先獲取一個(gè)訓(xùn)練樣本集D，作為決策樹的訓(xùn)練依據(jù)：
3.2 計(jì)算信息增益：
3.3 選取最優(yōu)信息增益，選取最優(yōu)劃分特征：
3.4 決策樹算法再對(duì)每個(gè)分支進(jìn)一步劃分（遞歸）：
3.5 生成最終的決策樹：

四、Python實(shí)現(xiàn)ID3決策樹：

4.1 構(gòu)建樣本集：
4.2 計(jì)算信息熵：
4.3 按給定的特征值劃分出樣本子集：
4.4 選取當(dāng)前樣本集下的最優(yōu)劃分特征索引：
4.5 求樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽：
4.6 遞歸生成決策樹：
4.7 對(duì)決策樣本進(jìn)行分類：
4.8 執(zhí)行：
4.9 運(yùn)行結(jié)果：
4.10 實(shí)現(xiàn)決策樹的總代碼：

總結(jié)

一、劃分特征的評(píng)價(jià)指標(biāo)：

1、信息熵 Ent(D)：

信息熵，是度量樣本集合純度的一種指標(biāo)，Ent(D)的值越小，則樣本集D的純度越高；

2、信息增益 Gain(D,a)：

信息增益越大，則意味著使用屬性a來(lái)劃分所獲得的“純度提升”越大；ID3決策樹算法就是基于信息增益來(lái)劃分屬性，下面介紹ID3決策樹的構(gòu)建過程；

公式中各變量說(shuō)明：

D：樣本集；

y：標(biāo)簽（比如好瓜、壞瓜）；

pk：某一類樣本占總樣本數(shù)的比例；

V：屬性的取值（比如紋理屬性有3種取值：清晰、稍糊、模糊）；

Dv：屬性值==V從樣本集D劃分出的一個(gè)樣本子集；

二、決策樹學(xué)習(xí)算法偽代碼：

決策樹的生成是一個(gè)遞歸的過程，在決策樹基本算法中，有三種情形會(huì)導(dǎo)致遞歸返回：

當(dāng)前結(jié)點(diǎn)包含的樣本全屬于同一類別，無(wú)需劃分；當(dāng)前屬性集為空，或是所有樣本在所有屬性上取值相同，無(wú)法劃分；當(dāng)前結(jié)點(diǎn)包含的樣本集合為空，不能劃分；

三、決策樹生成實(shí)例：

3.1 首先獲取一個(gè)訓(xùn)練樣本集D，作為決策樹的訓(xùn)練依據(jù)：

3.2 計(jì)算信息增益：

1、計(jì)算信息熵 Ent(D)：

2、計(jì)算當(dāng)前特征集合 {色澤,根蒂,敲聲,紋理,臍部,觸感} 中各個(gè)特征a的信息增益Gain(D,a)：

以“色澤”為例計(jì)算Gain(D,色澤)：

色澤的取值：{青綠,烏黑,淺白}，使用“色澤”特征對(duì)D劃分可以得到3個(gè)子集：D1(色澤=青綠)={1,4,6,10,13,17}，D2(色澤=烏黑)={2,3,7,8,9,15}，D1(色澤=淺白)={5,11,12,14,16}，計(jì)算劃分子集后分支結(jié)點(diǎn)的熵：

所以，得到Gain(D,色澤)：

同理，計(jì)算其他特征的信息增益Gain(D,a)：

3.3 選取最優(yōu)信息增益，選取最優(yōu)劃分特征：

因?yàn)?strong>Gain(D,紋理)最大，所以選取“紋理”作為本輪劃分的最優(yōu)劃分特征，繼而可以得到基于“紋理”的根節(jié)點(diǎn)劃分：

3.4 決策樹算法再對(duì)每個(gè)分支進(jìn)一步劃分（遞歸）：

將每個(gè)分支可以看成一個(gè)新的樣本集，進(jìn)行進(jìn)一步的劃分，在計(jì)算各特征信息增益時(shí)，需要將上一輪選出的最優(yōu)特征在樣本中去掉，不需要再對(duì)該特征進(jìn)行比較。

就比如D1={1,2,3,4,5,6,8,10,15}，特征集合={色澤,根蒂,敲聲,臍部,觸感}?；贒1計(jì)算出各特征的信息增益Gain(D1,a)：

繼續(xù)選取最大的特征信息增益，選出最優(yōu)劃分特征，即重復(fù)3.3步驟，遞歸實(shí)現(xiàn)決策樹的建立；

3.5 生成最終的決策樹：

四、Python實(shí)現(xiàn)ID3決策樹：

總樣本集：

['青綠','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
['烏黑','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],
['烏黑','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
['青綠','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],
['青綠','稍蜷','濁響','清晰','稍凹','軟粘','好瓜'],
['烏黑','稍蜷','濁響','稍糊','稍凹','軟粘','好瓜'],
['烏黑','稍蜷','濁響','清晰','稍凹','硬滑','好瓜'],
['淺白','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
['淺白','蜷縮','濁響','模糊','平坦','硬滑','壞瓜'],

['烏黑','稍蜷','沉悶','稍糊','稍凹','硬滑','壞瓜'],
['青綠','硬挺','清脆','清晰','平坦','軟粘','壞瓜'],
['淺白','蜷縮','濁響','模糊','平坦','軟粘','壞瓜'],
['青綠','稍蜷','濁響','稍糊','凹陷','硬滑','壞瓜'],
['淺白','稍蜷','沉悶','稍糊','凹陷','硬滑','壞瓜'],
['淺白','硬挺','清脆','模糊','平坦','硬滑','壞瓜'],
['烏黑','稍蜷','濁響','清晰','稍凹','軟粘','壞瓜'],
['青綠','蜷縮','沉悶','稍糊','稍凹','硬滑','壞瓜']

下面從總樣本種提取序號(hào)5、12、17為驗(yàn)證集，剩下為訓(xùn)練集進(jìn)行訓(xùn)練決策樹；

（1）訓(xùn)練集：

['青綠','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
['烏黑','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],
['烏黑','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
['青綠','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],
['烏黑','稍蜷','濁響','稍糊','稍凹','軟粘','好瓜'],
['烏黑','稍蜷','濁響','清晰','稍凹','硬滑','好瓜'],
['淺白','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],

['淺白','蜷縮','濁響','模糊','平坦','硬滑','壞瓜'],
['烏黑','稍蜷','沉悶','稍糊','稍凹','硬滑','壞瓜'],
['淺白','蜷縮','濁響','模糊','平坦','軟粘','壞瓜'],
['青綠','稍蜷','濁響','稍糊','凹陷','硬滑','壞瓜'],
['淺白','稍蜷','沉悶','稍糊','凹陷','硬滑','壞瓜'],
['淺白','硬挺','清脆','模糊','平坦','硬滑','壞瓜'],
['青綠','蜷縮','沉悶','稍糊','稍凹','硬滑','壞瓜']

（2）驗(yàn)證集：

['青綠','稍蜷','濁響','清晰','稍凹','軟粘'], ['好瓜']
['青綠','硬挺','清脆','清晰','平坦','軟粘'], ['壞瓜']
['烏黑','稍蜷','濁響','清晰','稍凹','軟粘'], ['壞瓜']

下面編寫各個(gè)函數(shù)，每個(gè)函數(shù)有特定的功能，代碼的分析過程已在code后注釋。

4.1 構(gòu)建樣本集：

#? 構(gòu)建數(shù)據(jù)集
#  返回一個(gè)元組 (dataSet,labels)
def createDataSet():    # 創(chuàng)造示例數(shù)據(jù)
    dataSet=[['青綠','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
             ['烏黑','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],
             ['烏黑','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
             ['青綠','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],                
             ['青綠','稍蜷','濁響','清晰','稍凹','軟粘','好瓜'],               
             ['烏黑','稍蜷','濁響','稍糊','稍凹','軟粘','好瓜'],                
             ['烏黑','稍蜷','濁響','清晰','稍凹','硬滑','好瓜'],
             
             ['烏黑','稍蜷','沉悶','稍糊','稍凹','硬滑','壞瓜'],
             ['青綠','硬挺','清脆','清晰','平坦','軟粘','壞瓜'],
             ['淺白','蜷縮','濁響','模糊','平坦','軟粘','壞瓜'],
             ['青綠','稍蜷','濁響','稍糊','凹陷','硬滑','壞瓜'],  
             ['淺白','稍蜷','沉悶','稍糊','凹陷','硬滑','壞瓜'],
             ['烏黑','稍蜷','濁響','清晰','稍凹','軟粘','壞瓜'],
             ['青綠','蜷縮','沉悶','稍糊','稍凹','硬滑','壞瓜']]
    labels = ['色澤','根蒂','敲聲','紋理','臍部','觸感']  #六個(gè)特征
    return dataSet,labels

函數(shù)作用：用于構(gòu)建訓(xùn)練集

變量說(shuō)明：

dataSet：樣本集
labels：所有特征

4.2 計(jì)算信息熵：

#? 計(jì)算信息熵
#  返回輸入樣本集dataSet的信息熵 Ent
from math import log
def calEnt(dataSet):
    sampleCounts=len(dataSet)   # 樣本集的樣本數(shù)
    labelCounts={}              # key為標(biāo)簽值label（好瓜、壞瓜），value為對(duì)應(yīng)標(biāo)簽key在樣本集中出現(xiàn)的次數(shù)
    for sample in dataSet:      # 遍歷樣本集dataSet中每個(gè)樣本sample
        label=sample[-1]        # 標(biāo)簽label為樣本sample的最后一個(gè)元素值
        if label not in labelCounts.keys():     # 如果該標(biāo)簽label不在字典labelCounts的key值中
            labelCounts[label]=0                # 則新增該key，并賦初值0
        labelCounts[label]+=1   # 對(duì)遍歷到的每個(gè)sample統(tǒng)計(jì)其所屬標(biāo)簽的個(gè)數(shù)
    Ent=0.0     # 信息熵初始化
    for key in labelCounts:
        pro=float(labelCounts[key])/sampleCounts    # 具體標(biāo)簽占總樣本數(shù)的比例pro
        Ent-=pro*log(pro,2)     # 計(jì)算樣本集dataSet的信息熵Ent
    return Ent

函數(shù)作用：計(jì)算樣本集dataSet的信息熵E(dataSet)

變量說(shuō)明：
dataSet：傳入的樣本集
sampleCounts：樣本集中的樣本數(shù)
labelCounts：key為標(biāo)簽值（好瓜/壞瓜），value為對(duì)應(yīng)標(biāo)簽key在樣本集中出現(xiàn)的次數(shù)
sample：具體樣本
label：標(biāo)簽（好瓜、壞瓜）
pro：具體標(biāo)簽占總樣本數(shù)的比例
Ent：樣本集dataSet的熵 Ent(D)

4.3 按給定的特征值劃分出樣本子集：

#? 按給定特征值劃分出樣本子集
#  指定特征列的索引index，對(duì)特征值==value的樣本劃分出來(lái)為一個(gè)樣本子集retDataSet，并對(duì)這些樣本的value去掉，返回樣本子集 retDataSet
def splitDataSet(dataSet,index,value):      # index是指定特征列的索引，value是該特征下的某一特征值
    retDataSet=[]
    for sample in dataSet:                  # 遍歷樣本集dataSet中的具體樣本sample
        if sample[index]==value:            # 找到目標(biāo)特征值value的索引
            # 去除特征值==value這些樣本的vlaue值
            reducedSample=sample[:index]            # 剪下目標(biāo)索引前的列表
            reducedSample.extend(sample[index+1:])  # 將目標(biāo)索引后的列表添加到索引前列表的后面
            retDataSet.append(reducedSample)        # 將sample[index]==value并去除該vlaue的樣本添加到retDataSet樣本集中
    return retDataSet

函數(shù)作用：指定特征列的索引index，對(duì)樣本集中特征值==value的具體樣本sample劃分出來(lái)，組成一個(gè)dataSet的樣本子集retDataSet（并將這些樣本中的這些value去掉，去掉sample[index]的目的是因?yàn)橄螺啽容^各特征信息增益Gain從而獲得最大信息增益bestGain（決定最優(yōu)劃分特征bestFeature）時(shí)，不能將已選出的最優(yōu)特征放在比較隊(duì)列中）

變量說(shuō)明：
dataSet：傳入的樣本集
index：指定特征列的索引
value：指定特征的某一特征值
sample：dataSet的具體樣本
reducedSample：去除value后的具體樣本（該樣本sample[index]==value）
retDataSet：按指定某一特征值劃分出的樣本子集

4.4 選取當(dāng)前樣本集下的最優(yōu)劃分特征索引：

#? 選取當(dāng)前樣集下的最優(yōu)劃分特征索引
#  返回最優(yōu)劃分特征的索引 bestFeatureIndex
def chooseBestFeatureToSplit(dataSet):
    featureCounts=len(dataSet[0])-1     # 獲取當(dāng)前樣本集的特征個(gè)數(shù)，-1是因?yàn)樽詈笠涣惺菢?biāo)簽
    baseEnt=calEnt(dataSet)             # 計(jì)算當(dāng)前樣本集的信息熵Ent(D)
    bestGain=0.0;bestFeatureIndex=-1    # 初始化最優(yōu)信息增益bestGain、最優(yōu)特征bestFeature
    for i in range(featureCounts):      # 遍歷每個(gè)特征，求各自的信息增益Gain
        featValList=[sample[i] for sample in dataSet]   # 第i個(gè)特征下所有樣本出現(xiàn)的特征值（有重復(fù)）
        uniqueVals=set(featValList)                     # 第i個(gè)特征的可能特征值（無(wú)重復(fù)）
        newEnt=0.0          # 初始化信息熵
        for value in uniqueVals:
            subDataSet=splitDataSet(dataSet,i,value)    # 根據(jù)特定的特征值value劃分出的樣本子集
            pro=len(subDataSet)/float(len(dataSet))     # 劃分出的樣本子集占總樣本數(shù)的比例
            newEnt+=pro*calEnt(subDataSet)              # 計(jì)算各特征值的熵并加和
        Gain=baseEnt-newEnt                             # 計(jì)算信息增益Gain(D,a)
        if(Gain>bestGain):      # 求最大的信息增益Gain
            bestGain=Gain
            bestFeatureIndex=i  # 獲取最優(yōu)劃分特征的索引
    return bestFeatureIndex

函數(shù)作用：計(jì)算各特征的信息增益Gain(dataset,feature)，從而選出最優(yōu)劃分特征bestFeature，最后返回最優(yōu)劃分特征的索引bestFeatureIndex；

變量說(shuō)明：
dataSet：傳入的樣本集
featureCounts：當(dāng)前樣本集中特征的個(gè)數(shù)
baseEnt：當(dāng)前樣本集的熵 Ent(D)
bestGain：各特征中最大的信息增益 Gain(dataSet,bestFeature)
bestFeatureIndex：最優(yōu)劃分特征的索引列號(hào)
sample[i]：具體樣本第i個(gè)特征值
featureValList：第i個(gè)特征下所有樣本中出現(xiàn)的特征值（有重復(fù)值）
uniqueVals：第i個(gè)特征的可能特征值（無(wú)重復(fù)值）
newEnt：不同特征值下的熵 Ent(Di)
subDataSet：根據(jù)特定的特征值value劃分出的樣本子集
pro：樣本子集占總樣本數(shù)的比例
Gain：各個(gè)特征的信息增益Gain(D,a)

4.5 求樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽：

#? 求樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽
#  用于葉子節(jié)點(diǎn)的取值，返回樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽 sortedLabelCounts[0][0]
import operator
def majorLabel(labelList):
    labelCounts={}      # key為標(biāo)簽（好瓜/壞瓜），value為標(biāo)簽在labelList中出現(xiàn)的次數(shù)
    for label in labelList:     # 遍歷所有樣本的標(biāo)簽
        if label not in labelCounts.keys(): # 如果該標(biāo)簽不在labelCounts的key值中
            labelCounts[label]=0            # 則增加該key值，并賦初值=0
        labelCounts[label]+=1               # 對(duì)labelCounts中已有的標(biāo)簽計(jì)數(shù)+1
    sortedLabelCounts=sorted(labelCounts.items(),key=operator.itemgetter(1),reverse=True)   # 根據(jù)value值逆序排序labelCounts
    return sortedLabelCounts[0][0]          # 返回第一個(gè)元素的第一個(gè)元素（標(biāo)簽）

函數(shù)作用：選取葉子結(jié)點(diǎn)的取值，返回樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽（好瓜/壞瓜）sortedLabelCounts[0][0]；

變量說(shuō)明：
labelList：返回樣本集中所有樣本的標(biāo)簽（有重復(fù)值）
labelCounts：字典，key為標(biāo)簽，value為該標(biāo)簽key在labelList中出現(xiàn)的次數(shù)
label：具體標(biāo)簽（好瓜/壞瓜）
labelCounts.keys()：labelCounts的key值
labelCounts[label]：labelCounts中key值==label對(duì)應(yīng)的value值
sortedLabelCounts：根據(jù)value值，逆序排列l(wèi)abelCounts字典
sotredLabelCounts[0][0]：樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽

4.6 遞歸生成決策樹：

#? 生成決策樹 主方法
#  遞歸生成決策樹 decisionTree
#  遞歸是逐級(jí)由深向淺的返回
def createTree(dataSet,labels):
    labelList=[sample[-1] for sample in dataSet]    # 返回當(dāng)前樣本集dataSet中所有樣本的標(biāo)簽（有重復(fù)值列表）
    # 跳出遞歸，生成葉子節(jié)點(diǎn)（好瓜/壞瓜）
    if labelList.count(labelList[0])==len(labelList):   # 如果labelList中的標(biāo)簽完全相同
        return labelList[0]                             # 則直接返回該標(biāo)簽
    if len(dataSet[0])==1:              # 如果當(dāng)前樣本集dataSet的樣本長(zhǎng)度==1（只剩最后一列標(biāo)簽，無(wú)特征可供繼續(xù)劃分又不滿足所有標(biāo)簽相同）
        return majorLabel(labelList)    # 就返回出現(xiàn)次數(shù)最多的標(biāo)簽作為葉子節(jié)點(diǎn)
    
    bestFeatureIndex=chooseBestFeatureToSplit(dataSet)  # 獲取當(dāng)前樣本集dataSet最優(yōu)劃分特征的索引
    bestFeature=labels[bestFeatureIndex]                # 獲取當(dāng)前樣本集dataSet的最優(yōu)劃分特征
    decisionTree={bestFeature:{}}   # 字典存儲(chǔ)決策樹的信息
    del(labels[bestFeatureIndex])   # 刪除已經(jīng)選出的特征
    featureVals=[sample[bestFeatureIndex] for sample in dataSet] # 樣本集中所有樣本中的最優(yōu)特征對(duì)應(yīng)的特征值組成的列表（有重復(fù)值）
    uniqueVals=set(featureVals)     # 最優(yōu)特征對(duì)應(yīng)的所有可能取值（無(wú)重復(fù)值）
    for value in uniqueVals:        # 遍歷最優(yōu)特征所有可能的取值value
        subLabels=labels[:]         # 將最優(yōu)特征去除后的特征列表傳遞給subLabels
        decisionTree[bestFeature][value]=createTree(splitDataSet(dataSet,bestFeatureIndex,value),subLabels)  # 遞歸生成decisionTree
    return decisionTree

函數(shù)作用：遞歸生成決策樹 decisionTree

變量說(shuō)明：
dataSet：傳入的樣本集
labels：傳入的特征列表
labelList：存放樣本集dataSet中所有樣本的標(biāo)簽（有重復(fù)值）
sample：樣本集的具體樣本
labelList[0]：第一個(gè)樣本的標(biāo)簽
dataSet[0]：樣本集中的第一個(gè)樣本
majorLabel(labelList)：樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽
bestFeatureIndex：當(dāng)前樣本集中最優(yōu)劃分特征的索引列
bestFeature：當(dāng)前樣本集中最優(yōu)的劃分特征
labels[bestFeatureIndex]：最優(yōu)劃分特征索引對(duì)應(yīng)的具體特征
decisionTree：生成的決策樹
featureVals：樣本集dataSet中最優(yōu)特征對(duì)應(yīng)的所有特征值（有重復(fù)值）
uniqueVals：最優(yōu)特征對(duì)應(yīng)的可能取值（無(wú)重復(fù)值）
value：最優(yōu)特征對(duì)應(yīng)的具體取值
subLabels：去除最優(yōu)特征后的特征列表

4.7 對(duì)決策樣本進(jìn)行分類：

#? 對(duì)驗(yàn)證樣本進(jìn)行分類
#  返回一個(gè)對(duì)樣本分類后的標(biāo)簽classLabel
def classify(decisionTree,features,testSample):
	rootFeature=list(decisionTree.keys())[0]        # rootFeature：根節(jié)點(diǎn)是何種特征
	rootDict=decisionTree[rootFeature]              # rootDict為根節(jié)點(diǎn)的value值，是一個(gè)字典
	rootFeatureIndex=features.index(rootFeature)    # 獲取根節(jié)點(diǎn)在特征列表中的索引
	for value in rootDict.keys():               # value為特征rootFeature的不同取值，并遍歷value
		if testSample[rootFeatureIndex]==value:     # 如果待測(cè)樣本的該特征的特征值==value
			if type(rootDict[value])==dict:     # 如果該特征值value對(duì)應(yīng)的value'是一個(gè)字典
				classLabel=classify(rootDict[value],features,testSample)    # 則需要遞歸繼續(xù)向決策樹的下面結(jié)點(diǎn)查詢
			else:                               # 如果該特征值value對(duì)應(yīng)的value'是一個(gè)單獨(dú)的值（標(biāo)簽）
				classLabel=rootDict[value]      # 則該值就是要找的標(biāo)簽
	return classLabel   # 返回該樣本testSample的標(biāo)簽

函數(shù)作用：對(duì)傳入的待測(cè)樣本testSample根據(jù)已生成的決策樹decisionTree計(jì)算出該樣本的標(biāo)簽（好瓜/壞瓜），返回該標(biāo)簽 classLabel

變量說(shuō)明：
decisionTree：某一結(jié)點(diǎn)出發(fā)的決策樹
features：所有特征列表
testSample：待測(cè)試樣本
decisionTree.keys()：（某一特征值下）對(duì)應(yīng)根結(jié)點(diǎn)
decisionTree[rootFeature]：根節(jié)點(diǎn)對(duì)應(yīng)的各個(gè)分支，字典
rootFeature：根節(jié)點(diǎn)（如紋理）
rootDict：根節(jié)點(diǎn)下的分支，字典（紋理結(jié)點(diǎn)對(duì)應(yīng)的三個(gè)分支：模糊、清晰、稍糊）
rootFeatureIndex：節(jié)點(diǎn)在特征列表features中的索引；
value：以根節(jié)點(diǎn)為特征的不同特征取值（如模糊/清晰/稍糊）
testSample[rootFeatureIndex]：待測(cè)試樣本中以根節(jié)點(diǎn)為特征對(duì)應(yīng)的具體特征值
rootDict[value]：具體特征值對(duì)應(yīng)的value（可能是一個(gè)字典/標(biāo)簽）
classLabel：該待測(cè)試樣本計(jì)算出的標(biāo)簽

4.8 執(zhí)行：

if __name__=='__main__':    # 如果在當(dāng)前模塊/文件下執(zhí)行，將會(huì)指定下述代碼
    dataSet, labels=createDataSet()
    decisionTree=createTree(dataSet, labels)
    print(f"\ndecisionTree={decisionTree}\n")     # 輸出決策樹模型結(jié)果
    # 驗(yàn)證集
    features=  ['色澤','根蒂','敲聲','紋理','臍部','觸感']  # 特征列表     
    testSample=['淺白','蜷縮','濁響','清晰','凹陷','硬滑']  # 待測(cè)樣本
    print(f"測(cè)試結(jié)果1sampleLabel= {classify(decisionTree,features,testSample)}\n")   # 輸出測(cè)試結(jié)果
 
    features=  ['色澤','根蒂','敲聲','紋理','臍部','觸感']  # 特征列表     
    testSample=['淺白','硬挺','清脆','模糊','平坦','硬滑']  # 待測(cè)樣本
    print(f"測(cè)試結(jié)果2sampleLabel= {classify(decisionTree,features,testSample)}\n")   # 輸出測(cè)試結(jié)果
 
    features=  ['色澤','根蒂','敲聲','紋理','臍部','觸感']  # 特征列表     
    testSample=['淺白','蜷縮','濁響','模糊','平坦','硬滑']  # 待測(cè)樣本
    print(f"測(cè)試結(jié)果3sampleLabel= {classify(decisionTree,features,testSample)}\n")   # 輸出測(cè)試結(jié)果

函數(shù)說(shuō)明：執(zhí)行主函數(shù)代碼，利用上述各函數(shù)打印出最終的決策樹decisionTree并且對(duì)驗(yàn)證集待測(cè)樣本進(jìn)行測(cè)試檢驗(yàn)

變量說(shuō)明：
features：特征列表
testSample：待測(cè)試樣本

4.9 運(yùn)行結(jié)果：

decisionTree={'紋理': {'稍糊': {'觸感': {'硬滑': '壞瓜', '軟粘': '好瓜'}}, '清晰': {'根蒂': {'硬挺': '壞瓜', '蜷縮': '好瓜', '稍蜷': {'色澤': {'青綠': '好瓜', '烏黑': {'觸感': {'硬滑': '好瓜', '軟粘': '壞瓜'}}}}}}, '模糊': '壞瓜'}}     
 
測(cè)試結(jié)果1sampleLabel= 好瓜
 
測(cè)試結(jié)果2sampleLabel= 壞瓜
 
測(cè)試結(jié)果3sampleLabel= 壞瓜

決策樹decisionTree：

{'紋理': 
    {'模糊': '壞瓜', 
     '清晰': {'根蒂': 
                {'稍蜷': {'色澤': 
                            {'烏黑': {'觸感': 
                                        {'軟粘': '壞瓜', 
                                         '硬滑': '好瓜'}}, 
                             '青綠': '好瓜'}}, 
                 '硬挺': '壞瓜', 
                 '蜷縮': '好瓜'}}, 
     '稍糊': {'觸感': 
                {'軟粘': '好瓜', 
                 '硬滑': '壞瓜'}}}}

可視化為樹狀結(jié)構(gòu)為：

4.10 實(shí)現(xiàn)決策樹的總代碼：

#! Decision Tree(ID3算法 信息增益Gain)
 
#? 構(gòu)建數(shù)據(jù)集
#  返回一個(gè)元組 (dataSet,labels)
def createDataSet():    # 創(chuàng)造示例數(shù)據(jù)
    dataSet=[['青綠','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
             ['烏黑','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],
             ['烏黑','蜷縮','濁響','清晰','凹陷','硬滑','好瓜'],
             ['青綠','蜷縮','沉悶','清晰','凹陷','硬滑','好瓜'],                
             ['青綠','稍蜷','濁響','清晰','稍凹','軟粘','好瓜'],               
             ['烏黑','稍蜷','濁響','稍糊','稍凹','軟粘','好瓜'],                
             ['烏黑','稍蜷','濁響','清晰','稍凹','硬滑','好瓜'],
             
             ['烏黑','稍蜷','沉悶','稍糊','稍凹','硬滑','壞瓜'],
             ['青綠','硬挺','清脆','清晰','平坦','軟粘','壞瓜'],
             ['淺白','蜷縮','濁響','模糊','平坦','軟粘','壞瓜'],
             ['青綠','稍蜷','濁響','稍糊','凹陷','硬滑','壞瓜'],  
             ['淺白','稍蜷','沉悶','稍糊','凹陷','硬滑','壞瓜'],
             ['烏黑','稍蜷','濁響','清晰','稍凹','軟粘','壞瓜'],
             ['青綠','蜷縮','沉悶','稍糊','稍凹','硬滑','壞瓜']]
    labels = ['色澤','根蒂','敲聲','紋理','臍部','觸感']  #六個(gè)特征
    return dataSet,labels
 
#? 計(jì)算信息熵
#  返回輸入樣本集dataSet的信息熵 Ent
from math import log
def calEnt(dataSet):
    sampleCounts=len(dataSet)   # 樣本集的樣本數(shù)
    labelCounts={}              # key為標(biāo)簽值label（好瓜、壞瓜），value為對(duì)應(yīng)標(biāo)簽key在樣本集中出現(xiàn)的次數(shù)
    for sample in dataSet:      # 遍歷樣本集dataSet中每個(gè)樣本sample
        label=sample[-1]        # 標(biāo)簽label為樣本sample的最后一個(gè)元素值
        if label not in labelCounts.keys():     # 如果該標(biāo)簽label不在字典labelCounts的key值中
            labelCounts[label]=0                # 則新增該key，并賦初值0
        labelCounts[label]+=1   # 對(duì)遍歷到的每個(gè)sample統(tǒng)計(jì)其所屬標(biāo)簽的個(gè)數(shù)
    Ent=0.0     # 信息熵初始化
    for key in labelCounts:
        pro=float(labelCounts[key])/sampleCounts    # 具體標(biāo)簽占總樣本數(shù)的比例pro
        Ent-=pro*log(pro,2)     # 計(jì)算樣本集dataSet的信息熵Ent
    return Ent
 
#? 按給定特征值劃分出樣本子集
#  指定特征列的索引index，對(duì)特征值==value的樣本劃分出來(lái)為一個(gè)樣本子集retDataSet，并對(duì)這些樣本的value去掉，返回樣本子集 retDataSet
def splitDataSet(dataSet,index,value):      # index是指定特征列的索引，value是該特征下的某一特征值
    retDataSet=[]
    for sample in dataSet:                  # 遍歷樣本集dataSet中的具體樣本sample
        if sample[index]==value:            # 找到目標(biāo)特征值value的索引
            # 去除特征值==value這些樣本的vlaue值
            reducedSample=sample[:index]            # 剪下目標(biāo)索引前的列表
            reducedSample.extend(sample[index+1:])  # 將目標(biāo)索引后的列表添加到索引前列表的后面
            retDataSet.append(reducedSample)        # 將sample[index]==value并去除該vlaue的樣本添加到retDataSet樣本集中
    return retDataSet
 
#? 選取當(dāng)前樣集下的最優(yōu)劃分特征索引
#  返回最優(yōu)劃分特征的索引 bestFeatureIndex
def chooseBestFeatureToSplit(dataSet):
    featureCounts=len(dataSet[0])-1     # 獲取當(dāng)前樣本集的特征個(gè)數(shù)，-1是因?yàn)樽詈笠涣惺菢?biāo)簽
    baseEnt=calEnt(dataSet)             # 計(jì)算當(dāng)前樣本集的信息熵Ent(D)
    bestGain=0.0;bestFeatureIndex=-1    # 初始化最優(yōu)信息增益bestGain、最優(yōu)特征bestFeature
    for i in range(featureCounts):      # 遍歷每個(gè)特征，求各自的信息增益Gain
        featValList=[sample[i] for sample in dataSet]   # 第i個(gè)特征下所有樣本出現(xiàn)的特征值（有重復(fù)）
        uniqueVals=set(featValList)                     # 第i個(gè)特征的可能特征值（無(wú)重復(fù)）
        newEnt=0.0          # 初始化信息熵
        for value in uniqueVals:
            subDataSet=splitDataSet(dataSet,i,value)    # 根據(jù)特定的特征值value劃分出的樣本子集
            pro=len(subDataSet)/float(len(dataSet))     # 劃分出的樣本子集占總樣本數(shù)的比例
            newEnt+=pro*calEnt(subDataSet)              # 計(jì)算各特征值的熵并加和
        Gain=baseEnt-newEnt                             # 計(jì)算信息增益Gain(D,a)
        if(Gain>bestGain):      # 求最大的信息增益Gain
            bestGain=Gain
            bestFeatureIndex=i  # 獲取最優(yōu)劃分特征的索引
    return bestFeatureIndex
 
#? 求樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽
#  用于葉子節(jié)點(diǎn)的取值，返回樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽 sortedLabelCounts[0][0]
import operator
def majorLabel(labelList):
    labelCounts={}      # key為標(biāo)簽（好瓜/壞瓜），value為標(biāo)簽在labelList中出現(xiàn)的次數(shù)
    for label in labelList:     # 遍歷所有樣本的標(biāo)簽
        if label not in labelCounts.keys(): # 如果該標(biāo)簽不在labelCounts的key值中
            labelCounts[label]=0            # 則增加該key值，并賦初值=0
        labelCounts[label]+=1               # 對(duì)labelCounts中已有的標(biāo)簽計(jì)數(shù)+1
    sortedLabelCounts=sorted(labelCounts.items(),key=operator.itemgetter(1),reverse=True)   # 根據(jù)value值逆序排序labelCounts
    return sortedLabelCounts[0][0]          # 返回第一個(gè)元素的第一個(gè)元素（標(biāo)簽）
 
#? 生成決策樹 主方法
#  遞歸生成決策樹 decisionTree
#  遞歸是逐級(jí)由深向淺的返回
def createTree(dataSet,labels):
    labelList=[sample[-1] for sample in dataSet]    # 返回當(dāng)前樣本集dataSet中所有樣本的標(biāo)簽（有重復(fù)值列表）
    # 跳出遞歸，生成葉子節(jié)點(diǎn)（好瓜/壞瓜）
    if labelList.count(labelList[0])==len(labelList):   # 如果labelList中的標(biāo)簽完全相同
        return labelList[0]                             # 則直接返回該標(biāo)簽
    if len(dataSet[0])==1:              # 如果當(dāng)前樣本集dataSet的樣本長(zhǎng)度==1（只剩最后一列標(biāo)簽，無(wú)特征可供繼續(xù)劃分又不滿足所有標(biāo)簽相同）
        return majorLabel(labelList)    # 就返回出現(xiàn)次數(shù)最多的標(biāo)簽作為葉子節(jié)點(diǎn)
    
    bestFeatureIndex=chooseBestFeatureToSplit(dataSet)  # 獲取當(dāng)前樣本集dataSet最優(yōu)劃分特征的索引
    bestFeature=labels[bestFeatureIndex]                # 獲取當(dāng)前樣本集dataSet的最優(yōu)劃分特征
    decisionTree={bestFeature:{}}   # 字典存儲(chǔ)決策樹的信息
    del(labels[bestFeatureIndex])   # 刪除已經(jīng)選出的特征
    featureVals=[sample[bestFeatureIndex] for sample in dataSet] # 樣本集中所有樣本中的最優(yōu)特征對(duì)應(yīng)的特征值組成的列表（有重復(fù)值）
    uniqueVals=set(featureVals)     # 最優(yōu)特征對(duì)應(yīng)的所有可能取值（無(wú)重復(fù)值）
    for value in uniqueVals:        # 遍歷最優(yōu)特征所有可能的取值value
        subLabels=labels[:]         # 將最優(yōu)特征去除后的特征列表傳遞給subLabels
        decisionTree[bestFeature][value]=createTree(splitDataSet(dataSet,bestFeatureIndex,value),subLabels)  # 遞歸生成decisionTree
    return decisionTree
 
     
#? 對(duì)驗(yàn)證樣本進(jìn)行分類
#  返回一個(gè)對(duì)樣本分類后的標(biāo)簽classLabel
def classify(decisionTree,features,testSample):
	rootFeature=list(decisionTree.keys())[0]        # rootFeature：根節(jié)點(diǎn)是何種特征
	rootDict=decisionTree[rootFeature]              # rootDict為根節(jié)點(diǎn)的value值，是一個(gè)字典
	rootFeatureIndex=features.index(rootFeature)    # 獲取根節(jié)點(diǎn)在特征列表中的索引
	for value in rootDict.keys():               # value為特征rootFeature的不同取值，并遍歷value
		if testSample[rootFeatureIndex]==value:     # 如果待測(cè)樣本的該特征的特征值==value
			if type(rootDict[value])==dict:     # 如果該特征值value對(duì)應(yīng)的value'是一個(gè)字典
				classLabel=classify(rootDict[value],features,testSample)    # 則需要遞歸繼續(xù)向決策樹的下面結(jié)點(diǎn)查詢
			else:                               # 如果該特征值value對(duì)應(yīng)的value'是一個(gè)單獨(dú)的值（標(biāo)簽）
				classLabel=rootDict[value]      # 則該值就是要找的標(biāo)簽
	return classLabel   # 返回該樣本testSample的標(biāo)簽
 
 
 
if __name__=='__main__':    # 如果在當(dāng)前模塊/文件下執(zhí)行，將會(huì)指定下述代碼
    dataSet, labels=createDataSet()
    decisionTree=createTree(dataSet, labels)
    print(f"\ndecisionTree={decisionTree}\n")     # 輸出決策樹模型結(jié)果
    # 驗(yàn)證集
    features=  ['色澤','根蒂','敲聲','紋理','臍部','觸感']  # 特征列表     
    testSample=['淺白','蜷縮','濁響','清晰','凹陷','硬滑']  # 待測(cè)樣本
    print(f"測(cè)試結(jié)果1sampleLabel= {classify(decisionTree,features,testSample)}\n")   # 輸出測(cè)試結(jié)果
 
    features=  ['色澤','根蒂','敲聲','紋理','臍部','觸感']  # 特征列表     
    testSample=['淺白','硬挺','清脆','模糊','平坦','硬滑']  # 待測(cè)樣本
    print(f"測(cè)試結(jié)果2sampleLabel= {classify(decisionTree,features,testSample)}\n")   # 輸出測(cè)試結(jié)果
 
    features=  ['色澤','根蒂','敲聲','紋理','臍部','觸感']  # 特征列表     
    testSample=['淺白','蜷縮','濁響','模糊','平坦','硬滑']  # 待測(cè)樣本
    print(f"測(cè)試結(jié)果3sampleLabel= {classify(decisionTree,features,testSample)}\n")   # 輸出測(cè)試結(jié)果

總結(jié)

到此這篇關(guān)于ID3決策樹以及Python實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python實(shí)現(xiàn)ID3決策樹內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

ID3決策樹以及Python實(shí)現(xiàn)詳細(xì)過程

目錄

一、劃分特征的評(píng)價(jià)指標(biāo)：

二、決策樹學(xué)習(xí)算法偽代碼：

三、決策樹生成實(shí)例：

3.1 首先獲取一個(gè)訓(xùn)練樣本集D，作為決策樹的訓(xùn)練依據(jù)：

3.2 計(jì)算信息增益：

3.3 選取最優(yōu)信息增益，選取最優(yōu)劃分特征：

3.4 決策樹算法再對(duì)每個(gè)分支進(jìn)一步劃分（遞歸）：

3.5 生成最終的決策樹：

四、Python實(shí)現(xiàn)ID3決策樹：

4.1 構(gòu)建樣本集：

4.2 計(jì)算信息熵：

4.3 按給定的特征值劃分出樣本子集：

4.4 選取當(dāng)前樣本集下的最優(yōu)劃分特征索引：

4.5 求樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽：

4.6 遞歸生成決策樹：

4.7 對(duì)決策樣本進(jìn)行分類：

4.8 執(zhí)行：

4.9 運(yùn)行結(jié)果：

4.10 實(shí)現(xiàn)決策樹的總代碼：

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

ID3決策樹以及Python實(shí)現(xiàn)詳細(xì)過程

目錄

一、劃分特征的評(píng)價(jià)指標(biāo)：

二、決策樹學(xué)習(xí)算法偽代碼：

三、決策樹生成實(shí)例：

3.1 首先獲取一個(gè)訓(xùn)練樣本集D，作為決策樹的訓(xùn)練依據(jù)：

3.2 計(jì)算信息增益：

3.3 選取最優(yōu)信息增益，選取最優(yōu)劃分特征：

3.4 決策樹算法再對(duì)每個(gè)分支進(jìn)一步劃分（遞歸）：

3.5 生成最終的決策樹：

四、Python實(shí)現(xiàn)ID3決策樹：

4.1 構(gòu)建樣本集：

4.2 計(jì)算信息熵：

4.3 按給定的特征值劃分出樣本子集：

4.4 選取當(dāng)前樣本集下的最優(yōu)劃分特征索引：

4.5 求樣本集中出現(xiàn)次數(shù)最多的標(biāo)簽：

4.6 遞歸生成決策樹：

4.7 對(duì)決策樣本進(jìn)行分類：

4.8 執(zhí)行：

4.9 運(yùn)行結(jié)果：

4.10 實(shí)現(xiàn)決策樹的總代碼：

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

三、決策樹生成實(shí)例：

3.1 首先獲取一個(gè)訓(xùn)練樣本集D，作為決策樹的訓(xùn)練依據(jù)：

3.3 選取最優(yōu)信息增益，選取最優(yōu)劃分特征：

四、Python實(shí)現(xiàn)ID3決策樹：