Python實現(xiàn)隨機森林算法的示例代碼

更新時間：2023年06月05日 09:30:47 作者：刻意思考

隨機森林的英文是 Random Forest，英文簡寫是 RF，也是常用的人工智能算法，本文為大家介紹了Python實現(xiàn)隨機森林算法的示例代碼，希望對大家有所幫助

隨機森林分類器

隨機森林的英文是 Random Forest，英文簡寫是 RF。它是一個包含多個決策樹的分類器，每一個子分類器都是一棵 CART 分類回歸樹。所以隨機森林既可以做分類，又可以做回歸。

當它做分類的時候，輸出結果是每個子分類器的分類結果中最多的那個?？梢岳斫馐敲總€分類器都做投票，取投票最多的那個結果。
當它做回歸的時候，輸出結果是每棵 CART 樹的回歸結果的平均值。

在 sklearn 中，我們使用 RandomForestClassifier() 構造隨機森林模型，函數(shù)里有一些常用的構造參數(shù)：

n_estimators: 隨機森林里決策樹的個數(shù)，默認是10
criterion：決策樹分裂的標準，默認是基尼指數(shù)（CART算法），也可以選擇entropy（ID3算法）
max_depth: 決策樹的最大深度，默認是None, 不限制
n_jobs：擬合和預測的時候CPU的核數(shù)，默認是1

GridSearchCV 對模型參數(shù)進行調優(yōu)

分類算法，我們經(jīng)常需要調節(jié)網(wǎng)絡參數(shù)（對應上面的構造參數(shù)），目的是得到更好的分類結果。實際上一個分類算法有很多參數(shù)，取值范圍也比較廣，那么該如何調優(yōu)呢？

Python 給我們提供了一個很好用的工具 GridSearchCV，它是Python的參數(shù)自動搜索模塊，能夠自動決策最優(yōu)參數(shù)。

我們使用 GridSearchCV(estimator, param_grid, cv=None, scoring=None) 構造參數(shù)的自動搜索模塊，這里有一些主要的參數(shù)需要說明：

estimator：代表采用的分類器，如隨機森林、決策樹、SVM、KNN等
param_grid：代表想要優(yōu)化的參數(shù)及取值
cv：交叉驗證的折數(shù)，默認是None, 代表使用三折交叉驗證
scoring：準確度的評價標準，默認是None，也就是需要使用score函數(shù)

舉例，我們使用sklearn自帶的IRIS數(shù)據(jù)集，采用隨機森林對IRIS數(shù)據(jù)分類。如果我們想知道n_estimators在1-10的范圍內取哪個值的分類結果最好，可以編寫代碼如下：

# -*- coding: utf-8 -*-
# 使用RandomForest對IRIS數(shù)據(jù)集進行分類
# 利用GridSearchCV尋找最優(yōu)參數(shù)

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

rf = RandomForestClassifier()
parameters = {"n_estimators": range(1, 11)}
iris = load_iris()

# 使用GridSearchCV進行參數(shù)調優(yōu)
clf = GridSearchCV(estimator=rf, param_grid=parameters)

# 對iris數(shù)據(jù)集進行分類
clf.fit(iris.data, iris.target)

print("最優(yōu)分數(shù)： %.4lf" % clf.best_score_)
print("最優(yōu)參數(shù)：", clf.best_params_)

運行結果：

最優(yōu)分數(shù)： 0.9600
最優(yōu)參數(shù)： {'n_estimators': 3}

使用 Pipeline 進行流水線作業(yè)

在進行數(shù)據(jù)分類的時候往往都是有多個步驟的，比如先對數(shù)據(jù)進行規(guī)范化處理，也可以用PCA對數(shù)據(jù)降維，最后再使用分類器進行分類。

Python有一種Pipeline管道機制。管道機制就是讓我們把每一步都按順序列下來，從而創(chuàng)建Pipeline流水線作業(yè)。每一步都采用（‘名稱’，步驟）的方式來表示。

那么我們現(xiàn)在采用Pipeline管道機制，用隨機森林對IRIS數(shù)據(jù)集做一下分類。先用StandardScaler方法對數(shù)據(jù)規(guī)范化，即采用數(shù)據(jù)規(guī)范化為均值為0，方差為1的正態(tài)分布，然后采用PCA方法對數(shù)據(jù)進行降維，最后采用隨機森林進行分類，編寫代碼如下：

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

rf = RandomForestClassifier()
parameters = {"randomforestclassifier__n_estimators": range(1, 11)}
iris = load_iris()
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA()),
    ('randomforestclassifier', rf)
])

clf = GridSearchCV(estimator=pipeline, param_grid=parameters)
clf.fit(iris.data, iris.target)
print("最優(yōu)分數(shù)： %.4lf" % clf.best_score_)
print("最優(yōu)參數(shù)：", clf.best_params_)

運行結果如下：