快捷導(dǎo)航

Python實現(xiàn)孤立隨機森林算法的示例代碼

更新時間：2022年03月25日 09:11:34 作者：是夢吧，是你吧！

孤立森林（isolation?Forest）是一種高效的異常檢測算法，它和隨機森林類似，但每次選擇劃分屬性和劃分點（值）時都是隨機的，而不是根據(jù)信息增益或基尼指數(shù)來選擇。本文將用Python實現(xiàn)這一算法，需要的可以參考一下

1 簡介

孤立森林（isolation Forest）是一種高效的異常檢測算法，它和隨機森林類似，但每次選擇劃分屬性和劃分點（值）時都是隨機的，而不是根據(jù)信息增益或基尼指數(shù)來選擇。

2 孤立隨機森林算法

2.1 算法概述

Isolation，意為孤立/隔離，是名詞，其動詞為isolate，forest是森林，合起來就是“孤立森林”了，也有叫“獨異森林”，好像并沒有統(tǒng)一的中文叫法?？赡艽蠹叶剂晳T用其英文的名字isolation forest，簡稱iForest 。

iForest算法是由南京大學(xué)的周志華和澳大利亞莫納什大學(xué)的Fei Tony Liu，Kai Ming Ting等人共同移除，用于挖掘數(shù)據(jù)，它是適用于連續(xù)數(shù)據(jù)（Continuous numerical data）的異常檢測，將異常定義為“容易被孤立的離群點（more likely to be separated）”——可以理解為分布稀疏且離密度高的群體較遠的點。用統(tǒng)計學(xué)來解釋，在數(shù)據(jù)空間里面，分布稀疏的區(qū)域表示數(shù)據(jù)發(fā)生在此區(qū)域的概率很低，因此可以認為落在這些區(qū)域里的數(shù)據(jù)是異常的。通常用于網(wǎng)絡(luò)安全中的攻擊檢測和流量異常等分析，金融機構(gòu)則用于挖掘出欺詐行為。對于找出的異常數(shù)據(jù)，然后要么直接清除異常數(shù)據(jù)，如數(shù)據(jù)清理中的去噪數(shù)據(jù)，要么深入分析異常數(shù)據(jù)，比如分析攻擊，欺詐的行為特征。

2.2 原理介紹

iForest 屬于Non-parametric和unsupervised的方法，即不用定義數(shù)學(xué)模型也不需要有標記的訓(xùn)練。對于如何查找哪些點是否容易被孤立（isolated），iForest使用了一套非常高效的策略。假設(shè)我們用一個隨機超平面來切割（split）數(shù)據(jù)空間（data space），切一次可以生成兩個子空間（詳細拿刀切蛋糕一分為二）。之后我們再繼續(xù)用一個隨機超平面來切割每個子空間，循環(huán)下去，直到每個子空間里面只有一個數(shù)據(jù)點為止。直觀上來講，我們可以發(fā)現(xiàn)那些密度很高的簇是被切分很多次才會停止切割，但是那些密度很低的點很容易很早就停到一個子空間看了。

iForest 算法得益于隨機森林的思想，與隨機森林由大量決策樹組成一樣，iForest森林也由大量的二叉樹組成，iForest 中的樹叫 isolation tree，簡稱 iTree，iTree 樹和決策樹不太一樣，其構(gòu)建過程也比決策樹簡單，是一個完全隨機的過程。

假設(shè)數(shù)據(jù)集有 N 條數(shù)據(jù)，構(gòu)建一顆 ITree時，從 N條數(shù)據(jù)中均勻抽樣（一般是無放回抽樣）出 n 個樣本出來，作為這棵樹的訓(xùn)練樣本。在樣本中，隨機選出一個特征，并在這個特征的所有值范圍內(nèi)（最小值和最大值之間）隨機選一個值，對樣本進行二叉劃分，將樣本中小于該值的劃分到節(jié)點的左邊，大于等于該值的劃分到節(jié)點的右邊。由此得到一個分裂條件和左右兩邊的數(shù)據(jù)集，然后分別在左右兩邊的數(shù)據(jù)集上重復(fù)上面的過程，直到數(shù)據(jù)集只有一條記錄或者達到了樹的限定高度。

由于異常數(shù)據(jù)較小且特征值和正常數(shù)據(jù)差別很大。因此，構(gòu)建 iTree的時候，異常數(shù)據(jù)離根更近，而正常數(shù)據(jù)離根更遠。一顆ITree的結(jié)果往往不可信，iForest算法通過多次抽樣，構(gòu)建多顆二叉樹。最后整合所有樹的結(jié)果，并取平均深度作為最終的輸出深度，由此計算數(shù)據(jù)點的異常分支。

2.3 算法步驟

怎么來切這個數(shù)據(jù)空間是iForest的設(shè)計核心思想，本文僅學(xué)習最基本的方法，由于切割是隨機的，所以需要用ensemble的方法來得到一個收斂值（蒙特卡洛方法），即反復(fù)從頭開始切，然后平均每次切的結(jié)果。IForest由 t個iTree（Isolation Tree）孤立樹組成，每個iTree是一個二叉樹結(jié)構(gòu)，所以下面我們先說一下iTree樹的構(gòu)建，然后再看iForest樹的構(gòu)建。

3 參數(shù)講解

（1）n_estimators：構(gòu)建多少個itree，int，optional （default=100）指定該森林中生成的隨機樹數(shù)量

（2）max_samples：采樣數(shù)，自動是256，int，optional（default='auto）

用來訓(xùn)練隨機數(shù)的樣本數(shù)量，即子采樣的大?。?/p>

1）如果設(shè)置的是一個int常數(shù)，那么就會從總樣本 X 拉取 max_samples個樣本生成一棵樹 iTree

2）如果設(shè)置的是一個float浮點數(shù)，那么就會從總樣本 X 拉取 max_samples*X.shape[0] 個樣本，X.shape[0] 表示總樣本個數(shù)

3）如果設(shè)置的是 “auto”，則max_samples=min(256, n_samples)，n_samples即總樣本的數(shù)量

如果max_samples 值比提供的總樣本的數(shù)量還大的話，所有的樣本都會用來構(gòu)造數(shù)，意思就是沒有采樣了，構(gòu)造的 n_estimators棵ITree使用的樣本都是一樣的，即所有的樣本。

（3）contamination：c(n)默認是0.1，float in （0， 0.5），optional（default=0.1），取值范圍為（0， 0.5），表示異常數(shù)據(jù)占給定的數(shù)據(jù)集的比例，就是數(shù)據(jù)集中污染的數(shù)量，定義該參數(shù)值的作用是在決策函數(shù)中定義閾值。如果設(shè)置為“auto”，則決策函數(shù)的閾值就和論文一樣，在版本0.20中有變換：默認值從0.1變?yōu)?.22的auto。

（4）max_features：最大特征數(shù)，默認為1，int or float，optional，指定從總樣本X中抽取來訓(xùn)練每棵樹iTree 的屬性的數(shù)量，默認只使用一個屬性

如果設(shè)置為 int 整數(shù)，則抽取 max_features 個屬性

如果是float浮點數(shù)，則抽取 max_features *X.shape[1] 個屬性

（5）bootstrap：boolean，optional（default = False），構(gòu)建Tree時，下次是否替換采樣，為True為替換，則各個樹可放回地對訓(xùn)練數(shù)據(jù)進行采樣；為False為不替換，即執(zhí)行不放回的采樣

（6）n_jobs：int or None, optional （default = None），在運行 fit() 和 predict() 函數(shù)時并行運行的作業(yè)數(shù)量。除了在 joblib.parallel_backend 上下文的情況下，None表示為1，設(shè)置為 -1 則表示使用所有可以使用的處理器　

（7）behaviour：str，default='old'，決策函數(shù) decision_function 的行為，可以是“old”和‘new’。設(shè)置為 behavior='new'將會讓 decision_function 去迎合其它異常檢測算法的API，這在未來將會設(shè)置為默認值。正如在 offset_ 屬性文檔中詳細解釋的那樣，decision_function 變得依賴于 contamination 參數(shù)，以 0 作為其檢測異常值的自然閾值。

New in version 0.20：behaviour參數(shù)添加到了0.20版本中以實現(xiàn)后向兼容

behaviour='old'在0.20版本中以經(jīng)棄用，在0.22版本中將不能使用

behaviour參數(shù)將在0.22版本中棄用，將在0.24版本中移除

（8）random_state：int，RandomState instance or None，optional（default=None）

如果設(shè)置為 int 常數(shù)，則該 random_state 參數(shù)值是用于隨機數(shù)生成器的種子

如果設(shè)置為RandomState實例，則該 random_state 就是一個隨機數(shù)生成器

如果設(shè)置為None，則該隨機數(shù)生成器就是使用在 np.random中RandomState實例

（9）verbose：int，optional（default=0）控制樹構(gòu)建過程的冗長性

（10）warm_start：bool，optional（default=False），當設(shè)置為TRUE時，重用上一次調(diào)用的結(jié)果去 fit，添加更多的樹到上一次的森林1集合中；否則就 fit一整個新的森林

4 Python代碼實現(xiàn)

# _*_coding:utf-8_*_

#~~~~~~~~導(dǎo)入相關(guān)庫~~~~~~~~~~~·
import numpy as np
import matplotlib.pyplot as plt
from pylab import *
import matplotlib; matplotlib.use('TkAgg')
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False
from sklearn.ensemble import IsolationForest  #孤立隨機森林
 
rng = np.random.RandomState(42)  #該方法為np中的偽隨機數(shù)生成方法，其中的42表示種子，只要種子一致 產(chǎn)生的偽隨機數(shù)序列即為一致。
 
#~~~~~~~產(chǎn)生訓(xùn)練數(shù)據(jù)~~~~~~~~~~
X = 0.3 * rng.randn(100, 2)  #randn：標準正態(tài)分布；rand的隨機樣本位于[0, 1)中
X_train = np.r_[X + 2, X - 2]
X = 0.3 * rng.randn(20, 2)
X_test = np.r_[X + 2, X - 2]
X_outliers = rng.uniform(low=-4, high=4, size=(20, 2))
 
#~~~~~~~~~訓(xùn)練模型~~~~~~~~~~~~·
clf = IsolationForest( max_samples=100,random_state=rng, contamination='auto')
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_outliers)
 
xx, yy = np.meshgrid(np.linspace(-5, 5, 50), np.linspace(-5, 5, 50))
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
 
#~~~~~~~~~~~~~~~~可視化~~~~~~~~~~~~~~~~~~·
plt.title("孤立隨機森林")
plt.contourf(xx, yy, Z, camp=plt.cm.Blues_r)
b1 = plt.scatter(X_train[:, 0], X_train[:, 1], c='green',
                 s=20, edgecolor='k')
b2 = plt.scatter(X_test[:, 0], X_test[:, 1], c='white',
                 s=20, edgecolor='k')
c = plt.scatter(X_outliers[:, 0], X_outliers[:, 1], c='red',
                s=20, edgecolor='k')
plt.axis('tight')
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.legend([b1, b2, c],
           ["training observations",
            "new regular observations", "new abnormal observations"],
           loc="upper left")
plt.show()