欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python+Sklearn實(shí)現(xiàn)異常檢測(cè)

 更新時(shí)間:2022年12月22日 08:56:42   作者:Python數(shù)據(jù)開發(fā)  
這篇文章主要為大家詳細(xì)介紹了Python如何利用Sklearn實(shí)現(xiàn)異常檢測(cè),文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定的幫助,感興趣的可以跟隨小編一起學(xué)習(xí)一下

離群檢測(cè) 與 新奇檢測(cè)

很多應(yīng)用場(chǎng)景都需要能夠確定樣本是否屬于與現(xiàn)有的分布,或者應(yīng)該被視為不同的分布。

  • 離群檢測(cè)(Outlier detection):訓(xùn)練數(shù)據(jù)包含離群值,這些離群值被定義為與其他觀察值相差甚遠(yuǎn)的觀察值。
  • 新奇檢測(cè) (Novelty detection):訓(xùn)練數(shù)據(jù)沒(méi)有離群點(diǎn),需要觀察新的樣本是否包含離群點(diǎn)。

離群檢測(cè)和新穎性檢測(cè)都用于異常檢測(cè),其中人們對(duì)檢測(cè)異?;虿粚こ5挠^察感興趣。離群檢測(cè)也稱為無(wú)監(jiān)督異常檢測(cè),新奇檢測(cè)稱為半監(jiān)督異常檢測(cè)。

在離群檢測(cè)中離群值不能形成密集的集群,因?yàn)榭梢约僭O(shè)離群值位于低密度區(qū)域。相反在新穎性檢測(cè)中,新穎性處于訓(xùn)練數(shù)據(jù)的低密度區(qū)域。

Sklearn 中支持的方法

如下圖為scikit-learn 中異常值檢測(cè)算法的比較,IsolationForest和LocalOutlierFactor在此處考慮的數(shù)據(jù)集上表現(xiàn)相當(dāng)不錯(cuò)。而OneClassSVM對(duì)離群值很敏感,因此在離群值檢測(cè)方面表現(xiàn)不佳。

但OneClassSVM仍可用于異常值檢測(cè),但需要微調(diào)其超參數(shù)nu以處理異常值并防止過(guò)度擬合。SGDOneClassSVM提供了復(fù)雜度更低的實(shí)現(xiàn)。而EllipticEnvelope假設(shè)數(shù)據(jù)是高斯分布的并學(xué)習(xí)一個(gè)橢圓。

  • ensemble.IsolationForest
  • neighbors.LocalOutlierFactor
  • svm.OneClassSVM
  • linear_model.SGDOneClassSVM
  • covariance.EllipticEnvelope

孤立森林 IsolationForest

孤立森林(Isolation Forest)是一種異常值檢測(cè)算法。它通過(guò)建立多棵決策樹,并在每棵樹中隨機(jī)選取一個(gè)特征將數(shù)據(jù)集劃分為兩個(gè)子集來(lái)實(shí)現(xiàn)異常值檢測(cè)。與其他決策樹算法不同的是,孤立森林算法并不是用來(lái)預(yù)測(cè)目標(biāo)變量的值的,而是用來(lái)預(yù)測(cè)數(shù)據(jù)點(diǎn)是否是異常值。

為了計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)是否是異常值,孤立森林算法對(duì)每個(gè)數(shù)據(jù)點(diǎn)計(jì)算出一個(gè)分?jǐn)?shù),稱為異常分?jǐn)?shù)。數(shù)據(jù)點(diǎn)的異常分?jǐn)?shù)越低,說(shuō)明它越可能是一個(gè)異常值。通常情況下,我們可以設(shè)定一個(gè)閾值,如果數(shù)據(jù)點(diǎn)的異常分?jǐn)?shù)低于這個(gè)閾值,就認(rèn)為這是一個(gè)異常值。

關(guān)鍵參數(shù):

  • n_estimators:學(xué)習(xí)器個(gè)數(shù)
  • max_samples:采樣最大樣本個(gè)數(shù)
  • max_features:采樣最大特征個(gè)數(shù)
from sklearn.ensemble import IsolationForest  
X = [[-1.1], [0.3], [0.5], [100]]  
clf = IsolationForest(random_state=0).fit(X)  
  
# 預(yù)測(cè)特定樣本是否為異常值  
# 對(duì)于每個(gè)觀察值,返回 (+1 或 -1) 分別代表正常樣本和異常值  
clf.predict([[0.1], [0], [90]])  

Local Outlier Factor

Local Outlier Factor (LOF) 是一種用于檢測(cè)數(shù)據(jù)集中異?;虍惓?shù)據(jù)點(diǎn)的算法。LOF 背后的基本思想是測(cè)量給定數(shù)據(jù)點(diǎn)與其相鄰數(shù)據(jù)點(diǎn)的局部偏差。如果一個(gè)點(diǎn)與其相鄰點(diǎn)有顯著差異,則將其視為異常值。一個(gè)點(diǎn)被視為離群值的程度通過(guò)稱為局部離群值因子的度量來(lái)量化。

首先確定該點(diǎn)鄰居的密度,密度計(jì)算方法是將給定距離內(nèi)的鄰居數(shù)除以具有該距離的球體的體積。較高鄰居密度的點(diǎn)被認(rèn)為比具有較低鄰居密度的點(diǎn)更不離群。然后將一個(gè)點(diǎn)的 LOF 計(jì)算為該點(diǎn)與其相鄰點(diǎn)的密度之比。具有高 LOF 值的點(diǎn)被認(rèn)為是異常值。

關(guān)鍵參數(shù):

  • n_neighbors:最近鄰樣本個(gè)數(shù)
  • metric:距離計(jì)算方法
import numpy as np  
from sklearn.neighbors import LocalOutlierFactor  
X = [[-1.1], [0.2], [101.1], [0.3]]  
clf = LocalOutlierFactor(n_neighbors=2)  
  
# 異常/離群值返回 -1,離群值返回 +1  
clf.fit_predict(X)  

OneClassSVM

OneClassSVM是一種用于檢測(cè)異常點(diǎn)的算法,是一種無(wú)監(jiān)督學(xué)習(xí)算法。決策邊界將數(shù)據(jù)點(diǎn)分為兩類:內(nèi)點(diǎn)和外點(diǎn)。非離群點(diǎn)是與訓(xùn)練集中的大多數(shù)點(diǎn)相似的點(diǎn),而離群點(diǎn)是與訓(xùn)練集中的大多數(shù)點(diǎn)顯著不同的點(diǎn)。

為了學(xué)習(xí)決策邊界,OneClassSVM最大化邊界和內(nèi)點(diǎn)之間的距離,最終找到合適的超平面。這個(gè)超平面可以最大化內(nèi)點(diǎn)和決策邊界之間的邊距。一旦學(xué)習(xí)了決策邊界,就可以使用它來(lái)將新點(diǎn)分類為內(nèi)點(diǎn)或異常點(diǎn)。

關(guān)鍵參數(shù):

  • kernel:SVM內(nèi)核類型
  • nu:訓(xùn)練誤差分?jǐn)?shù)的上限
from sklearn.svm import OneClassSVM  
X = [[0], [0.44], [0.45], [0.46], [1]]  
clf = OneClassSVM(gamma='auto').fit(X)  
  
# 異常/離群值返回 -1,離群值返回 +1  
clf.predict(X)  

在實(shí)際使用中OneClassSVM速度較慢,因此可以考慮使用隨機(jī)梯度下降求解線性的SVM來(lái)代替,也就是SGDOneClassSVM。

Elliptic Envelope

橢圓包絡(luò)(Elliptic Envelope)是一種檢測(cè)數(shù)據(jù)集中異?;虍惓?shù)據(jù)點(diǎn)的方法。它是一種無(wú)監(jiān)督學(xué)習(xí)方法,通過(guò)將橢圓擬合到訓(xùn)練集中的數(shù)據(jù)點(diǎn)來(lái)工作,但假設(shè)大多數(shù)點(diǎn)遵循高斯分布。

為了擬合橢圓,橢圓包絡(luò)估計(jì)數(shù)據(jù)點(diǎn)的均值和協(xié)方差,并使用這些估計(jì)值來(lái)確定橢圓的形狀和方向。一旦學(xué)習(xí)了橢圓,它就可以用來(lái)將新點(diǎn)分類為內(nèi)點(diǎn)或異常點(diǎn)。

import numpy as np  
from sklearn.covariance import EllipticEnvelope  
true_cov = np.array([[.8, .3],  
                     [.3, .4]])  
X = np.random.RandomState(0).multivariate_normal(mean=[0, 0],  
                                                 cov=true_cov,  
                                                 size=500)  
cov = EllipticEnvelope(random_state=0).fit(X)  
# predict returns 1 for an inlier and -1 for an outlier  
cov.predict([[0, 0],  
             [3, 3]])  

到此這篇關(guān)于Python+Sklearn實(shí)現(xiàn)異常檢測(cè)的文章就介紹到這了,更多相關(guān)Python Sklearn異常檢測(cè)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python并行分布式框架Celery詳解

    Python并行分布式框架Celery詳解

    今天小編就為大家分享一篇關(guān)于Python并行分布式框架Celery詳解的文章,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧
    2018-10-10
  • Python利用pdfplumber提取PDF文檔中的表格數(shù)據(jù)并導(dǎo)出

    Python利用pdfplumber提取PDF文檔中的表格數(shù)據(jù)并導(dǎo)出

    pdfplumber是一個(gè)功能強(qiáng)大的Python庫(kù),可以用于解析PDF文檔并提取其中的文本、表格和圖像等內(nèi)容,下面我們就來(lái)學(xué)習(xí)一下如何使用pdfplumber提取PDF表格數(shù)據(jù)吧
    2023-12-12
  • 使用虛擬環(huán)境打包python為exe 文件的方法

    使用虛擬環(huán)境打包python為exe 文件的方法

    這篇文章主要介紹了關(guān)于使用虛擬環(huán)境打包python為exe 文件的方法,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-08-08
  • Python中跨越多個(gè)文件使用全局變量的方法

    Python中跨越多個(gè)文件使用全局變量的方法

    全局變量是不屬于函數(shù)范圍的變量,可以在整個(gè)程序中使用,這表明全局變量也可以在函數(shù)體內(nèi)部或外部使用,這篇文章主要介紹了Python中跨越多個(gè)文件使用全局變量,需要的朋友可以參考下
    2023-09-09
  • python中wordcloud安裝的方法小結(jié)

    python中wordcloud安裝的方法小結(jié)

    這篇文章主要介紹了安裝python中wordcloud的幾種方法,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-06-06
  • python+selenium自動(dòng)化實(shí)戰(zhàn)攜帶cookies模擬登陸微博

    python+selenium自動(dòng)化實(shí)戰(zhàn)攜帶cookies模擬登陸微博

    這篇文章主要介紹了python+selenium自動(dòng)化實(shí)戰(zhàn)攜帶cookies模擬登陸微博,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • Python中的Pandas庫(kù)操作小結(jié)

    Python中的Pandas庫(kù)操作小結(jié)

    Pandas 是一個(gè)用于數(shù)據(jù)分析的 Python 第三方庫(kù),能夠處理和分析不同格式的數(shù)據(jù),Pandas 提供了兩種數(shù)據(jù)結(jié)構(gòu),分別為 Series 和 DataFrame,靈活而方便地進(jìn)行數(shù)據(jù)分析和操作,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友參考下吧
    2023-06-06
  • python實(shí)現(xiàn)bilibili動(dòng)畫下載視頻批量改名功能

    python實(shí)現(xiàn)bilibili動(dòng)畫下載視頻批量改名功能

    這篇文章主要介紹了python實(shí)現(xiàn)bilibili動(dòng)畫下載視頻批量改名,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-11-11
  • TensorFlow繪制loss/accuracy曲線的實(shí)例

    TensorFlow繪制loss/accuracy曲線的實(shí)例

    今天小編就為大家分享一篇TensorFlow繪制loss/accuracy曲線的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-01-01
  • 對(duì)python中return與yield的區(qū)別詳解

    對(duì)python中return與yield的區(qū)別詳解

    這篇文章主要介紹了對(duì)python中return與yield的區(qū)別詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-03-03

最新評(píng)論