欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用Python和scikit-learn創(chuàng)建混淆矩陣的示例詳解

 更新時間:2022年06月07日 16:01:30   作者:坐望云起  
這篇文章主要介紹了使用Python和scikit-learn創(chuàng)建混淆矩陣的示例詳解,該示例包括生成數(shù)據(jù)集、為數(shù)據(jù)集選擇合適的機器學習模型、構建、配置和訓練它,最后解釋結果,即混淆矩陣,需要的朋友可以參考下

一、混淆矩陣概述

在訓練了有監(jiān)督的機器學習模型(例如分類器)之后,您想知道它的工作情況。

這通常是通過將一小部分稱為測試集的數(shù)據(jù)分開來完成的,該數(shù)據(jù)用作模型以前從未見過的數(shù)據(jù)。

如果它在此數(shù)據(jù)集上表現(xiàn)良好,那么該模型很可能在其他數(shù)據(jù)上也表現(xiàn)良好 - 當然,如果它是從與您的測試集相同的分布中采樣的。

現(xiàn)在,當您測試您的模型時,您向其提供數(shù)據(jù) - 并將預測與基本事實進行比較,測量真陽性、真陰性、假陽性和假陰性的數(shù)量。這些隨后可以在視覺上吸引人的混淆矩陣中可視化。

在今天我們將學習如何使用 Scikit-learn 創(chuàng)建這樣的混淆矩陣,Scikit-learn 是當今機器學習社區(qū)中使用最廣泛的機器學習框架之一。通過使用 Python 創(chuàng)建的示例,展示如何生成一個矩陣,您可以使用該矩陣輕松直觀地確定模型的性能。

1、示例1

一個混淆矩陣的例子

它是一個歸一化的混淆矩陣。它的描述了兩個度量:

True label,這是您的測試集所代表的基本事實。

Predicted label,即機器學習模型對與真實標簽對應的特征生成的預測。

例如,在上面的模型中,對于所有真實標簽 1,預測標簽為 1。這意味著來自第 1 類的所有樣本都被正確分類。

對于其他類,性能也不錯,但稍差一些。如您所見,對于第 2 類,一些樣本被預測為第 0 類和第 1 類的一部分。

簡而言之,它回答了“對于我的真實標簽/基本事實,模型的預測效果如何?”這個問題。

2、示例2

也可以從預測的角度看,問題將變?yōu)?ldquo;對于我的預測標簽,有多少預測實際上是預測類別的一部分?”。這是相反的觀點,但在許多機器學習案例中可能是一個有意義的問題。

最優(yōu)情況,是整個真實標簽集等于預測標簽集。在這些情況下,除了從左上角到右下角的線之外,您會在各處看到零。然而,在實踐中,這種情況并不經(jīng)常發(fā)生。很可能更加分散,例如下面這個 SVM 分類器,其中需要許多支持向量來繪制不能完美工作但足夠充分的決策邊界:

二、使用Scikit-learn 創(chuàng)建混淆矩陣

現(xiàn)在創(chuàng)建一個混淆矩陣。將使用 Python 和 Scikit-learn。

創(chuàng)建混淆矩陣涉及多個步驟:

1、生成示例數(shù)據(jù)集。需要數(shù)據(jù)來訓練我們的模型。因此,我們將首先生成數(shù)據(jù),以便我們接下來可以為 ML 模型類做出適當?shù)倪x擇。

2、選擇機器學習模型類。顯然,如果我們要評估一個模型,我們需要訓練一個模型。我們將首先選擇適合我們數(shù)據(jù)特征的特定類型的模型。

3、構建和訓練 ML 模型。前兩個步驟的結果是我們最終得到了一個訓練有素的模型。

4、生成混淆矩陣。最后,基于訓練好的模型,我們可以創(chuàng)建我們的混淆矩陣。

1、相應軟件包

需要以下包,假定已經(jīng)安裝好了Python環(huán)境、Scikit-learn、Numpy、Matplotlib、Mlxtend

2、生成示例數(shù)據(jù)集

第一步是生成示例數(shù)據(jù)集。我們也將為此目的使用 Scikit-learn。首先,創(chuàng)建一個名為 的文件confusion-matrix.py。

(1)導入相關的包

# Imports
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt

Scikit-learn的make_blobs功能可以生成樣本的“blob”或集群。這些斑點以某個點為中心,并且樣本基于某個標準偏差分散在該點周圍。這使您可以靈活地確定生成的數(shù)據(jù)集的位置和結構,從而使您可以試驗各種 ML 模型。

在評估模型時,我們需要確保數(shù)據(jù)集在訓練數(shù)據(jù)和測試數(shù)據(jù)之間進行分割。Scikit-learn使用train_test_split函數(shù)實現(xiàn)分割。

(2)相關配置

# Configuration options
blobs_random_seed = 42
centers = [(0,0), (5,5), (0,5), (2,3)]
cluster_std = 1.3
frac_test_split = 0.33
num_features_for_samples = 4
num_samples_total = 5000

隨機種子描述了用于生成數(shù)據(jù)塊的偽隨機數(shù)生成器的初始化。您可能知道,沒有隨機數(shù)生成器是真正隨機的。更重要的是,它們的初始化方式也不同。配置固定種子可確保每次運行腳本時,隨機數(shù)生成器都以相同的方式初始化。如果出現(xiàn)奇怪的行為,您就知道它可能不是隨機數(shù)生成器。

中心描述了我們數(shù)據(jù)塊的二維空間中的中心。如您所見,我們今天有 4 個 blob。

聚類標準差描述了從隨機點生成器使用的抽樣分布中抽取樣本的標準差。我們將其設置為 1.3;較低的數(shù)字會產(chǎn)生更好分離的集群,反之亦然。

訓練/測試拆分的比例決定了為了測試目的拆分了多少數(shù)據(jù)。在我們的例子中,這是 33% 的數(shù)據(jù)。

我們樣本的特征數(shù)量是 4,并且確實描述了我們有多少目標:4,因為我們有 4 個數(shù)據(jù)塊。

最后,生成的樣本數(shù)量。我們將其設置為 5000 個樣本。

(3)生成數(shù)據(jù)

# Generate data
inputs, targets = make_blobs(n_samples = num_samples_total, centers = centers, n_features = num_features_for_samples, cluster_std = cluster_std)
X_train, X_test, y_train, y_test = train_test_split(inputs, targets, test_size=frac_test_split, random_state=blobs_random_seed)

(4)保存數(shù)據(jù)(可選)

# Save and load temporarily
np.save('./data_cf.npy', (X_train, X_test, y_train, y_test))
X_train, X_test, y_train, y_test = np.load('./data_cf.npy', allow_pickle=True)

(5)可視化數(shù)據(jù)

# Generate scatter plot for training data 
plt.scatter(X_train[:,0], X_train[:,1])
plt.title('Linearly separable data')
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()

3、訓練一個SVM

(1)導入相關包

from sklearn import svm
from sklearn.metrics import plot_confusion_matrix
from mlxtend.plotting import plot_decision_regions

(2)訓練分類器

# Initialize SVM classifier
clf = svm.SVC(kernel='linear')
 
# 擬合數(shù)據(jù)
clf = clf.fit(X_train, y_train)

4、生成混淆矩陣

它是評估步驟的一部分,我們用它來可視化它在測試集上的預測和泛化能力。

使用plot_confusion_matrix調用為我們解決了這個問題,我們只需向它提供分類器 (clf)、測試集 (X_testy_test)、顏色圖以及是否對數(shù)據(jù)進行歸一化。

# Generate confusion matrix
matrix = plot_confusion_matrix(clf, X_test, y_test,
                                 cmap=plt.cm.Blues,
                                 normalize='true')
plt.title('Confusion matrix for our classifier')
plt.show(matrix)
plt.show()

5、可視化邊界

如果要生成邊界圖,需要安裝 Mlxtend

# Get support vectors
support_vectors = clf.support_vectors_
 
# Visualize support vectors
plt.scatter(X_train[:,0], X_train[:,1])
plt.scatter(support_vectors[:,0], support_vectors[:,1], color='red')
plt.title('Linearly separable data with support vectors')
plt.xlabel('X1')
plt.ylabel('X2')
plt.show()
 
# Plot decision boundary
plot_decision_regions(X_test, y_test, clf=clf, legend=2)
plt.show()

唯一表現(xiàn)不佳的班級是第 3 類,得分為 0.68。這可以通過查看決策邊界圖中的類來解釋。在這里,由于這些樣本被其他樣本包圍,很明顯模型在生成決策邊界時遇到了很大的困難。例如,我們可以通過使用考慮到這一點的不同內核函數(shù)來解決這個問題,從而確保更好的可分離性。

? 以上就是我們使用 Python 和 Scikit-learn 創(chuàng)建了一個混淆矩陣。在研究了混淆矩陣是什么,以及它如何顯示真陽性、真陰性、假陽性和假陰性之后,我們給出了一個自己創(chuàng)建示例。

該示例包括生成數(shù)據(jù)集、為數(shù)據(jù)集選擇合適的機器學習模型、構建、配置和訓練它,最后解釋結果,即混淆矩陣。

到此這篇關于使用Python和scikit-learn創(chuàng)建混淆矩陣的文章就介紹到這了,更多相關Python和scikit-learn混淆矩陣內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python3+PyQt5圖形項的自定義和交互 python3實現(xiàn)page Designer應用程序

    python3+PyQt5圖形項的自定義和交互 python3實現(xiàn)page Designer應用程序

    這篇文章主要為大家詳細介紹了python3+PyQt5圖形項的自定義和交互,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-04-04
  • python EasyOCR庫實例用法介紹

    python EasyOCR庫實例用法介紹

    在本篇文章里小編給大家整理的是一篇關于python EasyOCR庫實例用法介紹,有需要的朋友們可以跟著學習下。
    2021-07-07
  • django redis的使用方法詳解

    django redis的使用方法詳解

    本文主要介紹了django redis的使用方法詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-04-04
  • Python多進程方式抓取基金網(wǎng)站內容的方法分析

    Python多進程方式抓取基金網(wǎng)站內容的方法分析

    這篇文章主要介紹了Python多進程方式抓取基金網(wǎng)站內容的方法,結合實例形式分析了Python多進程抓取網(wǎng)站內容相關實現(xiàn)技巧與操作注意事項,需要的朋友可以參考下
    2019-06-06
  • Python測試框架:pytest學習筆記

    Python測試框架:pytest學習筆記

    這篇文章主要介紹了Python測試框架:pytest的相關資料,幫助大家更好的利用python進行單元測試,感興趣的朋友可以了解下
    2020-10-10
  • 35個Python編程小技巧

    35個Python編程小技巧

    從我開始學習python的時候,我就開始自己總結一個python小技巧的集合。后來當我什么時候在Stack Overflow或者在某個開源軟件里看到一段很酷代碼的時候,我就很驚訝:原來還能這么做!,當時我會努力的自己嘗試一下這段代碼,直到我懂了它的整體思路以后,我就把這段代碼加到我的集合里
    2014-04-04
  • python 基于AioHttp 異步抓取火星圖片

    python 基于AioHttp 異步抓取火星圖片

    這篇文章主要介紹了python 基于AioHttp 異步抓取火星圖片的方法,幫助大家更好的理解和學習使用python,感興趣的朋友可以了解下
    2021-03-03
  • python列表生成式與列表生成器的使用

    python列表生成式與列表生成器的使用

    本篇文章主要介紹了python列表生成式與列表生成器的使用,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-02-02
  • 使用python獲取(宜賓市地震信息)地震信息

    使用python獲取(宜賓市地震信息)地震信息

    今天這個項目用到了Python的爬蟲知識,沒有用大家討厭的正則表達式,而是用一種新的方式解析庫,實現(xiàn)對HTML的解析和提取信息,最后又用到前面項目用過的wxpy庫,實現(xiàn)了全部功能
    2019-06-06
  • Python打印斐波拉契數(shù)列實例

    Python打印斐波拉契數(shù)列實例

    這篇文章主要介紹了Python打印斐波拉契數(shù)列的方法,實例分析了基于Python實現(xiàn)斐波那契數(shù)列的實現(xiàn)技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-07-07

最新評論