欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python sklearn包——混淆矩陣、分類報告等自動生成方式

 更新時間:2020年02月28日 16:01:03   作者:無限大地NLP_空木  
今天小編就為大家分享一篇python sklearn包——混淆矩陣、分類報告等自動生成方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

preface:做著最近的任務(wù),對數(shù)據(jù)處理,做些簡單的提特征,用機(jī)器學(xué)習(xí)算法跑下程序得出結(jié)果,看看哪些特征的組合較好,這一系列流程必然要用到很多函數(shù),故將自己常用函數(shù)記錄上。應(yīng)該說這些函數(shù)基本上都會用到,像是數(shù)據(jù)預(yù)處理,處理完了后特征提取、降維、訓(xùn)練預(yù)測、通過混淆矩陣看分類效果,得出報告。

1.輸入

從數(shù)據(jù)集開始,提取特征轉(zhuǎn)化為有標(biāo)簽的數(shù)據(jù)集,轉(zhuǎn)為向量。拆分成訓(xùn)練集和測試集,這里不多講,在上一篇博客中談到用StratifiedKFold()函數(shù)即可。在訓(xùn)練集中有data和target開始。

2.處理

def my_preprocessing(train_data):
  from sklearn import preprocessing
  X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2范式,對特征列進(jìn)行正則
  return X_normalized
 
def my_feature_selection(data, target):
  from sklearn.feature_selection import SelectKBest
  from sklearn.feature_selection import chi2
  data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)
  return data_new
 
def my_PCA(data):#data without target, just train data, withou train target.
  from sklearn import decomposition
  pca_sklearn = decomposition.PCA()
  pca_sklearn.fit(data)
  main_var = pca_sklearn.explained_variance_
  print sum(main_var)*0.9
  import matplotlib.pyplot as plt
  n = 15
  plt.plot(main_var[:n])
  plt.show()
 
def clf_train(data,target):
  from sklearn import svm
  #from sklearn.linear_model import LogisticRegression
  clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)
  clf.fit(data,target)
 
  #clf_LR = LogisticRegression()
  #clf_LR.fit(x_train, y_train)
  #y_pred_LR = clf_LR.predict(x_test)
  return clf
 
def my_confusion_matrix(y_true, y_pred):
  from sklearn.metrics import confusion_matrix
  labels = list(set(y_true))
  conf_mat = confusion_matrix(y_true, y_pred, labels = labels)
  print "confusion_matrix(left labels: y_true, up labels: y_pred):"
  print "labels\t",
  for i in range(len(labels)):
    print labels[i],"\t",
  print 
  for i in range(len(conf_mat)):
    print i,"\t",
    for j in range(len(conf_mat[i])):
      print conf_mat[i][j],'\t',
    print 
  print 
 
def my_classification_report(y_true, y_pred):
  from sklearn.metrics import classification_report
  print "classification_report(left: labels):"
  print classification_report(y_true, y_pred)

my_preprocess()函數(shù):

主要使用sklearn的preprocessing函數(shù)中的normalize()函數(shù),默認(rèn)參數(shù)為l2范式,對特征列進(jìn)行正則處理。即每一個樣例,處理標(biāo)簽,每行的平方和為1.

my_feature_selection()函數(shù):

使用sklearn的feature_selection函數(shù)中SelectKBest()函數(shù)和chi2()函數(shù),若是用詞袋提取了很多維的稀疏特征,有必要使用卡方選取前k個有效的特征。

my_PCA()函數(shù):

主要用來觀察前多少個特征是主要特征,并且畫圖??纯辞岸嗌賯€特征占據(jù)主要部分。

clf_train()函數(shù):

可用多種機(jī)器學(xué)習(xí)算法,如SVM, LR, RF, GBDT等等很多,其中像SVM需要調(diào)參數(shù)的,有專門調(diào)試參數(shù)的函數(shù)如StratifiedKFold()(見前幾篇博客)。以達(dá)到最優(yōu)。

my_confusion_matrix()函數(shù):

主要是針對預(yù)測出來的結(jié)果,和原來的結(jié)果對比,算出混淆矩陣,不必自己計算。其對每個類別的混淆矩陣都計算出來了,并且labels參數(shù)默認(rèn)是排序了的。

my_classification_report()函數(shù):

主要通過sklearn.metrics函數(shù)中的classification_report()函數(shù),針對每個類別給出詳細(xì)的準(zhǔn)確率、召回率和F-值這三個參數(shù)和宏平均值,用來評價算法好壞。另外ROC曲線的話,需要是對二分類才可以。多類別似乎不行。

主要參考sklearn官網(wǎng)

補(bǔ)充拓展:[sklearn] 混淆矩陣——多分類預(yù)測結(jié)果統(tǒng)計

 調(diào)用的函數(shù):confusion_matrix(typeTrue, typePred)

 typeTrue:實際類別,list類型

 typePred:預(yù)測類別,list類型

結(jié)果如下面的截圖:

 第i行:實際為第i類,預(yù)測到各個類的樣本數(shù)

第j列:預(yù)測為第j類,實際為各個類的樣本數(shù)

true↓ predict→

以上這篇python sklearn包——混淆矩陣、分類報告等自動生成方式就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • python實現(xiàn)心型照片墻效果

    python實現(xiàn)心型照片墻效果

    這篇文章主要為大家詳細(xì)介紹了python實現(xiàn)心型照片墻效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-09-09
  • python del()函數(shù)用法

    python del()函數(shù)用法

    del用于list列表操作,刪除一個或者連續(xù)幾個元素
    2013-03-03
  • Python使用pdb調(diào)試代碼的技巧

    Python使用pdb調(diào)試代碼的技巧

    Pdb就是Python debugger,是python自帶的調(diào)試器。這篇文章主要介紹了Python使用pdb調(diào)試代碼的技巧,需要的朋友可以參考下
    2020-05-05
  • 解決python DataFrame 打印結(jié)果不換行問題

    解決python DataFrame 打印結(jié)果不換行問題

    這篇文章主要介紹了解決python DataFrame 打印結(jié)果不換行問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • Python K最近鄰從原理到實現(xiàn)的方法

    Python K最近鄰從原理到實現(xiàn)的方法

    這篇文章主要介紹了Python K最近鄰從原理到實現(xiàn)的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-08-08
  • 從零學(xué)python系列之新版本導(dǎo)入httplib模塊報ImportError解決方案

    從零學(xué)python系列之新版本導(dǎo)入httplib模塊報ImportError解決方案

    在使用新版python打開舊版本代碼的時候,可能會有些報錯或者不兼容的情況出現(xiàn),今天我們就來分析其中的一種情況
    2014-05-05
  • Django CSRF跨站請求偽造防護(hù)過程解析

    Django CSRF跨站請求偽造防護(hù)過程解析

    這篇文章主要介紹了Django CSRF跨站請求偽造防護(hù)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07
  • Python 出現(xiàn)錯誤TypeError: ‘NoneType’ object is not iterable解決辦法

    Python 出現(xiàn)錯誤TypeError: ‘NoneType’ object is not iterable解決辦法

    這篇文章主要介紹了Python 出現(xiàn)錯誤TypeError: ‘NoneType’ object is not iterable解決辦法的相關(guān)資料,需要的朋友可以參考下
    2017-01-01
  • Python中的取整、取余運(yùn)算方法

    Python中的取整、取余運(yùn)算方法

    數(shù)據(jù)處理是編程中不可避免的,很多時候都需要根據(jù)需求把獲取到的數(shù)據(jù)進(jìn)行處理,取整則是最基本的數(shù)據(jù)處理。取整的方式則包括向下取整、四舍五入、向上取整等等,這篇文章主要介紹了Python中的取整、取余運(yùn)算,需要的朋友可以參考下
    2022-11-11
  • Python裝飾器語法糖

    Python裝飾器語法糖

    今天小編就為大家分享一篇關(guān)于Python裝飾器語法糖,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-01-01

最新評論