Python機器學習應用之樸素貝葉斯篇

更新時間：2022年01月18日 17:10:54 作者：柚子味的羊

樸素貝葉斯模型是一組非常簡單快速的分類算法,通常適用于維度非常高的數據集。因為運行速度快,而且可調參數少,因此非常適合為分類問題提供快速粗糙的基本方案

樸素貝葉斯（Naive Bayes，NB）：樸素貝葉斯分類算法是學習效率和分類效果較好的分類器之一。樸素貝葉斯算法一般應用在文本分類，垃圾郵件的分類，信用評估，釣魚網站檢測等。

1、鳶尾花案例

#%%庫函數導入
import warnings
warnings.filterwarnings('ignore')
import numpy as np
# 加載鶯尾花數據集
from sklearn import datasets
# 導入高斯樸素貝葉斯分類器
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
#%%數據導入&分析
X, y = datasets.load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
#%%查看數據集
print(X)#特征集
print(y)#現象
#%%模型訓練
# 假設每個特征都服正態(tài)分布，使用高斯樸素貝葉斯進行計算
clf = GaussianNB(var_smoothing=1e-8)
clf.fit(X_train, y_train)
#%%模型預測
# 評估
y_pred = clf.predict(X_test)
acc = np.sum(y_test == y_pred) / X_test.shape[0]
print("Test Acc : %.3f" % acc)

# 預測
#對第一行數據預測
y_proba = clf.predict_proba(X_test[:1])
#使用predict()函數得到預測結果
print(clf.predict(X_test[:1]))
#輸出預測每個標簽的概率，預測標簽為0，1，2的概率分別為數組的三個值
print("預計的概率值:", y_proba)

運行結果

2、小結

predict（）函數和predict_proba（）函數的區(qū)別： predict（）函數用于預測標簽，直接得到預測標簽。predict_proba（）函數得到的是測試集預測得到的每個標簽的概率。如果測試集一共有30個數據集，數據原本有3個標簽，那么使用predict（）函數將會得到30個具體預測得到的標簽值，是一個【130】的數組，使用predict_proba（）函數得到的是30個數據集分別取得3個標簽的概率，是一個【303】的數組。

我又回來了，繼續(xù)更新~ 歡迎交流

到此這篇關于Python機器學習應用之樸素貝葉斯篇的文章就介紹到這了,更多相關Python樸素貝葉斯內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: