python機(jī)器學(xué)習(xí)樸素貝葉斯算法及模型的選擇和調(diào)優(yōu)詳解
一、概率知識(shí)基礎(chǔ)
1.概率
概率就是某件事情發(fā)生的可能性。
2.聯(lián)合概率
包含多個(gè)條件,并且所有條件同時(shí)成立的概率,記作:P(A, B) = P(A) * P(B)
3.條件概率
事件A在另外一個(gè)事件B已經(jīng)發(fā)生的條件下的發(fā)生概率,記作:P(A|B)
條件概率的特性:P(A1,A2|B) = P(A1|B)P(A2|B)
注意:此條件概率的成立,是由于A1,A2相互獨(dú)立的結(jié)果
樸素貝葉斯的原理就是,對(duì)于每一個(gè)樣本,算出屬于每一個(gè)類別的概率,歸為概率最高的那一類。
二、樸素貝葉斯
1.樸素貝葉斯計(jì)算方式
直接代入實(shí)際例子,各部分解釋如下:
P(C) = P(科技):科技文檔類別的概率(科技文檔數(shù) / 總文檔數(shù))
P(W|C) = P(‘智能',‘發(fā)展'|科技):在科技文檔這一類文章中,‘智能'與‘發(fā)展'這兩個(gè)特征詞出現(xiàn)的概率。注意:‘智能',‘發(fā)展'屬于被預(yù)測(cè)文檔中出現(xiàn)的詞,科技文檔中可能會(huì)有更多特征詞,但給定的文檔并不一定全部包含。因此,給定的文檔包含了哪些,就使用哪些。
計(jì)算方法:
P(F1|C) = N(i)/N (訓(xùn)練集中計(jì)算)
N(i)是該F1詞在C類別所有文檔中出現(xiàn)的次數(shù)
N為所屬類別C下的文檔所有詞出現(xiàn)的次數(shù)和
P(‘智能'|科技) = ‘智能'在所有科技類文檔中出現(xiàn)的次數(shù) / 科技類文檔下所有出現(xiàn)的詞次數(shù)和
則P(F1,F2...|C) = P(F1|C) * P(F2|C)
P(‘智能',‘發(fā)展'|科技) = P(‘智能'|科技) * P(‘發(fā)展'|科技)
這樣就可以計(jì)算出基于被預(yù)測(cè)文檔中的特征詞,被預(yù)測(cè)文檔屬于科技的概率。同樣的方法計(jì)算其他類型的概率。哪個(gè)高就算哪個(gè)。
2.拉普拉斯平滑
3.樸素貝葉斯API
sklearn.naive_bayes.MultinomialNB
三、樸素貝葉斯算法案例
1.案例概述
本案例的數(shù)據(jù)是來(lái)自于sklearn中的20newsgroups數(shù)據(jù),通過(guò)提取文章中的特征詞,使用樸素貝葉斯方法,對(duì)被預(yù)測(cè)文章進(jìn)行計(jì)算,通過(guò)得出的概率來(lái)確定文章屬于哪一類。
大致步驟如下:首先將文章分成兩類,一類作為訓(xùn)練集,一類作為測(cè)試集。接下來(lái)使用tfidf分別對(duì)訓(xùn)練集以及測(cè)試集文章進(jìn)行特征抽取,這樣就生成了訓(xùn)練集測(cè)試集的x,接下來(lái)可以直接調(diào)用樸素貝葉斯算法,將訓(xùn)練集數(shù)據(jù)x_train, y_train導(dǎo)入進(jìn)去,訓(xùn)練模型。最后使用訓(xùn)練好的模型來(lái)測(cè)試即可。
2.數(shù)據(jù)獲取
導(dǎo)入數(shù)據(jù)庫(kù):import sklearn.datasets as dt
導(dǎo)入數(shù)據(jù):news = dt.fetch_20newsgroups(subset='all')
3.數(shù)據(jù)處理
分割使用的方法和knn中的一樣。另外,從sklearn中導(dǎo)入的數(shù)據(jù),都可以直接調(diào)用 .data獲取數(shù)據(jù)集,調(diào)用.target獲取目標(biāo)值。
分割數(shù)據(jù):x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)
特征值提取方法實(shí)例化:tf = TfIdfVectorizer()
訓(xùn)練集數(shù)據(jù)特征值提取:x_train = tf.fit_transform(x_train)
測(cè)試集數(shù)據(jù)特征值提?。簒_test = tf.transform(x_test)
測(cè)試集的特征提取,只需要調(diào)用transform,因?yàn)橐褂糜?xùn)練集的標(biāo)準(zhǔn),并且在上一步已經(jīng)fit過(guò)得出訓(xùn)練集的標(biāo)準(zhǔn)了,測(cè)試集直接使用就行。
4.算法流程
算法實(shí)例化:mlt = MultinomialNB(alpha=1.0)
算法訓(xùn)練:mlt.fit(x_train, y_train)
預(yù)測(cè)結(jié)果:y_predict = mlt.predict(x_test)
5.注意事項(xiàng)
樸素貝葉斯算法的準(zhǔn)確率,是由訓(xùn)練集來(lái)決定的,不需要調(diào)參。訓(xùn)練集誤差大,結(jié)果肯定不好。因?yàn)樗愕姆绞焦潭?,并且沒(méi)有一個(gè)超參數(shù)可供調(diào)整。
樸素貝葉斯的缺點(diǎn):假設(shè)了文檔中一些詞和另外一些詞是獨(dú)立的,相互沒(méi)聯(lián)系。并且是在訓(xùn)練集中進(jìn)行的詞統(tǒng)計(jì),會(huì)對(duì)結(jié)果造成干擾,訓(xùn)練集越好,結(jié)果越好,訓(xùn)練集越差,結(jié)果越差。
四、分類模型的評(píng)估
1.混淆矩陣
評(píng)估標(biāo)準(zhǔn)有數(shù)種,其一是準(zhǔn)確率,也就是對(duì)預(yù)測(cè)的目標(biāo)值和提供的目標(biāo)值一一對(duì)比,計(jì)算準(zhǔn)確率。
我們也有其他更通用也更好用的評(píng)估標(biāo)準(zhǔn),即精確率和召回率。精確率和召回率是基于混淆矩陣計(jì)算的。
一般情況下我們只關(guān)注召回率。
F1分類標(biāo)準(zhǔn):
根據(jù)以上式子,使用精確率召回率,可計(jì)算出F1-score,該結(jié)果可反應(yīng)模型的穩(wěn)健性。
2.評(píng)估模型API
sklearn.metricx.classification_report
3.模型選擇與調(diào)優(yōu)
①交叉驗(yàn)證
交叉驗(yàn)證是為了讓被評(píng)估的模型更加準(zhǔn)確可信,方法如下:
>>將所有數(shù)據(jù)分成n等份
>>第一份作為驗(yàn)證集,其他作為訓(xùn)練集,得出一個(gè)準(zhǔn)確率,模型1
>>第二份作為驗(yàn)證集,其他作為訓(xùn)練集,得出一個(gè)準(zhǔn)確率,模型2
>>......
>>直到每一份都過(guò)一遍,得出n個(gè)模型的準(zhǔn)確率
>>對(duì)所有的準(zhǔn)確率求平均值,我們就得到了最終更為可信的結(jié)果。
若分為四等分,則叫做“4折交叉驗(yàn)證”。
②網(wǎng)格搜索
網(wǎng)格搜索主要是和交叉驗(yàn)證同時(shí)使用,用來(lái)調(diào)參數(shù)。比如K-近鄰算法中有超參數(shù)k,需要手動(dòng)指定,比較復(fù)雜,所以需要對(duì)模型預(yù)設(shè)幾種超參數(shù)組合,每組超參數(shù)都采用交叉驗(yàn)證來(lái)進(jìn)行評(píng)估,最后選出最優(yōu)的參數(shù)組合建立模型。(K-近鄰算法就一個(gè)超參數(shù)k,談不上組合,但是如果算法有2個(gè)或以上超參數(shù),就進(jìn)行組合,相當(dāng)于窮舉法)
網(wǎng)格搜索API:sklearn.model_selection.GridSearchCV
五、以knn為例的模型調(diào)優(yōu)使用方法
假設(shè)已經(jīng)將數(shù)據(jù)以及特征處理好,并且得到了x_train, x_test, y_train, y_test,并且已經(jīng)將算法實(shí)例化:knn = KNeighborsClassifier()
1.對(duì)超參數(shù)進(jìn)行構(gòu)造
因?yàn)樗惴ㄖ行枰玫降某瑓?shù)的名字就叫做'n_neighbors',所以直接按名字指定超參數(shù)選擇范圍。若有第二個(gè)超參數(shù),在后面添加字典元素即可。
params = {'n_neighbors':[5,10,15,20,25]}
2.進(jìn)行網(wǎng)格搜索
輸入的參數(shù):算法(估計(jì)器),網(wǎng)格參數(shù),指定幾折交叉驗(yàn)證
gc = GridSearchCV(knn, param_grid=params, cv=5)
基本信息指定好后,就可以把訓(xùn)練集數(shù)據(jù)fit進(jìn)去
gc.fit(x_train, y_train)
3.結(jié)果查看
網(wǎng)格搜索算法中,有數(shù)種方法可以查看準(zhǔn)確率、模型、交叉驗(yàn)證結(jié)果、每一次交叉驗(yàn)證后的結(jié)果。
gc.score(x_test, y_test) 返回準(zhǔn)確率
gc.best_score_ 返回最高的準(zhǔn)確率
gc.best_estimator_ 返回最好的估計(jì)器(返回的時(shí)候會(huì)自動(dòng)帶上所選擇的超參數(shù))
以上就是python機(jī)器學(xué)習(xí)樸素貝葉斯及模型的選擇和調(diào)優(yōu)詳解的詳細(xì)內(nèi)容,更多關(guān)于樸素貝葉斯及模型的選擇和調(diào)優(yōu)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
對(duì)python 生成拼接xml報(bào)文的示例詳解
今天小編就為大家分享一篇對(duì)python 生成拼接xml報(bào)文的示例詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12python文本處理的方案(結(jié)巴分詞并去除符號(hào))
這篇文章主要介紹了python文本處理的方案(結(jié)巴分詞并去除符號(hào)),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05Python中字典和集合學(xué)習(xí)小結(jié)
本文通過(guò)實(shí)例給大家介紹了python中字典和集合的知識(shí)小結(jié),非常不錯(cuò),具有參考借鑒價(jià)值,需要的的朋友參考下吧2017-07-07解決vscode python print 輸出窗口中文亂碼的問(wèn)題
今天小編就為大家分享一篇解決vscode python print 輸出窗口中文亂碼的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12深入學(xué)習(xí)Python可變與不可變對(duì)象操作實(shí)例
Python中的數(shù)據(jù)類型可以分為可變對(duì)象和不可變對(duì)象,了解它們之間的區(qū)別對(duì)于編寫高效的Python代碼至關(guān)重要,本文將詳細(xì)介紹可變對(duì)象和不可變對(duì)象的概念,以及如何正確地使用它們來(lái)提高代碼的性能和可讀性2023-12-12