欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python第三方庫jieba庫與中文分詞全面詳解

 更新時間:2022年07月07日 10:29:11   作者:Argonaut_  
jieba庫是一款優(yōu)秀的Python第三方中文分詞庫,jieba支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面這篇文章主要給大家介紹了關(guān)于Python第三方庫jieba庫與中文分詞的相關(guān)資料,需要的朋友可以參考下

一、什么是jieba庫

jieba是優(yōu)秀的中文分詞第三方庫,由于中文文本之間每個漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個詞組,這種手段叫做分詞,我們可以通過jieba庫來完成這個過程。

二、jieba分詞原理

jieba庫的分詞原理是利用了一個中文詞庫,將待分詞的內(nèi)容與分詞詞庫對比,通過圖結(jié)構(gòu)和動態(tài)規(guī)則劃分方法找到最大概率的詞組。除了分詞,jieba還提供增加自定義中文單詞的功能。

三、jieba庫支持的三種分詞模式

1.精確模式

將句子最精確地分開,適合文本分析;

2.全模式

把句子中所有可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;

3.搜索引擎模式

在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞

注:對中文分詞來說,jieba庫只需要一行代碼即可。英文文本不存在分詞問題

四、jieba庫常用函數(shù)

函數(shù)描述
jieba.lcut(s)精確模式,返回一個列表值
jieba.lcut(s,cut_all=True)全模式,返回一個列表值
jieba.lcut_for_search(s)搜索引擎模式,返回一個列表值
jieba.add_word(w)向分詞詞典中增加新詞w

五、jieba實(shí)操

首先你需要安裝jieba庫
pip install jieba

練習(xí)一(jieba.lcut)精確模式

jieba.lcut(s)是最常用的中文分詞函數(shù),用于精確模式,將字符串分割成等量的中文詞組。

import jieba

ls = jieba.lcut("我愿意穿過璀璨繁星")
print(ls)

練習(xí)二(jieba.lcut(s,cut_all=True) )全模式

jieba.lcut(s,cut_all=True)用于全模式,將字符串的所有分詞可能列出來,冗余最大。

import jieba
ls = jieba.lcut("人面不知何處去,桃花依舊笑春風(fēng)", cut_all=True)
print(ls)

練習(xí)三(jieba.lcut_for_search)搜索引擎模式

jieba.lcut_for_search該模式首先執(zhí)行精確模式,然后在對其中長詞進(jìn)一步分獲得最終結(jié)果

import jieba
ls1 = jieba.lcut("仰天大笑出門去我輩豈是蓬蒿人")
ls = jieba.lcut_for_search("仰天大笑出門去我輩豈是蓬蒿人")
print(ls1)
print(ls)

練習(xí)四(jieba.add_word(w))增加新詞

import jieba

ls = jieba.lcut_for_search("仰天大笑出門去我輩豈是蓬蒿人")
print(ls)
jieba.add_word("蓬蒿人")
ls1 = jieba.lcut("仰天大笑出門去我輩豈是蓬蒿人")
print(ls1)

小結(jié):精確模式因?yàn)椴划a(chǎn)生冗余,最為常用。

總結(jié) 

到此這篇關(guān)于Python第三方庫jieba庫與中文分詞的文章就介紹到這了,更多相關(guān)Python jieba庫與中文分詞內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 解決PySide+Python子線程更新UI線程的問題

    解決PySide+Python子線程更新UI線程的問題

    今天小編就為大家分享一篇解決PySide+Python子線程更新UI線程的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • pyqt5移動鼠標(biāo)顯示坐標(biāo)的方法

    pyqt5移動鼠標(biāo)顯示坐標(biāo)的方法

    今天小編就為大家分享一篇pyqt5移動鼠標(biāo)顯示坐標(biāo)的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • Python代碼生成視頻的縮略圖的實(shí)例講解

    Python代碼生成視頻的縮略圖的實(shí)例講解

    在本篇文章里小編給大家正里的是一篇關(guān)于Python代碼生成視頻的縮略圖的實(shí)例講解,對此有需要的朋友們可以跟著學(xué)習(xí)下。
    2019-12-12
  • python實(shí)現(xiàn)尋找最長回文子序列的方法

    python實(shí)現(xiàn)尋找最長回文子序列的方法

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)尋找最長回文子序列的方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-06-06
  • Python處理XML格式數(shù)據(jù)的方法詳解

    Python處理XML格式數(shù)據(jù)的方法詳解

    這篇文章主要介紹了Python處理XML格式數(shù)據(jù)的方法,結(jié)合實(shí)例形式詳細(xì)分析了Python針對xml格式文件的編碼處理、常見錯誤及相關(guān)操作注意事項,需要的朋友可以參考下
    2017-03-03
  • python魔法方法-自定義序列詳解

    python魔法方法-自定義序列詳解

    下面小編就為大家?guī)硪黄猵ython魔法方法-自定義序列詳解。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2016-07-07
  • twilio python自動撥打電話,播放自定義mp3音頻的方法

    twilio python自動撥打電話,播放自定義mp3音頻的方法

    今天小編就為大家分享一篇twilio python自動撥打電話,播放自定義mp3音頻的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • Python實(shí)現(xiàn)XGBoost算法的應(yīng)用實(shí)戰(zhàn)

    Python實(shí)現(xiàn)XGBoost算法的應(yīng)用實(shí)戰(zhàn)

    XGBoost(Extreme Gradient Boosting)是一種高效且廣泛使用的集成學(xué)習(xí)算法,它屬于梯度提升樹(GBDT)模型的一種改進(jìn),本文將結(jié)合實(shí)際案例,詳細(xì)介紹如何在Python中使用XGBoost算法進(jìn)行模型訓(xùn)練和預(yù)測,需要的朋友可以參考下
    2024-08-08
  • Python實(shí)現(xiàn)手機(jī)號自動判斷男女性別(實(shí)例解析)

    Python實(shí)現(xiàn)手機(jī)號自動判斷男女性別(實(shí)例解析)

    這篇文章主要介紹了Python實(shí)現(xiàn)手機(jī)號自動判斷男女性別,本文性別判斷主要依靠airtest中的自動化測試實(shí)現(xiàn),通過實(shí)例代碼給大家講解的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-12-12
  • Python Numpy中ndarray的常見操作

    Python Numpy中ndarray的常見操作

    這篇文章主要介紹了Python Numpy中ndarray的常見操作,NumPy是Python的一種開源的數(shù)值計算擴(kuò)展,更多詳細(xì)內(nèi)容需要的朋友可以參考一下
    2022-07-07

最新評論