快捷導(dǎo)航

關(guān)于Python中jieba庫的使用

更新時間：2023年04月11日 11:28:26 作者：程序喵正在路上

這篇文章主要介紹了關(guān)于Python中jieba庫的使用,jieba (“結(jié)巴”) 是 Python 中一個重要的第三方中文分詞函數(shù)庫,除了分詞，jieba 還提供增加自定義中文單詞的功能,需要的朋友可以參考下

jieba庫概述

jieba 庫演示

對于一段英文文本，例如 “China is a great country”，如果希望提取其中的單詞，只需要使用字符串處理的 split() 方法即可，例如：

print("China is a great country".split())

程序執(zhí)行結(jié)果如下：

[‘China’, ‘is’, ‘a’, ‘great’, ‘country’]

然而，對于一段中文文本，例如，“中國是一個偉大的國家”，獲得其中的單詞 (不是字符) 十分困難，因為英文文本可以通過空格或者標(biāo)點符號分隔，而中文單詞之間缺少分隔符，這是中文及類似語言獨有的“分詞”問題。

上例中，分詞能夠?qū)?“中國是一個偉大的國家” 分為"中國”、“是”、 “一個”、“偉大”、“的”、 "國家"等一系列詞語。

jieba (“結(jié)巴”) 是 Python 中一個重要的第三方中文分詞函數(shù)庫，例如：

import jiebapr
int(jieba.lcut("中國是一個偉大的國家"))

程序執(zhí)行結(jié)果如下：

[‘中國’, ‘是’, ‘一個’, ‘偉大’, ‘的’, ‘國家’]

jieba 庫的分詞原理是利用一個中文詞庫，將待分詞的內(nèi)容與分詞詞庫進(jìn)行比對，通過圖結(jié)構(gòu)和動態(tài)規(guī)劃方法找到最大概率的詞組。

除了分詞，jieba 還提供增加自定義中文單詞的功能。

jieba 庫支持 3 種分詞模式：

精確模式，將句子最精確地切開，適合文本分析；
全模式，把句子中所有可以成詞的詞語都掃描出來，速度非?？?，但是不能消除歧義；
搜索引擎模式，在精確模式的基礎(chǔ)上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞。

在 PyCharm 中添加 jieba 庫

jieba 庫是第三方庫，不是 Python 安裝包自帶的，因此，需要進(jìn)行安裝，因為我們利用的是 PyCharm 進(jìn)行開發(fā)，所以只要簡單地把 jieba 庫添加進(jìn)來就行，下面是具體步驟。

(1) 在菜單欄中點擊【File】——【Settings】

在這里插入圖片描述

(2) 在接下來的界面中找到【Project: pythonProject】——【Project Interpreter】，點擊界面中的加號

在這里插入圖片描述

(3) 輸入 “jieba"搜索，找到 jieba，然后點擊 ”Install Package“，等待一會兒即可

在這里插入圖片描述

(4) 安裝完可以返回之前的界面查看

在這里插入圖片描述

使用jieba 庫

jieba 庫支持 3 種分詞模式：

精確模式，將句子最精確地切開，適合文本分析；
全模式，把句子中所有可以成詞的詞語都掃描出來，速度非?？?，但是不能消除歧義；
搜索引擎模式，在精確模式的基礎(chǔ)上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞。

jieba 庫主要提供分詞功能，可以輔助自定義分詞詞典。

jieba 庫中包含的主要函數(shù)如下表所示：

函數(shù)	描述
jieba.cut(s)	精確模式，返回一個可迭代的數(shù)據(jù)類型
jieba.cut(s, cut_all=True)	全模式，輸出文本 s 中所有可能的單詞
jieba.cut_for_ search(s)	搜索引擎模式，適合搜索引擎建立索引的分詞結(jié)果
jieba.lcut(s)	精確模式，返回一個列表類型，建議使用
jieba.lcut(s, cut_all=True)	全模式，返回一個列表類型，建議使用
jieba.lcut_for_search(s)	搜索引擎模式，返回一個列表類型，建議使用
jieba.add_word(w)	向分詞詞典中增加新詞 w

代碼如下:

import jieba

print(jieba.lcut("中華人民共和國是一個偉大的國家"))

print(jieba.lcut("中華人民共和國是一個偉大的國家", cut_all=True))

print(jieba.lcut_for_search("中華人民共和國是一個偉大的國家"))

程序執(zhí)行結(jié)果如下：

[‘中華人民共和國’, ‘是’, ‘一個’, ‘偉大’, ‘的’, ‘國家’]
[‘中華’, ‘中華人民’, ‘中華人民共和國’, ‘華人’, ‘人民’, ‘人民共和國’, ‘共和’, ‘共和國’, ‘國是’, ‘一個’, ‘偉大’, ‘的’, ‘國家’]
[‘中華’, ‘華人’, ‘人民’, ‘共和’, ‘共和國’, ‘中華人民共和國’, ‘是’, ‘一個’, ‘偉大’, ‘的’, ‘國家’]

jieba. lcut() 函數(shù)返回精確模式，輸出的分詞能夠完整且不多余地組成原始文本；

jieba. lcut(,True) 函數(shù)返回全模式，輸出原始文本中可能產(chǎn)生的所有問題，冗余性最大；

jieba.lcut_ for_search() 函數(shù)返回搜索引擎模式，該模式首先執(zhí)行精確模式，然后再對其中的長詞進(jìn)一步切分獲得結(jié)果。

由于列表類型通用且靈活，建議讀者使用上述 3 個能夠返回列表類型的分詞函數(shù)。

默認(rèn)情況下，jieba.cut() 等 6 個分詞函數(shù)能夠較高概率識別自定義的新詞，比如名字或縮寫。對于無法識別的分詞，也可以通過 jieba.add_ word() 函數(shù)向分詞庫添加，例如：

import jieba
print(jieba.lcut("程序喵正在路上"))
jieba.add_word("程序喵")
print(jieba.lcut("程序喵正在路上"))

程序執(zhí)行結(jié)果如下：

[‘程序’, ‘喵’, ‘正在’, ‘路上’]
[‘程序喵’, ‘正在’, ‘路上’]

第三方庫

Python 語言的第三方庫指不在 Python 安裝包中的函數(shù)庫，也是非標(biāo)準(zhǔn)函數(shù)、庫。這類函數(shù)庫一般由全球各領(lǐng)域?qū)I(yè)人士結(jié)合專業(yè)特點和興趣開發(fā)。Python 語言構(gòu)建了一個開放和自由的生態(tài)環(huán)境，對第三方庫的開發(fā)沒有強制要求，因此，Python 語言的第三方庫發(fā)展十分迅速。截至 2016 年 9 月，Python 官方網(wǎng)站注冊的第三方庫已經(jīng)達(dá)到 9 萬多個。如果說強大的標(biāo)準(zhǔn)庫奠定了 Python 語言發(fā)展的基石，豐富的第三方庫則是 Python 不斷發(fā)展的保證。隨著 Python 語言的發(fā)展，一些穩(wěn)定的第三方庫不斷被加入標(biāo)準(zhǔn)庫。

到此這篇關(guān)于關(guān)于Python中jieba庫的使用的文章就介紹到這了,更多相關(guān)Python jieba庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: