快捷導(dǎo)航

Python中jieba模塊使用方法詳解

更新時(shí)間：2024年12月07日 09:28:30 作者：XMYX-0

這篇文章主要介紹了Python中jieba模塊使用的相關(guān)資料,jieba是中文自然語言處理中常用的分詞工具,支持精確模式、全模式和搜索引擎模式,它還提供了自定義詞典和TF-IDF、TextRank等關(guān)鍵詞提取方法,需要的朋友可以參考下

引言

在中文自然語言處理（NLP）中，分詞是基本而關(guān)鍵的步驟。由于中文沒有空格，分詞可以幫助我們更好地理解和處理文本。jieba 是一個(gè)流行的中文分詞工具，功能強(qiáng)大且易于使用。

安裝 jieba

首先，確保安裝了 jieba 模塊，可以使用以下命令：

pip install jieba

分詞模式

jieba 模塊支持三種分詞模式：

精確模式：將句子精確切分，適合文本分析。
全模式：掃描出句子中所有可能的詞語，速度快，但無法消歧。
搜索引擎模式：在精確模式基礎(chǔ)上，對長詞再切分，以提高召回率。

使用分詞

import jieba

text = "我來到北京清華大學(xué)"

# 全模式
full_mode = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(full_mode))

# 精確模式
exact_mode = jieba.cut(text, cut_all=False)
print("精確模式: " + "/ ".join(exact_mode))

# 默認(rèn)模式（精確模式）
default_mode = jieba.cut("他來到了網(wǎng)易杭研大廈")
print("默認(rèn)模式: " + "/ ".join(default_mode))

搜索引擎模式

使用 cut_for_search 方法，適合構(gòu)建搜索引擎的倒排索引。

search_mode = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計(jì)算所，后在日本京都大學(xué)深造")
print(", ".join(search_mode))

自定義詞典

添加自定義詞典

jieba 允許用戶添加自定義詞典，以提高分詞準(zhǔn)確性。

jieba.load_userdict("userdict.txt")

用戶字典的格式為：

詞語 詞頻（可省略） 詞性（可省略）

調(diào)整詞典

添加詞：使用 add_word(word, freq=None, tag=None) 方法添加詞。
刪除詞：使用 del_word(word) 方法刪除詞。
調(diào)節(jié)詞頻：使用 suggest_freq(segment, tune=True) 方法調(diào)整詞頻，使特定詞能（或不能）被分出來。

關(guān)鍵詞提取

TF-IDF 關(guān)鍵詞抽取

可以使用 extract_tags 方法基于 TF-IDF 算法提取關(guān)鍵詞。

import jieba.analyse

text = "我愛自然語言處理，中文分詞很有趣，中文處理需要很多工具。"
keywords = jieba.analyse.extract_tags(text, topK=5)
print("關(guān)鍵詞:", keywords)

TextRank 關(guān)鍵詞抽取

textrank 方法提供基于 TextRank 算法的關(guān)鍵詞抽取。

keywords = jieba.analyse.textrank(text, topK=5)
print("關(guān)鍵詞:", keywords)

詞性標(biāo)注

jieba 還支持詞性標(biāo)注功能，使用 posseg 模塊可以標(biāo)注每個(gè)詞的詞性。

import jieba.posseg as pseg

words = pseg.cut("我愛北京天安門")
for word, flag in words:
    print(f'{word}, {flag}')

獲取詞語位置

使用 tokenize 方法可以獲取詞語在原文中的起止位置。

result = jieba.tokenize("永和服裝飾品有限公司")
for tk in result:
    print(f"word {tk[0]}\t\t start: {tk[1]}\t\t end: {tk[2]}")

關(guān)鍵詞提取

TF-IDF 關(guān)鍵詞抽取

TF-IDF（Term Frequency-Inverse Document Frequency）是一種用于信息檢索和文本挖掘的常用加權(quán)技術(shù)。它通過計(jì)算一個(gè)詞在文檔中出現(xiàn)的頻率（TF）與該詞在所有文檔中出現(xiàn)的稀有度（IDF）相結(jié)合，來評估一個(gè)詞的重要性。

Term Frequency (TF)：某個(gè)詞在文檔中出現(xiàn)的次數(shù)與該文檔總詞數(shù)的比值。
Inverse Document Frequency (IDF)：表示詞的重要性，計(jì)算公式為：[ IDF(w) = \log(\frac{N}{n(w)}) ]
- ( N )：文檔總數(shù)
- ( n(w) )：包含詞 ( w ) 的文檔數(shù)

示例代碼：

import jieba.analyse

text = "我愛自然語言處理，中文分詞很有趣，中文處理需要很多工具。"
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
for word, weight in keywords:
    print(f"關(guān)鍵詞: {word}, 權(quán)重: {weight}")

TextRank 關(guān)鍵詞抽取

TextRank 是一種無監(jiān)督的圖模型算法，常用于關(guān)鍵詞提取和摘要生成。它基于詞與詞之間的關(guān)聯(lián)，通過構(gòu)建詞圖并計(jì)算節(jié)點(diǎn)之間的相似度來識別重要詞匯。

示例代碼：

text = "此外，公司擬對全資子公司吉林歐亞置業(yè)有限公司增資4.3億元，增資后，吉林歐亞置業(yè)注冊資本由7000萬元增加到5億元。"
keywords = jieba.analyse.textrank(text, topK=5, withWeight=True)
for word, weight in keywords:
    print(f"關(guān)鍵詞: {word}, 權(quán)重: {weight}")

性能對比

在實(shí)際應(yīng)用中，jieba 的不同分詞模式對性能和準(zhǔn)確率有顯著影響。以下是對不同模式的對比分析：

模式	速度	準(zhǔn)確率	應(yīng)用場景
精確模式	中等	高	文本分析、內(nèi)容提取
全模式	快	低	關(guān)鍵詞提取、快速初步分析
搜索引擎模式	較慢	中等	搜索引擎的倒排索引

示例性能對比代碼：

import time

text = "我來到北京清華大學(xué)"

# 精確模式
start = time.time()
jieba.cut(text, cut_all=False)
print("精確模式耗時(shí): ", time.time() - start)

# 全模式
start = time.time()
jieba.cut(text, cut_all=True)
print("全模式耗時(shí): ", time.time() - start)

# 搜索引擎模式
start = time.time()
jieba.cut_for_search(text)
print("搜索引擎模式耗時(shí): ", time.time() - start)

常見問題解答

分詞不準(zhǔn)確

問題：某些詞被錯(cuò)誤分割，尤其是專業(yè)術(shù)語或人名。

解決方案：使用 add_word() 方法添加特定詞匯或加載自定義詞典，以提高分詞的準(zhǔn)確性。

編碼問題

問題：在使用 GBK 編碼的文本時(shí)，出現(xiàn)亂碼或分詞錯(cuò)誤。

解決方案：盡量使用 UTF-8 編碼的字符串，避免直接輸入 GBK 字符串。

如何處理歧義詞

問題：某些詞具有多種含義，分詞結(jié)果不理想。

解決方案：使用 suggest_freq() 方法調(diào)整詞頻，指導(dǎo)分詞器優(yōu)先識別特定詞義。

總結(jié)

jieba 是一個(gè)靈活且功能豐富的中文分詞工具。通過不同的分詞模式和自定義詞典，用戶可以針對特定需求進(jìn)行優(yōu)化。無論是文本分析還是關(guān)鍵詞提取，jieba 都能為你提供強(qiáng)大的支持。

到此這篇關(guān)于Python中jieba模塊使用方法詳解的文章就介紹到這了,更多相關(guān)Python jieba模塊詳解內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中jieba模塊使用方法詳解

目錄

引言

安裝 jieba

分詞模式

使用分詞

搜索引擎模式

自定義詞典

添加自定義詞典

調(diào)整詞典

關(guān)鍵詞提取

TF-IDF 關(guān)鍵詞抽取

TextRank 關(guān)鍵詞抽取

詞性標(biāo)注

獲取詞語位置

關(guān)鍵詞提取

TF-IDF 關(guān)鍵詞抽取

示例代碼：

TextRank 關(guān)鍵詞抽取

示例代碼：

性能對比

示例性能對比代碼：

常見問題解答

分詞不準(zhǔn)確

編碼問題

如何處理歧義詞

總結(jié)

參考文獻(xiàn)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具