欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中jieba模塊使用方法詳解

 更新時間:2024年12月07日 09:28:30   作者:XMYX-0  
這篇文章主要介紹了Python中jieba模塊使用的相關(guān)資料,jieba是中文自然語言處理中常用的分詞工具,支持精確模式、全模式和搜索引擎模式,它還提供了自定義詞典和TF-IDF、TextRank等關(guān)鍵詞提取方法,需要的朋友可以參考下

引言

在中文自然語言處理(NLP)中,分詞是基本而關(guān)鍵的步驟。由于中文沒有空格,分詞可以幫助我們更好地理解和處理文本。jieba 是一個流行的中文分詞工具,功能強(qiáng)大且易于使用。

安裝 jieba

首先,確保安裝了 jieba 模塊,可以使用以下命令:

pip install jieba

分詞模式

jieba 模塊支持三種分詞模式:

  • 精確模式:將句子精確切分,適合文本分析。
  • 全模式:掃描出句子中所有可能的詞語,速度快,但無法消歧。
  • 搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再切分,以提高召回率。

使用分詞

import jieba

text = "我來到北京清華大學(xué)"

# 全模式
full_mode = jieba.cut(text, cut_all=True)
print("全模式: " + "/ ".join(full_mode))

# 精確模式
exact_mode = jieba.cut(text, cut_all=False)
print("精確模式: " + "/ ".join(exact_mode))

# 默認(rèn)模式(精確模式)
default_mode = jieba.cut("他來到了網(wǎng)易杭研大廈")
print("默認(rèn)模式: " + "/ ".join(default_mode))

搜索引擎模式

使用 cut_for_search 方法,適合構(gòu)建搜索引擎的倒排索引。

search_mode = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所,后在日本京都大學(xué)深造")
print(", ".join(search_mode))

自定義詞典

添加自定義詞典

jieba 允許用戶添加自定義詞典,以提高分詞準(zhǔn)確性。

jieba.load_userdict("userdict.txt")

用戶字典的格式為:

詞語 詞頻(可省略) 詞性(可省略)

調(diào)整詞典

  • 添加詞:使用 add_word(word, freq=None, tag=None) 方法添加詞。
  • 刪除詞:使用 del_word(word) 方法刪除詞。
  • 調(diào)節(jié)詞頻:使用 suggest_freq(segment, tune=True) 方法調(diào)整詞頻,使特定詞能(或不能)被分出來。

關(guān)鍵詞提取

TF-IDF 關(guān)鍵詞抽取

可以使用 extract_tags 方法基于 TF-IDF 算法提取關(guān)鍵詞。

import jieba.analyse

text = "我愛自然語言處理,中文分詞很有趣,中文處理需要很多工具。"
keywords = jieba.analyse.extract_tags(text, topK=5)
print("關(guān)鍵詞:", keywords)

TextRank 關(guān)鍵詞抽取

textrank 方法提供基于 TextRank 算法的關(guān)鍵詞抽取。

keywords = jieba.analyse.textrank(text, topK=5)
print("關(guān)鍵詞:", keywords)

詞性標(biāo)注

jieba 還支持詞性標(biāo)注功能,使用 posseg 模塊可以標(biāo)注每個詞的詞性。

import jieba.posseg as pseg

words = pseg.cut("我愛北京天安門")
for word, flag in words:
    print(f'{word}, {flag}')

獲取詞語位置

使用 tokenize 方法可以獲取詞語在原文中的起止位置。

result = jieba.tokenize("永和服裝飾品有限公司")
for tk in result:
    print(f"word {tk[0]}\t\t start: {tk[1]}\t\t end: {tk[2]}")

關(guān)鍵詞提取

TF-IDF 關(guān)鍵詞抽取

TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于信息檢索和文本挖掘的常用加權(quán)技術(shù)。它通過計算一個詞在文檔中出現(xiàn)的頻率(TF)與該詞在所有文檔中出現(xiàn)的稀有度(IDF)相結(jié)合,來評估一個詞的重要性。

  • Term Frequency (TF):某個詞在文檔中出現(xiàn)的次數(shù)與該文檔總詞數(shù)的比值。
  • Inverse Document Frequency (IDF):表示詞的重要性,計算公式為:[ IDF(w) = \log(\frac{N}{n(w)}) ]
    • ( N ):文檔總數(shù)
    • ( n(w) ):包含詞 ( w ) 的文檔數(shù)

示例代碼:

import jieba.analyse

text = "我愛自然語言處理,中文分詞很有趣,中文處理需要很多工具。"
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
for word, weight in keywords:
    print(f"關(guān)鍵詞: {word}, 權(quán)重: {weight}")

TextRank 關(guān)鍵詞抽取

TextRank 是一種無監(jiān)督的圖模型算法,常用于關(guān)鍵詞提取和摘要生成。它基于詞與詞之間的關(guān)聯(lián),通過構(gòu)建詞圖并計算節(jié)點之間的相似度來識別重要詞匯。

示例代碼:

text = "此外,公司擬對全資子公司吉林歐亞置業(yè)有限公司增資4.3億元,增資后,吉林歐亞置業(yè)注冊資本由7000萬元增加到5億元。"
keywords = jieba.analyse.textrank(text, topK=5, withWeight=True)
for word, weight in keywords:
    print(f"關(guān)鍵詞: {word}, 權(quán)重: {weight}")

性能對比

在實際應(yīng)用中,jieba 的不同分詞模式對性能和準(zhǔn)確率有顯著影響。以下是對不同模式的對比分析:

模式速度準(zhǔn)確率應(yīng)用場景
精確模式中等文本分析、內(nèi)容提取
全模式關(guān)鍵詞提取、快速初步分析
搜索引擎模式較慢中等搜索引擎的倒排索引

示例性能對比代碼:

import time

text = "我來到北京清華大學(xué)"

# 精確模式
start = time.time()
jieba.cut(text, cut_all=False)
print("精確模式耗時: ", time.time() - start)

# 全模式
start = time.time()
jieba.cut(text, cut_all=True)
print("全模式耗時: ", time.time() - start)

# 搜索引擎模式
start = time.time()
jieba.cut_for_search(text)
print("搜索引擎模式耗時: ", time.time() - start)

常見問題解答

分詞不準(zhǔn)確

問題:某些詞被錯誤分割,尤其是專業(yè)術(shù)語或人名。

解決方案:使用 add_word() 方法添加特定詞匯或加載自定義詞典,以提高分詞的準(zhǔn)確性。

編碼問題

問題:在使用 GBK 編碼的文本時,出現(xiàn)亂碼或分詞錯誤。

解決方案:盡量使用 UTF-8 編碼的字符串,避免直接輸入 GBK 字符串。

如何處理歧義詞

問題:某些詞具有多種含義,分詞結(jié)果不理想。

解決方案:使用 suggest_freq() 方法調(diào)整詞頻,指導(dǎo)分詞器優(yōu)先識別特定詞義。

總結(jié)

jieba 是一個靈活且功能豐富的中文分詞工具。通過不同的分詞模式和自定義詞典,用戶可以針對特定需求進(jìn)行優(yōu)化。無論是文本分析還是關(guān)鍵詞提取,jieba 都能為你提供強(qiáng)大的支持。

參考文獻(xiàn)

到此這篇關(guān)于Python中jieba模塊使用方法詳解的文章就介紹到這了,更多相關(guān)Python jieba模塊詳解內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評論