Python jieba庫用法及實例解析
1、jieba庫基本介紹
(1)、jieba庫概述
jieba是優(yōu)秀的中文分詞第三方庫
- - 中文文本需要通過分詞獲得單個的詞語
- - jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝
- - jieba庫提供三種分詞模式,最簡單只需掌握一個函數(shù)
(2)、jieba分詞的原理
Jieba分詞依靠中文詞庫
- 利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率
- 漢字間概率大的組成詞組,形成分詞結(jié)果
- 除了分詞,用戶還可以添加自定義的詞組
jieba庫使用說明
(1)、jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
- - 精確模式:把文本精確的切分開,不存在冗余單詞
- - 全模式:把文本中所有可能的詞語都掃描出來,有冗余
- - 搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再次切分
(2)、jieba庫常用函數(shù)
2.jieba應(yīng)用實例
3.利用jieba庫統(tǒng)計三國演義中任務(wù)的出場次數(shù)
import jieba txt = open("D:\\三國演義.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精確模式對文本進(jìn)行分詞 counts = {} # 通過鍵值對的形式存儲詞語及其出現(xiàn)的次數(shù) for word in words: if len(word) == 1: # 單個詞語不計算在內(nèi) continue else: counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現(xiàn)一次其對應(yīng)的值加 1 items = list(counts.items())#將鍵值對轉(zhuǎn)換成列表 items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序 for i in range(15): word, count = items[i] print("{0:<5}{1:>5}".format(word, count))
統(tǒng)計了次數(shù)對多前十五個名詞,曹操不愧是一代梟雄,第一名當(dāng)之無愧,但是我們會發(fā)現(xiàn)得到的數(shù)據(jù)還是需要進(jìn)一步處理,比如一些無用的詞語,一些重復(fù)意思的詞語。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python可變參數(shù)會自動填充前面的默認(rèn)同名參數(shù)實例
今天小編就為大家分享一篇Python可變參數(shù)會自動填充前面的默認(rèn)同名參數(shù)實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-11-11Python調(diào)用ChatGPT制作基于Tkinter的桌面時鐘
這篇文章主要為大家詳細(xì)介紹了Python如何調(diào)用ChatGPT制作基于Tkinter的桌面時鐘,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2023-03-03Django全局啟用登陸驗證login_required的方法
這篇文章主要介紹了Django全局啟用登陸驗證login_required的方法,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-06-06PyTorch如何使用embedding對特征向量進(jìn)行嵌入
這篇文章主要介紹了PyTorch如何使用embedding對特征向量進(jìn)行嵌入問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02