Python中jieba庫的介紹與使用
前言:
jieba是優(yōu)秀的中文分詞第三方庫,由于中文文本之間每個漢字都是連續(xù)書寫的,我們需要通過特定的手段來獲得其中的每個詞組,這種手段叫做分詞,我們可以通過jieba庫來完成這個過程。
目錄:
一、jieba庫基本介紹
(1)jieba庫概述
① jieba是優(yōu)秀的中文分詞第三方庫
②中文文本需要通過分詞獲得單個的詞語③ jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝
④jieba庫提供三種分詞模式,最簡單只需掌握一個函數(shù)
(2)jieba分詞的原理
①分詞依靠中文詞庫
② 利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率
③ 漢字間概率大的組成詞組,形成分詞結(jié)果
④ 除了分詞,用戶還可以添加自定義的詞組
二、jieba庫使用說明
(1)jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
① jieba.cut(s) 精確模式:把文本精確的切分開,不存在冗余單詞:
② jieba.lcut(s,cut_all=True) 全模式:把文本中所有可能的詞語都掃描出來,有冗余:
③jieba.lcut_for_search(s) 搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再次切分:
三:jieba庫的安裝
因為 jieba 是一個第三方庫,所有需要我們在本地進行安裝:
ⅠIDLE中jieba庫的安裝:
Windows 下使用命令安裝:在聯(lián)網(wǎng)狀態(tài)下,在命令行下輸入 pip
install jieba 進行安裝,安裝完成后會提示安裝成功。具體過程如圖:
① Win + r 打開運行框并輸入cmd打開指令框:
②在指令框輸入“pip install jieba”并按下回車等待下載:
③ 當出現(xiàn)“Successfully instll”,則表示安裝成功!
Ⅱ Pycharm中jieba庫的安裝:
打開 settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號,點擊后在搜索框搜索 jieba,點擊安裝即可。具體過程如圖:
① 點擊左上角Files中的Settings:
② [endif]找到“Project”中的“python interpreter”,并點擊其中的“+”:
③在搜索欄中搜索“jieba”,并點擊左下角Install Package:
④ 當出現(xiàn)“Successfully instll
jieba”,則表示jieba庫安裝成功!
四:實例-文本詞頻統(tǒng)計
Jieba庫最強大的功能之一就是對文章出現(xiàn)的詞匯進行計數(shù)統(tǒng)計,即計算詞頻,對于一篇文章或者一部著作,我們可以通過以下步驟對出現(xiàn)的單詞進行統(tǒng)計:
源代碼:
注:
① encoding=’ANSI’:將打開的文本格式設(shè)為ANSI形式
② read(size):方法從文件當前位置起讀取size個字節(jié),若無參數(shù)size,則表示讀取至文件結(jié)束為止,它范圍為字符串對象。
③items
= list(counts.items):將counts中的元素存入items表格中。
④ key = lambda x:x[1]:等價于 def func(x):
return x[1]
⑤ reverse = True:列表反轉(zhuǎn)排序,不寫reverse = True 就是列表升序排列,括號里面加上reverse =True 就是降序排列!
⑥ {0:<10}{1:>5}:<表示左對齊,>表示右對齊,數(shù)字表示寬度,<10表示左對齊,并占10個位置,>5表示右對齊,占5個位置。
運行結(jié)果:
如上運行結(jié)果有兩個不足之處,一是詞匯中出現(xiàn)了“卻說”、“丞相”、“二人”等人名以外的單詞,我們需要把這些單詞去除;二是“孔明”與“孔明說”、“曹操”與“丞相”等的是同一人,我們需要把它們合并同類項,將代碼進行優(yōu)化后,我們得到:
運行結(jié)果:
相對于第一個程序,這個程序更為嚴謹與完整,已經(jīng)得到了大致得到所需結(jié)果,但它還沒有完全解決排除非人名這一問題,所以在該基礎(chǔ)之上繼續(xù)使用排除人名的方法去完善這一程序……
總結(jié):
使用jieba庫對一段文本進行詞頻的統(tǒng)計是一件非常有意思的事,我們只需要使用這第三方庫,就可以在不閱讀文本的情況下,得到該文本的高頻率詞匯。但jieba庫的作用遠遠不止于此,它更多的作用等著我們?nèi)ネ诰???偟膩碚f,jieba庫是一個優(yōu)秀的中文分詞第三方庫,它在我們的程序中正大放光芒!
到此這篇關(guān)于Python中jieba庫的介紹與使用的文章就介紹到這了,更多相關(guān)Python中jieba庫使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
基于python for in if 連著寫與分開寫的區(qū)別說明
這篇文章主要介紹了基于python for in if 連著寫與分開寫的區(qū)別說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03