欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中jieba庫(kù)的介紹與使用

 更新時(shí)間:2023年03月02日 10:32:01   作者:Algorithm-007  
使用jieba庫(kù)對(duì)一段文本進(jìn)行詞頻的統(tǒng)計(jì)是一件非常有意思的事,我們只需要使用這第三方庫(kù),就可以在不閱讀文本的情況下,得到該文本的高頻率詞匯,這篇文章主要介紹了Python中jieba庫(kù)的介紹與使用,需要的朋友可以參考下

前言:

jieba是優(yōu)秀的中文分詞第三方庫(kù),由于中文文本之間每個(gè)漢字都是連續(xù)書寫的,我們需要通過(guò)特定的手段來(lái)獲得其中的每個(gè)詞組,這種手段叫做分詞,我們可以通過(guò)jieba庫(kù)來(lái)完成這個(gè)過(guò)程。

目錄:

一、jieba庫(kù)基本介紹

(1)jieba庫(kù)概述

① jieba是優(yōu)秀的中文分詞第三方庫(kù)

②中文文本需要通過(guò)分詞獲得單個(gè)的詞語(yǔ)③ jieba是優(yōu)秀的中文分詞第三方庫(kù),需要額外安裝           

④jieba庫(kù)提供三種分詞模式,最簡(jiǎn)單只需掌握一個(gè)函數(shù)

 (2)jieba分詞的原理

①分詞依靠中文詞庫(kù)

②  利用一個(gè)中文詞庫(kù),確定漢字之間的關(guān)聯(lián)概率

③ 漢字間概率大的組成詞組,形成分詞結(jié)果

④ 除了分詞,用戶還可以添加自定義的詞組

二、jieba庫(kù)使用說(shuō)明

 (1)jieba分詞的三種模式

精確模式、全模式、搜索引擎模式

①  jieba.cut(s) 精確模式:把文本精確的切分開(kāi),不存在冗余單詞:

② jieba.lcut(s,cut_all=True) 全模式:把文本中所有可能的詞語(yǔ)都掃描出來(lái),有冗余:

③jieba.lcut_for_search(s) 搜索引擎模式:在精確模式基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分:

三:jieba庫(kù)的安裝

因?yàn)?nbsp;jieba 是一個(gè)第三方庫(kù),所有需要我們?cè)诒镜剡M(jìn)行安裝:

ⅠIDLE中jieba庫(kù)的安裝:

Windows 下使用命令安裝:在聯(lián)網(wǎng)狀態(tài)下,在命令行下輸入 pip

install jieba 進(jìn)行安裝,安裝完成后會(huì)提示安裝成功。具體過(guò)程如圖:

①  Win + r 打開(kāi)運(yùn)行框并輸入cmd打開(kāi)指令框:

②在指令框輸入“pip install jieba”并按下回車等待下載:

③ 當(dāng)出現(xiàn)“Successfully instll”,則表示安裝成功!

Ⅱ Pycharm中jieba庫(kù)的安裝:

打開(kāi) settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號(hào),點(diǎn)擊后在搜索框搜索 jieba,點(diǎn)擊安裝即可。具體過(guò)程如圖:

①  點(diǎn)擊左上角Files中的Settings:

②  [endif]找到“Project”中的“python interpreter”,并點(diǎn)擊其中的“+”:

③在搜索欄中搜索“jieba”,并點(diǎn)擊左下角Install Package:

④ 當(dāng)出現(xiàn)“Successfully instll

jieba”,則表示jieba庫(kù)安裝成功!

四:實(shí)例-文本詞頻統(tǒng)計(jì)

Jieba庫(kù)最強(qiáng)大的功能之一就是對(duì)文章出現(xiàn)的詞匯進(jìn)行計(jì)數(shù)統(tǒng)計(jì),即計(jì)算詞頻,對(duì)于一篇文章或者一部著作,我們可以通過(guò)以下步驟對(duì)出現(xiàn)的單詞進(jìn)行統(tǒng)計(jì):

源代碼:

注:

①  encoding=’ANSI’:將打開(kāi)的文本格式設(shè)為ANSI形式

②  read(size):方法從文件當(dāng)前位置起讀取size個(gè)字節(jié),若無(wú)參數(shù)size,則表示讀取至文件結(jié)束為止,它范圍為字符串對(duì)象。

③items

= list(counts.items):將counts中的元素存入items表格中。

④  key = lambda x:x[1]:等價(jià)于 def func(x):

 return x[1]

⑤ reverse = True:列表反轉(zhuǎn)排序,不寫reverse = True 就是列表升序排列,括號(hào)里面加上reverse =True 就是降序排列!

⑥  {0:<10}{1:>5}:<表示左對(duì)齊,>表示右對(duì)齊,數(shù)字表示寬度,<10表示左對(duì)齊,并占10個(gè)位置,>5表示右對(duì)齊,占5個(gè)位置。

運(yùn)行結(jié)果:

如上運(yùn)行結(jié)果有兩個(gè)不足之處,一是詞匯中出現(xiàn)了“卻說(shuō)”、“丞相”、“二人”等人名以外的單詞,我們需要把這些單詞去除;二是“孔明”與“孔明說(shuō)”、“曹操”與“丞相”等的是同一人,我們需要把它們合并同類項(xiàng),將代碼進(jìn)行優(yōu)化后,我們得到:

運(yùn)行結(jié)果:

相對(duì)于第一個(gè)程序,這個(gè)程序更為嚴(yán)謹(jǐn)與完整,已經(jīng)得到了大致得到所需結(jié)果,但它還沒(méi)有完全解決排除非人名這一問(wèn)題,所以在該基礎(chǔ)之上繼續(xù)使用排除人名的方法去完善這一程序……

總結(jié):

使用jieba庫(kù)對(duì)一段文本進(jìn)行詞頻的統(tǒng)計(jì)是一件非常有意思的事,我們只需要使用這第三方庫(kù),就可以在不閱讀文本的情況下,得到該文本的高頻率詞匯。但jieba庫(kù)的作用遠(yuǎn)遠(yuǎn)不止于此,它更多的作用等著我們?nèi)ネ诰???偟膩?lái)說(shuō),jieba庫(kù)是一個(gè)優(yōu)秀的中文分詞第三方庫(kù),它在我們的程序中正大放光芒!

到此這篇關(guān)于Python中jieba庫(kù)的介紹與使用的文章就介紹到這了,更多相關(guān)Python中jieba庫(kù)使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python對(duì)象及面向?qū)ο蠹夹g(shù)詳解

    python對(duì)象及面向?qū)ο蠹夹g(shù)詳解

    這篇文章主要介紹了python對(duì)象及面向?qū)ο蠹夹g(shù),結(jié)合實(shí)例形式詳細(xì)分析了Python面向?qū)ο笏婕暗念悺?duì)象、方法、屬性等概念與使用技巧,需要的朋友可以參考下
    2016-07-07
  • python隨機(jī)打印成績(jī)排名表

    python隨機(jī)打印成績(jī)排名表

    這篇文章主要為大家詳細(xì)介紹了python隨機(jī)打印成績(jī)排名表,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • 詳解Python3 pandas.merge用法

    詳解Python3 pandas.merge用法

    pandas提供了一組高級(jí)的、靈活的、高效的核心函數(shù),能夠輕松的將數(shù)據(jù)規(guī)整化。這節(jié)主要對(duì)pandas合并數(shù)據(jù)集的merge函數(shù)進(jìn)行詳解,感興趣的朋友跟隨小編一起看看吧
    2019-09-09
  • Python使用裝飾器進(jìn)行django開(kāi)發(fā)實(shí)例代碼

    Python使用裝飾器進(jìn)行django開(kāi)發(fā)實(shí)例代碼

    這篇文章主要介紹了Python使用裝飾器進(jìn)行django開(kāi)發(fā)實(shí)例代碼,分享了相關(guān)代碼示例,小編覺(jué)得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下
    2018-02-02
  • Python寫出新冠狀病毒確診人數(shù)地圖的方法

    Python寫出新冠狀病毒確診人數(shù)地圖的方法

    在本篇文章里小編給大家分享的是關(guān)于Python做新冠狀病毒確診人數(shù)地圖的詳解內(nèi)容,需要的朋友們可以學(xué)習(xí)下。
    2020-02-02
  • Python正則表達(dá)式急速入門(小結(jié))

    Python正則表達(dá)式急速入門(小結(jié))

    這篇文章主要介紹了Python正則表達(dá)式急速入門(小結(jié)),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • python SocketServer源碼深入解讀

    python SocketServer源碼深入解讀

    這篇文章主要介紹了python SocketServer源碼深入解讀,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-09-09
  • Python運(yùn)算符+與+=的方法實(shí)例

    Python運(yùn)算符+與+=的方法實(shí)例

    這篇文章主要介紹了Python運(yùn)算符+與+=的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-02-02
  • python批量查詢、漢字去重處理CSV文件

    python批量查詢、漢字去重處理CSV文件

    這篇文章主要為大家詳細(xì)介紹了python批量查詢、漢字去重處理CSV文件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-05-05
  • 基于python for in if 連著寫與分開(kāi)寫的區(qū)別說(shuō)明

    基于python for in if 連著寫與分開(kāi)寫的區(qū)別說(shuō)明

    這篇文章主要介紹了基于python for in if 連著寫與分開(kāi)寫的區(qū)別說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2021-03-03

最新評(píng)論