欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中jieba庫的使用方法

 更新時間:2021年06月16日 10:47:35   作者:留蘭香丶  
jieba庫是一款優(yōu)秀的 Python 第三方中文分詞庫,本文主要介紹了Python中jieba庫的使用方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下

jieba庫是一款優(yōu)秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,下面是三種模式的特點。

精確模式:試圖將語句最精確的切分,不存在冗余數(shù)據(jù),適合做文本分析

全模式:將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數(shù)據(jù)

搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次進(jìn)行切分

一、jieba庫的安裝

因為 jieba 是一個第三方庫,所有需要我們在本地進(jìn)行安裝。

Windows 下使用命令安裝:在聯(lián)網(wǎng)狀態(tài)下,在命令行下輸入 pip install jieba 進(jìn)行安裝,安裝完成后會提示安裝成功

這里寫圖片描述 

在 pyCharm 中安裝:打開 settings,搜索 Project Interpreter,在右邊的窗口選擇 + 號,點擊后在搜索框搜索 jieba,點擊安裝即可

二、jieba三種模式的使用

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好學(xué)習(xí),天天向上。"

print("/".join(jieba.lcut(seg_str)))    # 精簡模式,返回一個列表類型的結(jié)果
print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式,使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式

分詞效果:

這里寫圖片描述

三、jieba 分詞簡單應(yīng)用

需求:使用 jieba 分詞對一個文本進(jìn)行分詞,統(tǒng)計次數(shù)出現(xiàn)最多的詞語,這里以三國演義為例

# -*- coding: utf-8 -*-
import jieba

txt = open("三國演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精確模式對文本進(jìn)行分詞
counts = {}     # 通過鍵值對的形式存儲詞語及其出現(xiàn)的次數(shù)

for word in words:
    if len(word) == 1:    # 單個詞語不計算在內(nèi)
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍歷所有詞語,每出現(xiàn)一次其對應(yīng)的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序

for i in range(3):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

統(tǒng)計結(jié)果:

這里寫圖片描述 

你可以隨便找一個文本文檔,也可以到 https://github.com/coderjas/python-quick 下載上面例子中的文檔。

四、擴(kuò)展:英文單詞統(tǒng)計

上面的例子統(tǒng)計實現(xiàn)了中文文檔中出現(xiàn)最多的詞語,接著我們就來統(tǒng)計一下一個英文文檔中出現(xiàn)次數(shù)最多的單詞。原理同上

# -*- coding: utf-8 -*-

def get_text():
    txt = open("1.txt", "r", encoding='UTF-8').read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")      # 將文本中特殊字符替換為空格
    return txt

file_txt = get_text()
words = file_txt.split()    # 對字符串進(jìn)行分割,獲得單詞列表
counts = {}

for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1 

items = list(counts.items())    
items.sort(key=lambda x: x[1], reverse=True)      

for i in range(5):
    word, count = items[i]
    print("{0:<5}->{1:>5}".format(word, count))

統(tǒng)計結(jié)果:

這里寫圖片描述

到此這篇關(guān)于Python中jieba庫的使用方法的文章就介紹到這了,更多相關(guān)Python jieba庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python實現(xiàn)Singleton模式的方式詳解

    Python實現(xiàn)Singleton模式的方式詳解

    這篇文章主要介紹了Python實現(xiàn)Singleton模式的方式詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-08-08
  • Python遞歸遍歷列表及輸出的實現(xiàn)方法

    Python遞歸遍歷列表及輸出的實現(xiàn)方法

    這篇文章主要介紹了Python遞歸遍歷列表及輸出的實現(xiàn)方法,可實現(xiàn)遞歸遍歷列表中的每一項,若是元祖則判斷是否為基本類型然后輸出,需要的朋友可以參考下
    2015-05-05
  • tkinter如何獲取復(fù)選框(Checkbutton)的值

    tkinter如何獲取復(fù)選框(Checkbutton)的值

    這篇文章主要介紹了tkinter如何獲取復(fù)選框(Checkbutton)的值問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-01-01
  • python實現(xiàn)本地圖片轉(zhuǎn)存并重命名的示例代碼

    python實現(xiàn)本地圖片轉(zhuǎn)存并重命名的示例代碼

    今天小編就為大家分享一篇python實現(xiàn)本地圖片轉(zhuǎn)存并重命名的示例代碼,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • 用Python實現(xiàn)大文本文件切割的方法

    用Python實現(xiàn)大文本文件切割的方法

    今天小編就為大家分享一篇用Python實現(xiàn)大文本文件切割的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • 關(guān)于Pytorch的MLP模塊實現(xiàn)方式

    關(guān)于Pytorch的MLP模塊實現(xiàn)方式

    今天小編就為大家分享一篇關(guān)于Pytorch的MLP模塊實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • Python GUI之tkinter詳解

    Python GUI之tkinter詳解

    今天帶大家學(xué)習(xí)Python GUI之tkinter的相關(guān)知識,文中對如何使用tkinter作了非常詳細(xì)的介紹及代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好的幫助,需要的朋友可以參考下
    2021-10-10
  • python 合并表格詳解

    python 合并表格詳解

    這篇文章主要為大家詳細(xì)介紹了python 合并表格的方法,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-10-10
  • 關(guān)于pymysql模塊的使用以及代碼詳解

    關(guān)于pymysql模塊的使用以及代碼詳解

    在本篇文章里小編給大家整理的是關(guān)于關(guān)于pymysql模塊的使用以及代碼詳解,有興趣的朋友們學(xué)習(xí)下。
    2019-09-09
  • python numpy實現(xiàn)文件存取的示例代碼

    python numpy實現(xiàn)文件存取的示例代碼

    這篇文章主要介紹了python numpy實現(xiàn)文件存取的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-05-05

最新評論