欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python jieba庫(kù)用法及實(shí)例解析

 更新時(shí)間:2019年11月04日 11:17:52   作者:王陸  
這篇文章主要介紹了Python jieba庫(kù)用法及實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

1、jieba庫(kù)基本介紹

(1)、jieba庫(kù)概述

jieba是優(yōu)秀的中文分詞第三方庫(kù)

  • - 中文文本需要通過分詞獲得單個(gè)的詞語(yǔ)
  • - jieba是優(yōu)秀的中文分詞第三方庫(kù),需要額外安裝
  • - jieba庫(kù)提供三種分詞模式,最簡(jiǎn)單只需掌握一個(gè)函數(shù)

(2)、jieba分詞的原理

Jieba分詞依靠中文詞庫(kù)

- 利用一個(gè)中文詞庫(kù),確定漢字之間的關(guān)聯(lián)概率
- 漢字間概率大的組成詞組,形成分詞結(jié)果

- 除了分詞,用戶還可以添加自定義的詞組

jieba庫(kù)使用說明

(1)、jieba分詞的三種模式

精確模式、全模式、搜索引擎模式

  • - 精確模式:把文本精確的切分開,不存在冗余單詞
  • - 全模式:把文本中所有可能的詞語(yǔ)都掃描出來,有冗余
  • - 搜索引擎模式:在精確模式基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分

(2)、jieba庫(kù)常用函數(shù)

2.jieba應(yīng)用實(shí)例

3.利用jieba庫(kù)統(tǒng)計(jì)三國(guó)演義中任務(wù)的出場(chǎng)次數(shù)

import jieba

txt = open("D:\\三國(guó)演義.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精確模式對(duì)文本進(jìn)行分詞
counts = {}   # 通過鍵值對(duì)的形式存儲(chǔ)詞語(yǔ)及其出現(xiàn)的次數(shù)

for word in words:
  if len(word) == 1:  # 單個(gè)詞語(yǔ)不計(jì)算在內(nèi)
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍歷所有詞語(yǔ),每出現(xiàn)一次其對(duì)應(yīng)的值加 1
    
items = list(counts.items())#將鍵值對(duì)轉(zhuǎn)換成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根據(jù)詞語(yǔ)出現(xiàn)的次數(shù)進(jìn)行從大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

統(tǒng)計(jì)了次數(shù)對(duì)多前十五個(gè)名詞,曹操不愧是一代梟雄,第一名當(dāng)之無愧,但是我們會(huì)發(fā)現(xiàn)得到的數(shù)據(jù)還是需要進(jìn)一步處理,比如一些無用的詞語(yǔ),一些重復(fù)意思的詞語(yǔ)。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python可變參數(shù)會(huì)自動(dòng)填充前面的默認(rèn)同名參數(shù)實(shí)例

    Python可變參數(shù)會(huì)自動(dòng)填充前面的默認(rèn)同名參數(shù)實(shí)例

    今天小編就為大家分享一篇Python可變參數(shù)會(huì)自動(dòng)填充前面的默認(rèn)同名參數(shù)實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • python muggle_ocr庫(kù)用法及實(shí)例代碼

    python muggle_ocr庫(kù)用法及實(shí)例代碼

    在本篇文章里小編給大家整理的是一篇關(guān)于python muggle_ocr庫(kù)用法及實(shí)例代碼內(nèi)容,有需要的朋友們可以跟著學(xué)習(xí)參考下。
    2021-07-07
  • Python調(diào)用ChatGPT制作基于Tkinter的桌面時(shí)鐘

    Python調(diào)用ChatGPT制作基于Tkinter的桌面時(shí)鐘

    這篇文章主要為大家詳細(xì)介紹了Python如何調(diào)用ChatGPT制作基于Tkinter的桌面時(shí)鐘,文中的示例代碼講解詳細(xì),感興趣的可以了解一下
    2023-03-03
  • Python編程圖形庫(kù)之Pillow使用方法講解

    Python編程圖形庫(kù)之Pillow使用方法講解

    今天小編就為大家分享一篇關(guān)于Python編程圖形庫(kù)之Pillow使用方法講解,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧
    2018-12-12
  • Python單元測(cè)試入門到精通講解

    Python單元測(cè)試入門到精通講解

    單元測(cè)試是軟件開發(fā)中不可或缺的一部分,有助于確保代碼的正確性、可維護(hù)性和可擴(kuò)展性,在Python中,有豐富的工具和庫(kù)可用于進(jìn)行單元測(cè)試,本文將為你提供一個(gè)全面的指南,從入門到精通,輕松掌握Python單元測(cè)試的方方面面
    2023-11-11
  • python實(shí)現(xiàn)定時(shí)發(fā)送郵件到指定郵箱

    python實(shí)現(xiàn)定時(shí)發(fā)送郵件到指定郵箱

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)定時(shí)發(fā)送郵件到指定郵箱,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2020-12-12
  • python計(jì)算圓周長(zhǎng)、面積、球體體積并畫出圓

    python計(jì)算圓周長(zhǎng)、面積、球體體積并畫出圓

    這篇文章主要介紹了python計(jì)算圓周長(zhǎng)、面積、球體體積并畫出圓(python3+PyObject+Gtk實(shí)現(xiàn)界面聯(lián)動(dòng)),需要的朋友可以參考下
    2014-04-04
  • Django全局啟用登陸驗(yàn)證login_required的方法

    Django全局啟用登陸驗(yàn)證login_required的方法

    這篇文章主要介紹了Django全局啟用登陸驗(yàn)證login_required的方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-06-06
  • windows下ipython的安裝與使用詳解

    windows下ipython的安裝與使用詳解

    大家都知道ipython是一個(gè)python的交互式shell,比默認(rèn)的python shell好用得多,IPython有許多種安裝方式,這主要和使用什么操作系統(tǒng)有關(guān)。本文給大家介紹的是在windows下ipython的安裝與使用,有需要的朋友們可以參考學(xué)習(xí)。
    2016-10-10
  • PyTorch如何使用embedding對(duì)特征向量進(jìn)行嵌入

    PyTorch如何使用embedding對(duì)特征向量進(jìn)行嵌入

    這篇文章主要介紹了PyTorch如何使用embedding對(duì)特征向量進(jìn)行嵌入問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-02-02

最新評(píng)論