快捷導(dǎo)航

Python?jieba分詞添加自定義詞和去除不需要長(zhǎng)尾詞的操作方法

更新時(shí)間：2023年03月02日 10:19:41 作者：虛壞叔叔

這篇文章主要介紹了Python?jieba分詞如何添加自定義詞和去除不需要長(zhǎng)尾詞,主要介紹jieba的基礎(chǔ)用法，本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

            # 找到高頻詞匯
            tmp_content = self.getContent(tmp_path)
            keyword_list = tmp_content.split('\n')
            word_count = dict()
            for keyword in keyword_list:
                for word,flag in jp.cut(keyword):
                    if word in word_count:
                        word_count[word] = word_count[word] +1
                    else:
                        word_count[word] =1
            for word, count in word_count.items():
                print('%s\t%s' % (word,count))

很多情況下 jieba它不知道一些詞匯，比如說獲得的詞匯如下

建立 和 可視化 是2個(gè)獨(dú)立的單詞

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-hGFRlmcz-1677564707182)(2007.assets/image-20230228140647773.png)]

一、添加自定義詞

通過添加自定義詞

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-Ljn92rgA-1677564707182)(2007.assets/image-20230228140134068.png)]

就可以看到，統(tǒng)計(jì)出來的詞是這個(gè)自定義詞

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-uphMFIPd-1677564707182)(2007.assets/image-20230228140339267.png)]

二、去除不需要長(zhǎng)尾詞

有時(shí) 統(tǒng)計(jì)出來的某些詞匯jieba認(rèn)為是一個(gè)詞匯但是此時(shí) 我想讓他變?yōu)槎鄠€(gè)詞匯，可以通過如下代碼實(shí)現(xiàn)：

import jieba
import jieba.posseg as jp
jieba.del_word('創(chuàng)建活動(dòng)')

此時(shí) jieba 就會(huì)不認(rèn)定 創(chuàng)建活動(dòng) 是一個(gè)詞，它會(huì)將它們分開統(tǒng)計(jì)

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-QX0aqeZ8-1677564707183)(2007.assets/image-20230228140926854.png)]

總結(jié)

本文主要介紹jieba的基礎(chǔ)用法。

到此這篇關(guān)于Python jieba分詞如何添加自定義詞和去除不需要長(zhǎng)尾詞的文章就介紹到這了,更多相關(guān)Python jieba分詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?jieba分詞添加自定義詞和去除不需要長(zhǎng)尾詞的操作方法

目錄

一、添加自定義詞

二、去除不需要長(zhǎng)尾詞

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?jieba分詞添加自定義詞和去除不需要長(zhǎng)尾詞的操作方法

目錄

一、添加自定義詞

二、去除不需要長(zhǎng)尾詞

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

二、去除不需要長(zhǎng)尾詞