python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)
在采集美女站時(shí),需要對(duì)關(guān)鍵詞進(jìn)行分詞,最終采用的是python的結(jié)巴分詞方法。
中文分詞是中文文本處理的一個(gè)基礎(chǔ)性工作,結(jié)巴分詞利用進(jìn)行中文分詞。
其基本實(shí)現(xiàn)原理有三點(diǎn):
1.基于Trie樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG)
2.采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合
3.對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法
安裝(Linux環(huán)境)
下載工具包,解壓后進(jìn)入目錄下,運(yùn)行:python setup.py install
模式
1.默認(rèn)模式,試圖將句子最精確地切開,適合文本分析
2.全模式,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái),適合搜索引擎
接口
• 組件只提供jieba.cut 方法用于分詞
• cut方法接受兩個(gè)輸入?yún)?shù):
• 第一個(gè)參數(shù)為需要分詞的字符串
• cut_all參數(shù)用來(lái)控制分詞模式
• 待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode
• jieba.cut返回的結(jié)構(gòu)是一個(gè)可迭代的generator,可以使用for循環(huán)來(lái)獲得分詞后得到的每一個(gè)詞語(yǔ)(unicode),也可以用list(jieba.cut(...))轉(zhuǎn)化為list
• seg=jieba.cut("http://www.gg4493.cn/"):
實(shí)例
#! -*- coding:utf-8 -*- import jieba seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all = True) print "Full Mode:", ' '.join(seg_list) seg_list = jieba.cut("我來(lái)到北京清華大學(xué)") print "Default Mode:", ' '.join(seg_list)
結(jié)果
以上這篇python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- Python基于jieba庫(kù)進(jìn)行簡(jiǎn)單分詞及詞云功能實(shí)現(xiàn)方法
- Python jieba庫(kù)用法及實(shí)例解析
- Python中jieba庫(kù)的使用方法
- Python jieba庫(kù)分詞模式實(shí)例用法
- python jieba庫(kù)的基本使用
- python中文分詞庫(kù)jieba使用方法詳解
- Python jieba 中文分詞與詞頻統(tǒng)計(jì)的操作
- Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較
- Python中文分詞庫(kù)jieba(結(jié)巴分詞)詳細(xì)使用介紹
- Python第三方庫(kù)jieba庫(kù)與中文分詞全面詳解
相關(guān)文章
如何利用?Python?繪制動(dòng)態(tài)可視化圖表
這篇文章主要介紹了如何利用?Python?繪制動(dòng)態(tài)可視化圖表,主要介紹介紹如何進(jìn)行保存gif格式的文件。那么我們就開始進(jìn)入主題,來(lái)談一下Python當(dāng)中的gif模塊,需要的朋友可以參考一下2022-02-02Jupyter Notebook內(nèi)使用argparse報(bào)錯(cuò)的解決方案
這篇文章主要介紹了在Jupyter Notebook內(nèi)使用argparse報(bào)錯(cuò)的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06python數(shù)據(jù)結(jié)構(gòu)的排序算法
下面是是對(duì)python數(shù)據(jù)結(jié)構(gòu)的排序算法的一些講解及示意圖,感興趣的小伙伴一起來(lái)學(xué)習(xí)吧2021-08-08Python中print函數(shù)語(yǔ)法格式以及各參數(shù)舉例詳解
這篇文章主要給大家介紹了關(guān)于Python中print函數(shù)語(yǔ)法格式以及各參數(shù)舉例詳解的相關(guān)資料,print()函數(shù)用于將指定的字符串或?qū)ο?通常是字符串)輸出到屏幕或文件中,需要的朋友可以參考下2023-10-10