python中文分詞,使用結(jié)巴分詞對python進(jìn)行分詞(實(shí)例講解)

更新時間：2017年11月14日 09:04:15 作者：yangjiyue

下面小編就為大家?guī)硪黄猵ython中文分詞,使用結(jié)巴分詞對python進(jìn)行分詞的實(shí)例講解。有比較好的參考價(jià)值，希望能給大家做個參考。一起跟隨小編過來看看吧

在采集美女站時，需要對關(guān)鍵詞進(jìn)行分詞，最終采用的是python的結(jié)巴分詞方法。

中文分詞是中文文本處理的一個基礎(chǔ)性工作，結(jié)巴分詞利用進(jìn)行中文分詞。

其基本實(shí)現(xiàn)原理有三點(diǎn)：

1.基于Trie樹結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖（DAG)

2.采用了動態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合

3.對于未登錄詞，采用了基于漢字成詞能力的HMM模型，使用了Viterbi算法

安裝（Linux環(huán)境）

下載工具包，解壓后進(jìn)入目錄下，運(yùn)行：python setup.py install

模式

1.默認(rèn)模式，試圖將句子最精確地切開，適合文本分析

2.全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

接口

• 組件只提供jieba.cut 方法用于分詞

• cut方法接受兩個輸入?yún)?shù)：

• 第一個參數(shù)為需要分詞的字符串

• cut_all參數(shù)用來控制分詞模式

• 待分詞的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的結(jié)構(gòu)是一個可迭代的generator，可以使用for循環(huán)來獲得分詞后得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉(zhuǎn)化為list

• seg=jieba.cut("http://www.gg4493.cn/"):

實(shí)例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學(xué)")
print "Default Mode:", ' '.join(seg_list)

結(jié)果

以上這篇python中文分詞,使用結(jié)巴分詞對python進(jìn)行分詞(實(shí)例講解)就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

利用OpenCV進(jìn)行對象跟蹤的示例代碼
這篇文章主要介紹了如何使用OpenCV中內(nèi)置的八種不同的對象跟蹤算法，實(shí)現(xiàn)對物體的跟蹤。文中的示例代碼講解詳細(xì)，感興趣的可以了解一下
2022-02-02
如何利用?Python?繪制動態(tài)可視化圖表
這篇文章主要介紹了如何利用?Python?繪制動態(tài)可視化圖表,主要介紹介紹如何進(jìn)行保存gif格式的文件。那么我們就開始進(jìn)入主題，來談一下Python當(dāng)中的gif模塊,需要的朋友可以參考一下
2022-02-02
Jupyter Notebook內(nèi)使用argparse報(bào)錯的解決方案
這篇文章主要介紹了在Jupyter Notebook內(nèi)使用argparse報(bào)錯的解決方案，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2021-06-06
python數(shù)據(jù)結(jié)構(gòu)的排序算法
下面是是對python數(shù)據(jù)結(jié)構(gòu)的排序算法的一些講解及示意圖，感興趣的小伙伴一起來學(xué)習(xí)吧
2021-08-08
Python?中enum的使用方法總結(jié)
這篇文章主要介紹了Python?中enum的使用方法總結(jié)，枚舉在許多編程語言中常被表示為一種基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)使用，下文更多詳細(xì)內(nèi)容需要的小伙伴可以參考一下
2022-03-03
Python中print函數(shù)語法格式以及各參數(shù)舉例詳解
這篇文章主要給大家介紹了關(guān)于Python中print函數(shù)語法格式以及各參數(shù)舉例詳解的相關(guān)資料,print()函數(shù)用于將指定的字符串或?qū)ο?通常是字符串)輸出到屏幕或文件中,需要的朋友可以參考下
2023-10-10
Django視圖函數(shù)的具體使用
這篇文章主要介紹了Django視圖函數(shù)的具體使用，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2021-03-03
Python檢查端口是否打開的七種方法總結(jié)
在信息安全領(lǐng)域,端口掃描是一項(xiàng)常見的技術(shù),用于逐個檢測目標(biāo)主機(jī)上的端口是否開放,這篇文章主要給大家介紹了關(guān)于Python檢查端口是否打開的七種方法總結(jié),需要的朋友可以參考下
2023-12-12
利用Python實(shí)現(xiàn)好看的水波特效
這篇文章主要介紹了如何利用Python語言實(shí)現(xiàn)水波特效，文中的示例代碼講解詳細(xì)，對我們學(xué)習(xí)Python有一定的幫助，需要的可以參考一下
2022-04-04
python之yield和return的對比分析
這篇文章主要介紹了python之yield和return的對比分析,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2023-08-08