快捷導(dǎo)航

Python中文分詞工具之結(jié)巴分詞用法實(shí)例總結(jié)【經(jīng)典案例】

更新時(shí)間：2017年04月15日 10:27:00 作者：捂汗縣長(zhǎng)

這篇文章主要介紹了Python中文分詞工具之結(jié)巴分詞用法,結(jié)合實(shí)例形式總結(jié)分析了Python針對(duì)中文文件的讀取與分詞操作過程中遇到的問題與解決方法,需要的朋友可以參考下

本文實(shí)例講述了Python中文分詞工具之結(jié)巴分詞用法。分享給大家供大家參考，具體如下：

結(jié)巴分詞工具的安裝及基本用法，前面的文章《Python結(jié)巴中文分詞工具使用過程中遇到的問題及解決方法》中已經(jīng)有所描述。這里要說的內(nèi)容與實(shí)際應(yīng)用更貼近——從文本中讀取中文信息，利用結(jié)巴分詞工具進(jìn)行分詞及詞性標(biāo)注。

示例代碼如下：

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #讀取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #進(jìn)行分詞
result="" #記錄最終結(jié)果的變量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加詞性標(biāo)注
f=open("t_with_POS_tag.txt","w") #將結(jié)果保存到另一個(gè)文檔中
f.write(result)
f.close()
t2=time.time()
print("分詞及詞性標(biāo)注完成，耗時(shí)："+str(t2-t1)+"秒。") #反饋結(jié)果

其中t_with_splitter.txt文件內(nèi)容如下：

腳本之家是國內(nèi)專業(yè)的網(wǎng)站建設(shè)資源、腳本編程學(xué)習(xí)類網(wǎng)站，提供asp、php、asp.net、javascript、jquery、vbscript、dos批處理、網(wǎng)頁制作、網(wǎng)絡(luò)編程、網(wǎng)站建設(shè)等編程資料。

Python2.7.9平臺(tái)運(yùn)行后出現(xiàn)如下圖所示的錯(cuò)誤提示：

查閱相關(guān)資料后發(fā)現(xiàn)，需要在開頭加上：

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最終代碼應(yīng)為：

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #讀取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #進(jìn)行分詞
result="" #記錄最終結(jié)果的變量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加詞性標(biāo)注
f=open("t_with_POS_tag.txt","w") #將結(jié)果保存到另一個(gè)文檔中
f.write(result)
f.close()
t2=time.time()
print("分詞及詞性標(biāo)注完成，耗時(shí)："+str(t2-t1)+"秒。") #反饋結(jié)果

運(yùn)行成功：