Python中文分詞工具之結(jié)巴分詞用法實(shí)例總結(jié)【經(jīng)典案例】
本文實(shí)例講述了Python中文分詞工具之結(jié)巴分詞用法。分享給大家供大家參考,具體如下:
結(jié)巴分詞工具的安裝及基本用法,前面的文章《Python結(jié)巴中文分詞工具使用過程中遇到的問題及解決方法》中已經(jīng)有所描述。這里要說的內(nèi)容與實(shí)際應(yīng)用更貼近——從文本中讀取中文信息,利用結(jié)巴分詞工具進(jìn)行分詞及詞性標(biāo)注。
示例代碼如下:
#coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open("t_with_splitter.txt","r") #讀取文本 string=f.read().decode("utf-8") words = pseg.cut(string) #進(jìn)行分詞 result="" #記錄最終結(jié)果的變量 for w in words: result+= str(w.word)+"/"+str(w.flag) #加詞性標(biāo)注 f=open("t_with_POS_tag.txt","w") #將結(jié)果保存到另一個(gè)文檔中 f.write(result) f.close() t2=time.time() print("分詞及詞性標(biāo)注完成,耗時(shí):"+str(t2-t1)+"秒。") #反饋結(jié)果
其中t_with_splitter.txt文件內(nèi)容如下:
腳本之家是國(guó)內(nèi)專業(yè)的網(wǎng)站建設(shè)資源、腳本編程學(xué)習(xí)類網(wǎng)站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批處理、網(wǎng)頁(yè)制作、網(wǎng)絡(luò)編程、網(wǎng)站建設(shè)等編程資料。
Python2.7.9平臺(tái)運(yùn)行后出現(xiàn)如下圖所示的錯(cuò)誤提示:
查閱相關(guān)資料后發(fā)現(xiàn),需要在開頭加上:
import sys reload(sys) sys.setdefaultencoding( "utf-8" )
最終代碼應(yīng)為:
#coding=utf-8 import jieba import jieba.posseg as pseg import time import sys reload(sys) sys.setdefaultencoding( "utf-8" ) t1=time.time() f=open("t_with_splitter.txt","r") #讀取文本 string=f.read().decode("utf-8") words = pseg.cut(string) #進(jìn)行分詞 result="" #記錄最終結(jié)果的變量 for w in words: result+= str(w.word)+"/"+str(w.flag) #加詞性標(biāo)注 f=open("t_with_POS_tag.txt","w") #將結(jié)果保存到另一個(gè)文檔中 f.write(result) f.close() t2=time.time() print("分詞及詞性標(biāo)注完成,耗時(shí):"+str(t2-t1)+"秒。") #反饋結(jié)果
運(yùn)行成功:
Editplus打開t_with_POS_tag.txt文件如下圖所示:
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python字典操作技巧匯總》、《Python字符串操作技巧匯總》、《Python常用遍歷技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》及《Python入門與進(jìn)階經(jīng)典教程》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
- python實(shí)現(xiàn)中文分詞FMM算法實(shí)例
- Python中文分詞實(shí)現(xiàn)方法(安裝pymmseg)
- Python結(jié)巴中文分詞工具使用過程中遇到的問題及解決方法
- python中文分詞教程之前向最大正向匹配算法詳解
- python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)
- python使用jieba實(shí)現(xiàn)中文分詞去停用詞方法示例
- python中文分詞庫(kù)jieba使用方法詳解
- Python中文分詞庫(kù)jieba,pkusegwg性能準(zhǔn)確度比較
- Python3爬蟲中關(guān)于中文分詞的詳解
- Python jieba 中文分詞與詞頻統(tǒng)計(jì)的操作
- Python中文分詞庫(kù)jieba(結(jié)巴分詞)詳細(xì)使用介紹
相關(guān)文章
使用tensorflow實(shí)現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式
這篇文章主要介紹了使用tensorflow實(shí)現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05python去除空格和換行符的實(shí)現(xiàn)方法(推薦)
下面小編就為大家?guī)硪黄猵ython去除空格和換行符的實(shí)現(xiàn)方法(推薦)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-01-01Tensorflow2.4使用Tuner選擇模型最佳超參詳解
這篇文章主要介紹了Tensorflow2.4使用Tuner選擇模型最佳超參詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-11-11結(jié)合Python工具使用TfidfVectorizer進(jìn)行文本特征提取方式
在自然語(yǔ)言處理中,TF-IDF是一種重要的特征提取方法,本文介紹了如何使用Python的sklearn庫(kù)中的TfidfVectorizer進(jìn)行文本特征提取,首先,需要安裝sklearn庫(kù),TfidfVectorizer能將文本文檔集合轉(zhuǎn)換為TF-IDF特征矩陣2024-10-10pandas根據(jù)指定條件篩選數(shù)據(jù)的實(shí)現(xiàn)示例
條件篩選是pandas中非常重要的一個(gè)功能,它允許我們根據(jù)特定條件來快速、高效地篩選數(shù)據(jù),本文主要介紹了pandas根據(jù)指定條件篩選數(shù)據(jù)的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下2024-03-03詳解python實(shí)現(xiàn)數(shù)據(jù)歸一化處理的方式:(0,1)標(biāo)準(zhǔn)化
這篇文章主要介紹了詳解python實(shí)現(xiàn)數(shù)據(jù)歸一化處理的方式:(0,1)標(biāo)準(zhǔn)化,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07