Python中文分詞工具之結(jié)巴分詞用法實例總結(jié)【經(jīng)典案例】
本文實例講述了Python中文分詞工具之結(jié)巴分詞用法。分享給大家供大家參考,具體如下:
結(jié)巴分詞工具的安裝及基本用法,前面的文章《Python結(jié)巴中文分詞工具使用過程中遇到的問題及解決方法》中已經(jīng)有所描述。這里要說的內(nèi)容與實際應(yīng)用更貼近——從文本中讀取中文信息,利用結(jié)巴分詞工具進行分詞及詞性標注。
示例代碼如下:
#coding=utf-8 import jieba import jieba.posseg as pseg import time t1=time.time() f=open("t_with_splitter.txt","r") #讀取文本 string=f.read().decode("utf-8") words = pseg.cut(string) #進行分詞 result="" #記錄最終結(jié)果的變量 for w in words: result+= str(w.word)+"/"+str(w.flag) #加詞性標注 f=open("t_with_POS_tag.txt","w") #將結(jié)果保存到另一個文檔中 f.write(result) f.close() t2=time.time() print("分詞及詞性標注完成,耗時:"+str(t2-t1)+"秒。") #反饋結(jié)果
其中t_with_splitter.txt文件內(nèi)容如下:
腳本之家是國內(nèi)專業(yè)的網(wǎng)站建設(shè)資源、腳本編程學(xué)習類網(wǎng)站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批處理、網(wǎng)頁制作、網(wǎng)絡(luò)編程、網(wǎng)站建設(shè)等編程資料。
Python2.7.9平臺運行后出現(xiàn)如下圖所示的錯誤提示:
查閱相關(guān)資料后發(fā)現(xiàn),需要在開頭加上:
import sys reload(sys) sys.setdefaultencoding( "utf-8" )
最終代碼應(yīng)為:
#coding=utf-8 import jieba import jieba.posseg as pseg import time import sys reload(sys) sys.setdefaultencoding( "utf-8" ) t1=time.time() f=open("t_with_splitter.txt","r") #讀取文本 string=f.read().decode("utf-8") words = pseg.cut(string) #進行分詞 result="" #記錄最終結(jié)果的變量 for w in words: result+= str(w.word)+"/"+str(w.flag) #加詞性標注 f=open("t_with_POS_tag.txt","w") #將結(jié)果保存到另一個文檔中 f.write(result) f.close() t2=time.time() print("分詞及詞性標注完成,耗時:"+str(t2-t1)+"秒。") #反饋結(jié)果
運行成功:
Editplus打開t_with_POS_tag.txt文件如下圖所示:
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python字典操作技巧匯總》、《Python字符串操作技巧匯總》、《Python常用遍歷技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》及《Python入門與進階經(jīng)典教程》
希望本文所述對大家Python程序設(shè)計有所幫助。
- python實現(xiàn)中文分詞FMM算法實例
- Python中文分詞實現(xiàn)方法(安裝pymmseg)
- Python結(jié)巴中文分詞工具使用過程中遇到的問題及解決方法
- python中文分詞教程之前向最大正向匹配算法詳解
- python中文分詞,使用結(jié)巴分詞對python進行分詞(實例講解)
- python使用jieba實現(xiàn)中文分詞去停用詞方法示例
- python中文分詞庫jieba使用方法詳解
- Python中文分詞庫jieba,pkusegwg性能準確度比較
- Python3爬蟲中關(guān)于中文分詞的詳解
- Python jieba 中文分詞與詞頻統(tǒng)計的操作
- Python中文分詞庫jieba(結(jié)巴分詞)詳細使用介紹
相關(guān)文章
使用tensorflow實現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式
這篇文章主要介紹了使用tensorflow實現(xiàn)VGG網(wǎng)絡(luò),訓(xùn)練mnist數(shù)據(jù)集方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05Tensorflow2.4使用Tuner選擇模型最佳超參詳解
這篇文章主要介紹了Tensorflow2.4使用Tuner選擇模型最佳超參詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-11-11結(jié)合Python工具使用TfidfVectorizer進行文本特征提取方式
在自然語言處理中,TF-IDF是一種重要的特征提取方法,本文介紹了如何使用Python的sklearn庫中的TfidfVectorizer進行文本特征提取,首先,需要安裝sklearn庫,TfidfVectorizer能將文本文檔集合轉(zhuǎn)換為TF-IDF特征矩陣2024-10-10pandas根據(jù)指定條件篩選數(shù)據(jù)的實現(xiàn)示例
條件篩選是pandas中非常重要的一個功能,它允許我們根據(jù)特定條件來快速、高效地篩選數(shù)據(jù),本文主要介紹了pandas根據(jù)指定條件篩選數(shù)據(jù)的實現(xiàn)示例,具有一定的參考價值,感興趣的可以了解一下2024-03-03詳解python實現(xiàn)數(shù)據(jù)歸一化處理的方式:(0,1)標準化
這篇文章主要介紹了詳解python實現(xiàn)數(shù)據(jù)歸一化處理的方式:(0,1)標準化,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習或者工作具有一定的參考學(xué)習價值,需要的朋友們下面隨著小編來一起學(xué)習學(xué)習吧2019-07-07