Python中文分詞工具使用詳解
一、場景分析
我們平常爬地圖 POI 數(shù)據(jù)的時候,會得到大量的中文地址信息,比如【廈門大學(xué)附屬中山醫(yī)院】這個時候,就需要做中文分詞,以便進(jìn)一步分析。
二、中文分詞庫試用
1、jieba(結(jié)巴分詞)
pip install jieba
test1.py 代碼如下:
import jieba text = "廈門大學(xué)附屬中山醫(yī)院" words = jieba.cut(text) print( list(words) )
運(yùn)行
py test1.py
2、SnowNLP
pip install snownlp
test2.py 代碼如下:
from snownlp import SnowNLP text = "廈門大學(xué)附屬中山醫(yī)院" s = SnowNLP(text) words = s.words print(words)
運(yùn)行
py test2.py
3、thulac(清華大學(xué)自然語言處理與社會人文計(jì)算實(shí)驗(yàn)室開發(fā)的中文詞法分析工具包)
pip install thulac
test3.py 代碼如下:
import thulac thu = thulac.thulac() text = "廈門大學(xué)附屬中山醫(yī)院" result = thu.cut(text) print(result)
運(yùn)行
py test3.py
三、總結(jié)
通過試用,發(fā)現(xiàn)三款分詞庫都能準(zhǔn)確的把詞條進(jìn)行分詞。
thulac 分詞結(jié)果,因?yàn)榧尤肓?詞性標(biāo)注,結(jié)果比較復(fù)雜。
jieba 的結(jié)果最簡單,也最接近自然語言。
四、實(shí)戰(zhàn)案例
從一個 txt 讀入一批中文詞條,進(jìn)行分詞,然后把分詞結(jié)果寫入 excel 文件中。
test.py 代碼如下:
import jieba from openpyxl import Workbook # 創(chuàng)建一個新的工作簿 wb = Workbook() # 選擇默認(rèn)的活動工作表 ws = wb.active # 向工作表中寫入表頭 ws['A1'] = '分詞' # 讀取文件 input_path = r"C:\Users\Administrator\Desktop\py\split words\demo\address.txt" with open(input_path, 'r', encoding='utf-8') as input_file: for line in input_file: word = line.strip() print("---------"+word) words = jieba.cut( word ) ll = list(words) for item in ll: print(item.strip()) temp_list = [] temp_list.append( item.strip() ) ws.append(temp_list) input_file.close() # 保存工作簿 wb.save('output.xlsx')
address.txt 如下:
廈門大學(xué)思明校區(qū)
廈門大學(xué)附屬中山醫(yī)院
廈門南洋職業(yè)學(xué)院
集美大學(xué)
運(yùn)行
py test.py
output.xlsx 如下:
到此這篇關(guān)于Python中文分詞工具使用詳解的文章就介紹到這了,更多相關(guān)Python中文分詞內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python數(shù)據(jù)分析之使用scikit-learn構(gòu)建模型
這篇文章主要介紹了Python數(shù)據(jù)分析之使用scikit-learn構(gòu)建模型,sklearn提供了model_selection模型選擇模塊、preprocessing數(shù)據(jù)預(yù)處理模塊、decompisition特征分解模塊,更多相關(guān)內(nèi)容需要朋友可以參考下面文章內(nèi)容2022-08-08python實(shí)現(xiàn)K折交叉驗(yàn)證
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)K折交叉驗(yàn)證,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-04-04使用Python開發(fā)SQLite代理服務(wù)器的方法
今天小編就為大家分享一篇使用Python開發(fā)SQLite代理服務(wù)器的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12Tensorflow實(shí)現(xiàn)將標(biāo)簽變?yōu)閛ne-hot形式
這篇文章主要介紹了Tensorflow實(shí)現(xiàn)將標(biāo)簽變?yōu)閛ne-hot形式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05pycharm不在cmd中運(yùn)行卻在python控制臺運(yùn)行問題解決
這篇文章主要介紹了pycharm不在cmd中運(yùn)行卻在python控制臺運(yùn)行問題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-08-08python讀取csv文件并把文件放入一個list中的實(shí)例講解
下面小編就為大家分享一篇python讀取csv文件并把文件放入一個list中的實(shí)例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-04-04