Python實現(xiàn)快速計算詞頻功能示例
本文實例講述了Python實現(xiàn)快速計算詞頻功能。分享給大家供大家參考,具體如下:
這幾天看到一位同事的代碼,方法如下:
def cut_word(body): temp_dict={} if body is not None: temp=jieba.cut(body) for t in temp: temp_dict[t]=1 else: pass return temp_dict
這個函數(shù)的功能是,輸入一段字符串,比如:'今天天氣很不錯',輸出一個字典,key為使用結(jié)巴的cut方法之后切分的詞,value為1,如:{'很':1,'今天天氣':1,'不錯': 1}。
然后我看到同事的另一個方法:
def union_dict(x,y): _keys = set(sum([obj.keys() for obj in [x,y]],[])) _total = {} for _key in _keys: _total[_key] = sum([obj.get(_key,0) for obj in [x,y]]) return _total
是這樣調(diào)用的:
final_dict=reduce(union_dict,result)
result是這樣產(chǎn)生的:
result=df['body'].apply(cut_word)
也就是把df的body列每一行進行cut_word
函數(shù)操作(即將字符串轉(zhuǎn)換成一個字典)。
result的類型是series,隨后對result用reduce函數(shù)進行union_dict操作。
union_dict的作用是,輸入兩個字典,比如{'很':1,'今天天氣':1,'不錯': 1}和{'很':1,'今天天氣':1,'差': 1},對key相同的進行value求和,也就是輸出會變成{'很':2,'今天天氣':2,'不錯': 1,'差':1}。
所以這一系列的操作其實是為了計算一大堆文字的詞頻數(shù),但同事使用的是對每一行分別進行拆分,生成字典,隨后
對字典進行合并,其實有些麻煩。
再學習自然語言處理的時候,我了解到nltk有一個方法,可以直接計算詞頻,用在此處正好。
# -*- coding:utf-8 -*- import nltk import jieba str = '今天天氣很不錯。今天天氣很差' a = list(jieba.cut(str)) cfd = nltk.FreqDist(a)
結(jié)果直接是一個帶有頻數(shù)的字典:{'很':2,'今天天氣':2,'不錯': 1,'很差':1,'。'}
由于同事的函數(shù)cut_word
對每個詞只計一次頻數(shù),所以不能直接拼接字符串后調(diào)用FreqDist
函數(shù),需要對每個cut
出來的列表去重,隨后再拼接為大字符串調(diào)用FreqDist
,這也比之前寫這兩個函數(shù)簡單許多。
對于普通的計算頻數(shù)的需求來說,這個函數(shù)能直接解決,十分方便。
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python數(shù)學運算技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計有所幫助。
相關(guān)文章
Python入門之三角函數(shù)atan2()函數(shù)詳解
這篇文章主要介紹了Python入門之三角函數(shù)atan2()函數(shù)詳解,分享了其實例,具有一定參考價值,需要的朋友可以了解下。2017-11-11CentOS 6.5下安裝Python 3.5.2(與Python2并存)
這篇文章主要給大家介紹了在CentOS 6.5下安裝Python 3.5.2的方法教程,安裝后的python3與Python2并存,文中分享了詳細的方法步驟,對大家具有一定的參考學習價值,下面來一起看看吧。2017-06-06