python實(shí)現(xiàn)簡(jiǎn)單中文詞頻統(tǒng)計(jì)示例
本文介紹了python實(shí)現(xiàn)簡(jiǎn)單中文詞頻統(tǒng)計(jì)示例,分享給大家,具體如下:
任務(wù)
簡(jiǎn)單統(tǒng)計(jì)一個(gè)小說(shuō)中哪些個(gè)漢字出現(xiàn)的頻率最高
知識(shí)點(diǎn)
1.文件操作
2.字典
3.排序
4.lambda
代碼
import codecs import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默認(rèn)字體 mpl.rcParams['axes.unicode_minus'] = False # 解決保存圖像是負(fù)號(hào)'-'顯示為方塊的問(wèn)題 word = [] counter = {} with codecs.open('data.txt') as fr: for line in fr: line = line.strip() if len(line) == 0: continue for w in line: if not w in word: word.append(w) if not w in counter: counter[w] = 0 else: counter[w] += 1 counter_list = sorted(counter.items(), key=lambda x: x[1], reverse=True) print(counter_list[:50]) label = list(map(lambda x: x[0], counter_list[:50])) value = list(map(lambda y: y[1], counter_list[:50])) plt.bar(range(len(value)), value, tick_label=label) plt.show()
統(tǒng)計(jì)了一個(gè)11M的小說(shuō),結(jié)果如下:
[(',', 288508), ('。', 261584), ('的', 188693), ('陳', 92565), ('歡', 92505), ('不', 91234), ('是', 90562), ('了', 86931), ('一', 79059), ('著', 77997), ('他'
, 71695), ('這', 63580), ('人', 61210), ('“', 59719), ('”', 59115), ('有', 56054), ('就', 52862), ('個(gè)', 49097), ('都', 46850), ('你', 45400), ('來(lái)', 42659),
('我', 40057), ('在', 37676), ('們', 36966), ('到', 36351), ('說(shuō)', 35828), ('還', 35260), ('么', 32601), ('下', 31742), ('地', 30692), ('得', 29904), ('上', 2
9627), ('看', 28408), ('沒(méi)', 28333), ('出', 27937), ('道', 27732), ('大', 27012), ('?', 26729), ('那', 26589), ('要', 26076), ('子', 25035), ('自', 24012), ('
點(diǎn)', 23942), ('好', 21345), ('想', 21242), ('里', 20915), ('面', 20661), ('她', 20313), ('過(guò)', 20304), ('話', 20110)]
使用jieba先對(duì)中文文檔進(jìn)行分詞處理
import sys reload(sys) sys.setdefaultencoding("utf-8") import jieba import jieba.analyse wf = open('clean_title.txt','w+') for line in open('/root/clean_data/clean_data.csv'): item = line.strip('\n\r').split('\t') //制表格切分 # print item[1] tags = jieba.analyse.extract_tags(item[1]) //jieba分詞 tagsw = ",".join(tags) //逗號(hào)連接切分的詞 wf.write(tagsw) wf.close()
輸出的clean_title.txt內(nèi)容
郵輪,地中海,深度,羅馬,自由納西,柏林簽證,步行,三天,批準(zhǔn)申根,手把手,簽證,申請(qǐng),如何贊爆,法蘭,穿越,葡萄酒,風(fēng)景,河谷,世界歐洲顏色,一種,國(guó)家,一個(gè)水族箱,帕勞,七日,上帝奧林匹亞,跑步圣托,
里尼,文明古國(guó),探訪,愛(ài)琴海,魅力,希臘
2、統(tǒng)計(jì)詞頻
#!/usr/bin/python # -*- coding:utf-8 -*- word_lst = [] word_dict= {} with open('/root/clean_data/clean_title.txt') as wf,open("word.txt",'w') as wf2: //打開文件 for word in wf: word_lst.append(word.split(',')) //使用逗號(hào)進(jìn)行切分 for item in word_lst: for item2 in item: if item2 not in word_dict: //統(tǒng)計(jì)數(shù)量 word_dict[item2] = 1 else: word_dict[item2] += 1 for key in word_dict: print key,word_dict[key] wf2.write(key+' '+str(word_dict[key])+'\n') //寫入文檔
結(jié)果:
最后 4
歐洲幽藍(lán) 1
集美 1
葡萄牙法多 1
工地 1
知道湖光山色 1
神圣 7
歐洲少女瑞士加游 1
根據(jù)詞匯數(shù)量排序查看:
cat word.txt |sort -nr -k 2|more
神圣 7
最后 4
歐洲幽藍(lán) 1
集美 1
葡萄牙法多 1
工地 1
知道湖光山色 1
歐洲少女瑞士加游 1
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- 一文帶你掌握Python中文詞頻統(tǒng)計(jì)
- Python可視化單詞統(tǒng)計(jì)詞頻統(tǒng)計(jì)中文分詞的實(shí)現(xiàn)步驟
- python中文分詞+詞頻統(tǒng)計(jì)的實(shí)現(xiàn)步驟
- Python jieba 中文分詞與詞頻統(tǒng)計(jì)的操作
- Python英文文章詞頻統(tǒng)計(jì)(14份劍橋真題詞頻統(tǒng)計(jì))
- python寫程序統(tǒng)計(jì)詞頻的方法
- python利用多種方式來(lái)統(tǒng)計(jì)詞頻(單詞個(gè)數(shù))
- Python統(tǒng)計(jì)中文詞頻的四種方法小結(jié)
相關(guān)文章
如何解決cmd運(yùn)行python提示不是內(nèi)部命令
在本篇文章里小編給大家整理了關(guān)于如何解決cmd運(yùn)行python提示不是內(nèi)部命令的相關(guān)內(nèi)容,有興趣的朋友們學(xué)習(xí)下。2020-07-07Python實(shí)現(xiàn)在Windows平臺(tái)修改文件屬性
這篇文章主要介紹了Python實(shí)現(xiàn)在Windows平臺(tái)修改文件屬性,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03Python Des加密解密如何實(shí)現(xiàn)軟件注冊(cè)碼機(jī)器碼
這篇文章主要介紹了Python Des加密解密如何實(shí)現(xiàn)軟件注冊(cè)碼機(jī)器碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-01-01python獲取微信企業(yè)號(hào)打卡數(shù)據(jù)并生成windows計(jì)劃任務(wù)
由于公司的系統(tǒng)用的是Java版本,開通了企業(yè)號(hào)打卡之后又沒(méi)有預(yù)算讓供應(yīng)商做數(shù)據(jù)對(duì)接,所以只能自己搗鼓這個(gè),以下是個(gè)人設(shè)置的一些內(nèi)容,僅供大家參考2019-04-04pytorch動(dòng)態(tài)網(wǎng)絡(luò)以及權(quán)重共享實(shí)例
今天小編就為大家分享一篇pytorch動(dòng)態(tài)網(wǎng)絡(luò)以及權(quán)重共享實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01pycharm運(yùn)行出現(xiàn)ImportError:No module named的解決方法
今天小編就為大家分享一篇pycharm運(yùn)行出現(xiàn)ImportError:No module named的解決方法。具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-10-10python基于plotly實(shí)現(xiàn)畫餅狀圖代碼實(shí)例
這篇文章主要介紹了python基于plotly實(shí)現(xiàn)畫餅狀圖代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-12-12