Python實(shí)現(xiàn)的統(tǒng)計(jì)文章單詞次數(shù)功能示例
本文實(shí)例講述了Python實(shí)現(xiàn)的統(tǒng)計(jì)文章單詞次數(shù)功能。分享給大家供大家參考,具體如下:
題目是這樣的:你有一個(gè)目錄,放了你一個(gè)月的日記,都是 txt,為了避免分詞的問(wèn)題,假設(shè)內(nèi)容都是英文,請(qǐng)統(tǒng)計(jì)出你認(rèn)為每篇日記最重要的詞。
其實(shí)就是統(tǒng)計(jì)一篇文章出現(xiàn)最多的單詞,但是要去除那些常見(jiàn)的連詞、介詞和謂語(yǔ)動(dòng)詞等,代碼:
#coding=utf-8 import collections import re import os useless_words=('the','a','an','and','by','of','in','on','is','to') def get_important_word(file): f=open(file) word_counter=collections.Counter() for line in f: words=re.findall('\w+',line.lower()) word_counter.update(words) f.close() most_important_word=word_counter.most_common(1)[0][0] count=2 while(most_important_word in useless_words): most_important_word=word_counter.most_common(count)[count-1][0] count+=1 num=word_counter.most_common(count)[count-1][1] print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num) if __name__=='__main__': filepath='.' for dirpath,dirname,dirfiles in os.walk(filepath): for file in dirfiles: if os.path.splitext(file)[1]=='.txt': abspath=os.path.join(dirpath,file) if os.path.isfile(abspath): get_important_word(abspath)
學(xué)習(xí)筆記:
collections
模塊,是python內(nèi)建的模塊,提供了許多有用的集合類。我們這里用到了Counter
類和其中的most_common()
方法
PS:這里再為大家推薦2款相關(guān)統(tǒng)計(jì)工具供大家參考:
在線字?jǐn)?shù)統(tǒng)計(jì)工具:
http://tools.jb51.net/code/zishutongji
在線字符統(tǒng)計(jì)與編輯工具:
http://tools.jb51.net/code/char_tongji
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python文件與目錄操作技巧匯總》、《Python文本文件操作技巧匯總》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》及《Python入門(mén)與進(jìn)階經(jīng)典教程》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
- Python統(tǒng)計(jì)列表元素出現(xiàn)次數(shù)的方法示例
- 利用Python3實(shí)現(xiàn)統(tǒng)計(jì)大量單詞中各字母出現(xiàn)的次數(shù)和頻率的方法
- python 統(tǒng)計(jì)list中各個(gè)元素出現(xiàn)的次數(shù)的幾種方法
- python統(tǒng)計(jì)字符串中字母出現(xiàn)次數(shù)代碼實(shí)例
- python統(tǒng)計(jì)文章中單詞出現(xiàn)次數(shù)實(shí)例
- Python統(tǒng)計(jì)文本詞匯出現(xiàn)次數(shù)的實(shí)例代碼
- Linux上使用Python統(tǒng)計(jì)每天的鍵盤(pán)輸入次數(shù)
- python 統(tǒng)計(jì)數(shù)組中元素出現(xiàn)次數(shù)并進(jìn)行排序的實(shí)例
- Python實(shí)現(xiàn)統(tǒng)計(jì)給定列表中指定數(shù)字出現(xiàn)次數(shù)的方法
- 5種Python統(tǒng)計(jì)次數(shù)方法技巧
相關(guān)文章
python中浮點(diǎn)數(shù)比較判斷!為什么不能用==(推薦)
這篇文章主要介紹了python中浮點(diǎn)數(shù)比較判斷!為什么不能用==,本文給大家分享問(wèn)題解決方法,需要的朋友可以參考下2023-09-09Python何時(shí)應(yīng)該使用Lambda函數(shù)
這篇文章主要介紹了Python何時(shí)應(yīng)該使用Lambda函數(shù),Python 中定義函數(shù)有兩種方法,一種是用常規(guī)方式 def 定義,函數(shù)要指定名字,第二種是用 lambda 定義,不需要指定名字,稱為 Lambda 函數(shù),需要的朋友可以參考下2019-07-07Python爬蟲(chóng)Scrapy框架CrawlSpider原理及使用案例
這篇文章主要介紹了Python爬蟲(chóng)Scrapy框架(CrawlSpider),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11python如何獲取文件當(dāng)前位置和定位某個(gè)位置
這篇文章主要介紹了python如何獲取文件當(dāng)前位置和定位某個(gè)位置,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-11-11python切片的步進(jìn)、添加、連接簡(jiǎn)單操作示例
這篇文章主要介紹了python切片的步進(jìn)、添加、連接簡(jiǎn)單操作,結(jié)合實(shí)例形式分析了Python切片運(yùn)算的常見(jiàn)操作技巧,需要的朋友可以參考下2019-07-07關(guān)于python 的legend圖例,參數(shù)使用說(shuō)明
這篇文章主要介紹了關(guān)于python 的legend圖例,參數(shù)使用說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-04-04Python實(shí)現(xiàn)兩個(gè)list求交集,并集,差集的方法示例
這篇文章主要介紹了Python實(shí)現(xiàn)兩個(gè)list求交集,并集,差集的方法,結(jié)合實(shí)例形式分析了Python使用intersection、union及difference方法實(shí)現(xiàn)兩個(gè)集合list的交集、并集與差集操作技巧,需要的朋友可以參考下2018-08-08