Python統(tǒng)計序列和文件中元素的頻度
1、如何統(tǒng)計序列中元素的出現(xiàn)頻度
實際案例:
- (1)某隨機序列
[12, 5, 6, 4, 6, 5, 5, 7, ...]
中找到出現(xiàn)次數(shù)最高的3個元素,它們出現(xiàn)次數(shù)是多少? - (2)對某英文文章的單詞,進行詞頻統(tǒng)計,找到出現(xiàn)次數(shù)最高的10個單詞,它們出現(xiàn)次數(shù)是多少?
解決方案:
使用collections.Counter
對象
將序列傳入Counter
的構造器,得到Counter
對象是元素頻度的字典。
Counter.most_common(n)
方法得到頻度最高的n個元素的列表。
2、代碼演示
(1)某隨機序列 [12, 5, 6, 4, 6, 5, 5, 7, ...] 中找到出現(xiàn)次數(shù)最高的3個元素,它們出現(xiàn)次數(shù)是多少?
from random import randint ? # 利用列表解析生成隨機序列 data = [randint(0, 20) for _ in range(30)] print(data) # 方法1: ''' 最終的統(tǒng)計結(jié)果肯定是一個字典,如:{2: 5, 4:9}, 以data中每一個元素作為字典的鍵,0作為初始值,創(chuàng)建這樣一個字典 ''' c = dict.fromkeys(data, 0) print(c) # 對data進行迭代,進行統(tǒng)計 for x in data: ? ? c[x] += 1 print(c) # 根據(jù)字典的值對字典項進行排序,并截取前3個元素 sort_dict = sorted(c.items(), key=lambda item: item[1], reverse=True)[0:3] print(sort_dict) ? ?? # 方法2: from collections import Counter # 直接將序列傳給Counter構造器 c2 = Counter(data) print(c2) # 直接使用對象的most_common()方法直接找到頻度最高3個 print(c2.most_common(3)) ? ?
(2)對某英文文章的單詞,進行詞頻統(tǒng)計,找到出現(xiàn)次數(shù)最高的10個單詞,它們出現(xiàn)次數(shù)是多少?
from collections import Counter # 導入正則表達式模塊 import re ? # 讀取整個文件內(nèi)容作為字符串 txt = open('word.txt').read() print(txt) # 對詞頻進行統(tǒng)計,首先需要進行分割把每一個字取出來 # 用非字母的字符作為分割,然后傳給Counter()進行統(tǒng)計 c3 = Counter(re.split('\W+', txt)) # 使用most_common()選取10個頻度最高單詞 print(c3.most_common(10))
到此這篇關于Python統(tǒng)計序列和文件中元素的頻度的文章就介紹到這了,更多相關Python統(tǒng)計序列內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python使用pylab庫實現(xiàn)畫線功能的方法詳解
這篇文章主要介紹了Python使用pylab庫實現(xiàn)畫線功能的方法,結(jié)合具體實例分析了Python使用pylab庫的相關函數(shù)實現(xiàn)畫線功能的操作技巧,并附帶說明了相關函數(shù)與參數(shù)功能,需要的朋友可以參考下2017-06-06Python3.7基于hashlib和Crypto實現(xiàn)加簽驗簽功能(實例代碼)
這篇文章主要介紹了Python3.7基于hashlib和Crypto實現(xiàn)加簽驗簽功能,環(huán)境是基于python3.7,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2019-12-12python實現(xiàn)斐波那契數(shù)列的方法示例
每個碼農(nóng)大概都會用自己擅長的語言寫出一個斐波那契數(shù)列出來,斐波那契數(shù)列簡單地說,起始兩項為0和1,此后的項分別為它的前兩項之后。下面這篇文章就給大家詳細介紹了python實現(xiàn)斐波那契數(shù)列的方法,有需要的朋友們可以參考借鑒,下面來一起看看吧。2017-01-01Tensorflow2.4從頭訓練Word?Embedding實現(xiàn)文本分類
這篇文章主要為大家介紹了Tensorflow2.4從頭訓練Word?Embedding實現(xiàn)文本分類,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-01-01pycharm debug功能實現(xiàn)跳到循環(huán)末尾的方法
今天小編就為大家分享一篇pycharm debug功能實現(xiàn)跳到循環(huán)末尾的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11python檢測lvs real server狀態(tài)
這篇文章主要介紹了用python檢測lvs real server狀態(tài)的示例,大家參考使用吧2014-01-01