Python詞頻統(tǒng)計(jì)的兩種方法詳解

更新時(shí)間：2021年12月06日 15:04:51 作者：Argonaut_

這篇文章主要為大家介紹了Python詞頻統(tǒng)計(jì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助

統(tǒng)計(jì)文件里每個(gè)單詞的個(gè)數(shù)

思路：

分別統(tǒng)計(jì)文檔中的單詞，與出現(xiàn)的次數(shù)

用兩個(gè)列表將其保存起來，最后再用zip()函數(shù)連接輸出**

想法成立開始實(shí)踐

方法一：

# 導(dǎo)入文件
with open("passage.txt", 'r') as file:
    dates = file.readlines()
# 處理
words = []
for i in dates:
    words += i.replace("\n", "").split(" ")  # 用空字符來代替換行 words +是為了不被覆蓋無+將只有最后一條數(shù)據(jù)
    # print(i.replace("\n","").split(" "))
setWords = list(set(words))  # 集合自動(dòng)去重
num = []  # 統(tǒng)計(jì)一個(gè)單詞出現(xiàn)的次數(shù)
for k in setWords:
    count = 0
    for j in words:
        if k == j:
            count = count + 1
    num.append(count)
print(num)
print(setWords)
# 輸出
for x, y in zip(setWords, num):  # 將兩個(gè)列表用zip結(jié)合
    print(x + ":" + str(y))、

效果圖：

在這里插入圖片描述

方法二：

此方法用來字典，較前一個(gè)相對(duì)簡(jiǎn)潔一點(diǎn)

# 導(dǎo)入
with open("passage.txt", 'r') as file:
    dates = file.readlines()
# 處理
words = []
for i in dates:
    words += i.replace("\n", "").split(" ")
    # print(i.replace("\n","").split(" "))
# setWords=list(set(words))  #可以不用這個(gè)
print(words)
print("-" * 40)
# print(setWords)
diccount = dict()
for i in words:
    if (i not in diccount):
        diccount[i] = 1  # 第一遍字典為空 賦值相當(dāng)于 i=1，i為words里的單詞
        # print(diccount)
    else:
        diccount[i] = diccount[i] + 1  # 等不在里面的全部遍歷一遍賦值就都在里面了，我們?cè)賮碛洈?shù)
print(diccount)

效果圖：

在這里插入圖片描述

統(tǒng)計(jì)的文檔

在這里插入圖片描述

總結(jié)

本篇文章就到這里了，希望能夠給你帶來幫助，也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!

您可能感興趣的文章:

相關(guān)文章

Python中sorted()函數(shù)之排序的利器詳解
sorted()函數(shù)是Python中的內(nèi)置函數(shù),用于對(duì)可迭代對(duì)象進(jìn)行排序,下面這篇文章主要給大家介紹了關(guān)于Python中sorted()函數(shù)之排序的相關(guān)資料,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
2024-08-08
詳細(xì)總結(jié)Python常見的安全問題
今天帶各位學(xué)習(xí)一下Python安全問題,文中介紹的非常詳細(xì),對(duì)正在學(xué)習(xí)python的小伙伴有很好地幫助,需要的朋友可以參考下
2021-05-05
簡(jiǎn)單介紹Python中的RSS處理
這篇文章主要介紹了簡(jiǎn)單介紹Python中的RSS處理,本文來自于IBM官方開發(fā)者技術(shù)文檔,需要的朋友可以參考下
2015-04-04
Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對(duì)應(yīng)行的合并
本文主要介紹了Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對(duì)應(yīng)行的合并，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2023-01-01
Flask后臺(tái)線程中的請(qǐng)求上下文問題分析與解決方案
在Flask開發(fā)中,我們經(jīng)常會(huì)遇到需要在后臺(tái)線程中執(zhí)行耗時(shí)操作的情況,然而,如果在后臺(tái)線程中直接訪問Flask的request對(duì)象,就會(huì)遇到RuntimeError: Working outside of request context錯(cuò)誤,所以本文將通過一個(gè)實(shí)際案例,分析錯(cuò)誤原因,并提供3種解決方案
2025-05-05
python+opencv實(shí)現(xiàn)移動(dòng)偵測(cè)（幀差法）
這篇文章主要為大家詳細(xì)介紹了python+opencv實(shí)現(xiàn)移動(dòng)偵測(cè)，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2020-03-03
基于Python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的敏感詞過濾功能
這篇文章主要介紹了Python實(shí)現(xiàn)敏感詞過濾功能的示例，文中通過示例代碼介紹的非常詳細(xì)，對(duì)我們學(xué)習(xí)python有定的幫助，感興趣的小伙伴們可以參考一下
2023-06-06
一文帶你探尋Python中的迭代器
你知道for...in是底層原理是什么樣的么？這篇文章就來和大家詳細(xì)講一講Python中迭代器的的相關(guān)知識(shí)，文中的示例代碼講解詳細(xì)，感興趣的可以了解一下
2023-04-04
python小數(shù)字符串轉(zhuǎn)數(shù)字的五種方法
本文主要介紹了python小數(shù)字符串轉(zhuǎn)數(shù)字的五種方法,根據(jù)具體需求選擇合適的方法進(jìn)行小數(shù)字符串轉(zhuǎn)數(shù)字,具有一定的參考價(jià)值,感興趣的可以了解一下
2024-01-01
python如何獲取當(dāng)前系統(tǒng)的日期
這篇文章主要介紹了python如何獲取當(dāng)前系統(tǒng)的日期，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2022-05-05