欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能

 更新時(shí)間:2021年10月17日 16:00:12   作者:周魚仔  
詞頻統(tǒng)計(jì)用途很廣泛,比如我們統(tǒng)計(jì)某篇文章中的用詞頻率,網(wǎng)絡(luò)熱點(diǎn)詞匯,再比如起名排行榜呀、熱門旅游景點(diǎn)排行榜呀什么的,其實(shí)也都可以套用,這篇文章主要給大家介紹了關(guān)于如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能的相關(guān)資料,需要的朋友可以參考下

功能要求

這是我們老師的作業(yè) 代碼中都有注釋 要求 詞頻統(tǒng)計(jì)軟件:

1)從文本中讀入數(shù)據(jù):(文件的輸入輸出)

2)不區(qū)分大小寫,去除特殊字符。

3) 統(tǒng)計(jì)單詞 例如:about :10 并統(tǒng)計(jì)總共多少單詞

4)對(duì)單詞排序。出現(xiàn)次數(shù)

5)輸出詞頻最高的10個(gè)單詞和次數(shù)

6)把統(tǒng)計(jì)結(jié)果存入文本

方法如下

1.文件的讀取,區(qū)分大小寫,去除特殊字符

import re
 
def getword():
     # 讀取文件
     f=open('read.txt','r',encoding='utf-8')
     # 將大寫轉(zhuǎn)化成小寫
     word=f.read().lower()
     # 關(guān)閉文件
     f.close()
     #利用正則除去特殊字符   |\符+
     list=re.split('\s+|\,+|\.+|\!+|\:+|\?+|\;+|\(+|\)+|\-+|\_+|\=+|\++|\“+|\、+|\/+|\{+|\}+|\”+|\:+|\。+|\“+|\[+|\]+|\【+|\】+|\—+|\%+|\"+',word)
     # 遍歷列表 去除列表中的空格
     i = 0
     while i < len(list):
          if list[i] == '':
               list.remove(list[i])
               i -= 1
          i += 1
 
     # for a in list:
     #      if a == "":
     #         list.remove(a)
    #用for循環(huán)的話如果存在多個(gè)空字符串 其列表會(huì)隨時(shí)發(fā)生變化,導(dǎo)致無法正常刪除空字符串 所以在使用for…in循環(huán)遍歷列表時(shí),最好不要對(duì)元素進(jìn)行增刪操作
 
#  對(duì)于others'優(yōu)化 如果最后一個(gè)字符是‘就將'其去掉
     for i in range(len(list)):
          l=list[i]
          if list[i][-1] == "'":
               list[i] = list[i][:-1]
     return list
 
 
 
 
 

2. 統(tǒng)計(jì),排序

from getfilewords import getword
 
def statistics():
    dict={}  #定義一個(gè)空的字典,在后面的運(yùn)算中逐步添加數(shù)據(jù)
    words=getword()
    for word in words: #遍歷整個(gè)列表
        if word in dict.keys():  #判斷當(dāng)前單詞是否已經(jīng)存在 dict.keys()是已存進(jìn)字典中的單詞
            # 補(bǔ)充:keys() 方法用于返回字典中的所有鍵;
            # values() 方法用于返回字典中所有鍵對(duì)應(yīng)的值;
            #詳情見Test1
            dict[word]=dict[word]+1  #在當(dāng)前單詞的個(gè)數(shù)上加 1
        else:
            dict[word]=1  #當(dāng)前單詞第一次出現(xiàn)時(shí) 會(huì)把單詞寫入dict字典里 格式為 ‘單詞'=1
#排序
    w_order=sorted(dict.items(),key=lambda x:x[1],reverse=True)
# print(dict.items())
# dict.items()返回的是列表
# 按字典集合中,每一個(gè)元組的第二個(gè)元素排列。
# sorted會(huì)對(duì)dict.items()這個(gè)list進(jìn)行遍歷,把list中的每一個(gè)元素,也就是每一個(gè)tuple()當(dāng)做x傳入匿名函數(shù)lambda x:x[1],函數(shù)返回值為x[1]
# reverse屬性True為降序 False為升序
    return w_order #返回排序后的列表

3.結(jié)果寫入文本

from WordStatistics import statistics
def writefile():
    w_order=statistics()
    f = open('result.txt', 'w',encoding='utf-8')
    print("文章單詞總個(gè)數(shù):",+len(getword()),file=f)
    print("文章單詞總個(gè)數(shù):", +len(getword()))
 
    # 寫入文件
    print("詞頻最高的10個(gè)單詞和次數(shù)",file=f)
    print("詞頻最高的10個(gè)單詞和次數(shù)")
 
    w_order10=w_order[:10]#將列表的前十位提取并且遍歷 輸出key(單詞)和values(次數(shù))
    for key,values in w_order10:
        print(key,':',values,file=f)
        print(key, ':', values)
 
    #遍歷列表中的所有數(shù)據(jù)
    print("統(tǒng)計(jì)結(jié)果",file=f)
    for key,values in w_order:
        print(key,':',values,file=f)
    f.close()#關(guān)閉文件

4.程序入口

import os
 
from writefile import writefile
 
print("詞頻統(tǒng)計(jì)軟件")
print("正在統(tǒng)計(jì)中。。。")
print("統(tǒng)計(jì)成功,結(jié)果保存到result.txt")
writefile()
print("程序運(yùn)行結(jié)束")
os.system("pause")

5.運(yùn)行截圖 這是需要統(tǒng)計(jì)的文本

運(yùn)行程序

運(yùn)行結(jié)果

總結(jié)

到此這篇關(guān)于如何利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)功能的文章就介紹到這了,更多相關(guān)python實(shí)現(xiàn)詞頻統(tǒng)計(jì)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python-pymongo常用查詢方法含聚合問題

    python-pymongo常用查詢方法含聚合問題

    這篇文章主要介紹了python-pymongo常用查詢方法含聚合問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-05-05
  • 一步步教你用python給女朋友寫個(gè)微信自動(dòng)提醒的程序

    一步步教你用python給女朋友寫個(gè)微信自動(dòng)提醒的程序

    如今微信已成為我們?nèi)粘I畹闹饕涣鞴ぞ?但是微信自身的功能有時(shí)候可能并不能滿足我們的需要,因此我們會(huì)想是否可以進(jìn)行微信功能的拓展呢,這篇文章主要給大家介紹了關(guān)于利用python給女朋友寫了個(gè)微信自動(dòng)提醒程序的相關(guān)資料,需要的朋友可以參考下
    2021-10-10
  • Python內(nèi)建函數(shù)Built_in Funtions用法示例詳解

    Python內(nèi)建函數(shù)Built_in Funtions用法示例詳解

    這篇文章主要為大家介紹了Python內(nèi)建函數(shù)Built_in Funtions用法示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-08-08
  • Python 快速實(shí)現(xiàn)CLI 應(yīng)用程序的腳手架

    Python 快速實(shí)現(xiàn)CLI 應(yīng)用程序的腳手架

    本篇文章主要介紹了Python 快速實(shí)現(xiàn)CLI 應(yīng)用程序的腳手架,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-12-12
  • 對(duì)python 合并 累加兩個(gè)dict的實(shí)例詳解

    對(duì)python 合并 累加兩個(gè)dict的實(shí)例詳解

    今天小編就為大家分享一篇對(duì)python 合并 累加兩個(gè)dict的實(shí)例詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • python機(jī)器學(xué)習(xí)基礎(chǔ)K近鄰算法詳解KNN

    python機(jī)器學(xué)習(xí)基礎(chǔ)K近鄰算法詳解KNN

    這篇文章主要為大家介紹了python機(jī)器學(xué)習(xí)基礎(chǔ)K近鄰算法詳解有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2021-11-11
  • Python3.5裝飾器典型案例分析

    Python3.5裝飾器典型案例分析

    這篇文章主要介紹了Python3.5裝飾器,結(jié)合實(shí)例形式分析了裝飾器修飾有參數(shù)函數(shù)、裝飾器修飾函數(shù)參數(shù)等情況相關(guān)使用技巧,需要的朋友可以參考下
    2019-04-04
  • 如何基于Python實(shí)現(xiàn)數(shù)字類型轉(zhuǎn)換

    如何基于Python實(shí)現(xiàn)數(shù)字類型轉(zhuǎn)換

    這篇文章主要介紹了如何基于Python實(shí)現(xiàn)數(shù)字類型轉(zhuǎn)換,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-02-02
  • python命令行運(yùn)行報(bào)錯(cuò)ModuleNotFoundError:No module named‘XXX‘找不到自定義模塊

    python命令行運(yùn)行報(bào)錯(cuò)ModuleNotFoundError:No module named‘X

    這篇文章主要介紹了python命令行運(yùn)行報(bào)錯(cuò)ModuleNotFoundError:No module named‘XXX‘找不到自定義模塊問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-11-11
  • Python Pickling 和 Unpickling 的區(qū)別

    Python Pickling 和 Unpickling 的區(qū)別

    Python中的Pickling和Unpickling是與數(shù)據(jù)序列化和反序列化相關(guān)的重要概念,本文主要介紹了Python Pickling和Unpickling的區(qū)別,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-11-11

最新評(píng)論