欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python英文文章詞頻統(tǒng)計(jì)(14份劍橋真題詞頻統(tǒng)計(jì))

 更新時(shí)間:2019年10月13日 15:26:26   作者:予微胡不歸  
這篇文章主要介紹了Python英文文章詞頻統(tǒng)計(jì)(14份劍橋真題詞頻統(tǒng)計(jì)),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

Python劍橋真題詞頻統(tǒng)計(jì)

最好還是要學(xué)以致用,自主搜集了19年最近的14份劍橋真題之后,通過Python提供的jieba第三方庫(kù),對(duì)所有的文章信息進(jìn)行了詞頻統(tǒng)計(jì),并選擇性地剔除了部分簡(jiǎn)易詞匯,比如數(shù)字,普通冠詞等,博主較懶,未清楚干凈。

Python代碼如下:

import jieba
# 以只讀方式打開text(即真題庫(kù))
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#統(tǒng)一為小寫 
text = text.lower()

# 需要剔除的詞匯列表,也可以用記事本的形式,添加一個(gè)打開記事本的語(yǔ)句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 這里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先進(jìn)行分詞
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 計(jì)算詞頻
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 將結(jié)果保存為元組
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#輸出前3500個(gè)詞匯
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python flask路由間傳遞變量實(shí)例詳解

    Python flask路由間傳遞變量實(shí)例詳解

    這篇文章主要介紹了Python flask路由間傳遞變量實(shí)例詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-06-06
  • Python3 A*尋路算法實(shí)現(xiàn)方式

    Python3 A*尋路算法實(shí)現(xiàn)方式

    今天小編就為大家分享一篇Python3 A*尋路算法實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • python實(shí)現(xiàn)代碼統(tǒng)計(jì)器

    python實(shí)現(xiàn)代碼統(tǒng)計(jì)器

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)代碼統(tǒng)計(jì)器,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-09-09
  • 如何通過安裝HomeBrew來安裝Python3

    如何通過安裝HomeBrew來安裝Python3

    這篇文章主要介紹了如何通過安裝HomeBrew來安裝Python3,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-12-12
  • python 合并多個(gè)excel中同名的sheet

    python 合并多個(gè)excel中同名的sheet

    這篇文章主要介紹了python 如何合并多個(gè)excel中同名的sheet,幫助大家更好的利用python處理excel表格,感興趣的朋友可以了解下
    2021-01-01
  • pytorch?collate_fn的基礎(chǔ)與應(yīng)用教程

    pytorch?collate_fn的基礎(chǔ)與應(yīng)用教程

    這篇文章主要給大家介紹了關(guān)于pytorch?collate_fn基礎(chǔ)與應(yīng)用的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2022-02-02
  • 探索Python神奇算術(shù)用代碼輕松求和的幾種方法

    探索Python神奇算術(shù)用代碼輕松求和的幾種方法

    求和是數(shù)學(xué)中最基本的運(yùn)算之一,也是編程中常見的任務(wù)之一,Python 提供了多種方法來計(jì)算和求和數(shù)字,本文將掏出計(jì)算求和的不同方法,包括使用循環(huán)、內(nèi)置函數(shù)以及第三方庫(kù)
    2023-11-11
  • python檢查指定文件是否存在的方法

    python檢查指定文件是否存在的方法

    這篇文章主要介紹了python檢查指定文件是否存在的方法,涉及Python基于os模塊判定文件的相關(guān)技巧,非常簡(jiǎn)單實(shí)用,需要的朋友可以參考下
    2015-07-07
  • python里dict變成list實(shí)例方法

    python里dict變成list實(shí)例方法

    在本篇內(nèi)容里小編給大家分析了關(guān)于python里dict變成list實(shí)例方法的實(shí)例內(nèi)容,對(duì)此有需要的朋友們可以參考學(xué)習(xí)下。
    2019-06-06
  • python統(tǒng)計(jì)函數(shù)被調(diào)用次數(shù)的實(shí)現(xiàn)

    python統(tǒng)計(jì)函數(shù)被調(diào)用次數(shù)的實(shí)現(xiàn)

    本文主要介紹了python如何統(tǒng)計(jì)函數(shù)被調(diào)用次數(shù),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02

最新評(píng)論