欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python寫程序統(tǒng)計詞頻的方法

 更新時間:2019年07月29日 11:36:20   作者:劉娟娟🍀PRESS.ONElv-1  
這篇文章主要介紹了python寫程序統(tǒng)計詞頻的方法,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下

在李笑來所著《時間當作朋友》中有這么一段:

可問題在于,當年我在少年宮學習計算機程序語言的時候,怎么可能想象得到,在20多年后的某一天,我需要先用軟件調取語料庫中的數(shù)據(jù),然后用統(tǒng)計方法為每個單詞標注詞頻,再寫一個批處理程序從相應的字典里復制出多達20MB的內容,重新整理……

在新書《自學是門手藝》中,他再次提及:

又過了好幾年,我去新東方教書。2003 年,在寫詞匯書的過程中,需要統(tǒng)計詞頻,C++ 倒是用不上,用之前學過它的經驗,學了一點 Python,寫程序統(tǒng)計詞頻 ——《TOEFL 核心詞匯 21 天突破》到今天還在銷售。一個當年 10 塊錢學費開始學的技能,就因為這本書,這些年給我 “變現(xiàn)” 了很多錢。

正在通過xue.cn 自學 python 的我順手在 trello 中給自己添加一張卡片: 要不用 python 寫個統(tǒng)計詞頻的腳本玩玩? 這是前不久的事兒了。

今日周末,我翻出這張卡片,打算實踐看看。下文是我寫詞頻統(tǒng)計腳本時的一些思考與實踐成果。

2、如何把難題拆解為小CASE?

從需求來看,“統(tǒng)計詞頻的腳本”是一個泛泛的需求?!也⒉皇窍胍y(tǒng)計特定內容的詞頻,我希望生成的腳本可以處理各式內容。這對腳本的最終交付成果提出了高要求。

如果請你用 python 寫個統(tǒng)計詞頻的腳本,你會如何寫呢?當我正襟危坐,正視這道題目時,第一秒鐘感知到了為難與膽怯。有個小人兒在腦袋里說:“好難,我做不到吧?”

面對新事物、新挑戰(zhàn),人們善于用想象力把困難放的很大。而我已經有了多次迎難而上的經驗,于是我喝了一口苦咖啡,問自己:

從哪兒下手呢?不如進一步拆解來看看吧。

需求拆解如下:

“統(tǒng)計詞頻的腳本”,可以拆分為2個部分,a) 有哪些詞?b) 統(tǒng)計這些詞出現(xiàn)的次數(shù)。 b是簡單的。 a分為2種情況:i) 給定詞庫;ii) 自己從內容中找詞。 i是簡單的,ii則可能復雜。

此時你可能問,你是如何判斷簡單還是復雜?簡單吖,根據(jù)自己的編程能力與經驗,預判自己能否寫出代碼。

需求經過拆解后,當前的重點聚焦于:

如何從內容中抓取詞?

其中,內容是一個寬泛的概念。在程序中,它可能是:string 常量,文件,網頁,api 返回的數(shù)據(jù)如此等等。關鍵是什么呢?關鍵是腳本的一線代碼們處理的是 string,列表或字典。其余的文件、網頁、api 返回數(shù)據(jù)等,無非是數(shù)據(jù)的載體更為復雜,我已經掌握了把從它們那里獲取數(shù)據(jù),生成 string、列表或字典的能力。而這個能力你也能很簡單獲得,即通過“python 如何讀取文件數(shù)據(jù)”之類句式,從搜索引擎中找到答案。

一篇文章可以直接定義或讀取為一個 string 常量。而 for i in stringcontent 句式能夠幫我們遍歷 string 統(tǒng)計單個字的詞頻。然后雙字詞、三字詞、N字詞等等,都可以由單字詞拼接而成。

難點既然這么快想清楚,那么寫代碼實現(xiàn)吧!

3、從上帝視角調控成長體驗

第一個版本代碼如下圖所示,還是非常簡便的。我在同個目錄下,另起一個 poem.py 文件用來把內容定義為常量,供該腳本調用。

首次測試的string 常量 poem 是一首中文小詩,從常理來說,中文詞匯包括漢字1、2、3、4個,超過 4 個的雖有但很少。順著上面的思路,我繼續(xù)把 3字詞、4字詞的代碼也寫出來了。運算結果正常。

我想試試復雜的。比如讀取pdf文件。這涉及到一個我尚未掌握的新知識點:python如何讀取pdf文件?獲取答案也很容易,搜索然后嘗試。

如果把“統(tǒng)計詞頻的python腳本”當作主線任務,那么“python如何讀取pdf文件”就是分支任務啦。在這個分支任務上我立即遇到困難:使用 anaconda powshell prompt 安裝第三方庫時, pip install pdfminer 命令行執(zhí)行了小段就報錯。

此時要么在支線任務中深究下去,要么回歸主線任務。我選擇回歸主線任務,但順手在 trello 上給自己建卡“python如何讀取pdf文件”等以后專門來研究它。

現(xiàn)在,我繼續(xù)專注于詞頻腳本。

除了內容載體的復雜,還可以有內容量的冗長。我拷貝了一篇幾千字的中文文章,定義為 string 常量,然后用剛才調試通過的腳本統(tǒng)計詞頻。

在處理數(shù)百字的小詩時,腳本運行迅速,結果幾乎立即被終端打印出來。而處理這篇長文時,終端打印完單字詞、雙字詞的統(tǒng)計結果后,就一直沒有輸出,好似“卡”在那里。于是我強制結束腳本,在代碼中添加了幾條打印來檢查程序是否正常運行中。由此發(fā)現(xiàn)了一個“性能”上的問題:電腦或編輯器,都沒有卡住,程序運算持續(xù)在進行中,只是沒有運算完成。

這篇長文,單字詞幾百條;按照我的上述代碼邏輯,雙字詞運算 幾百*幾百 次,三字詞運算 幾百*幾百 *幾百 次,四字詞運算 幾百*幾百 *幾百 次。演算一下,具體是多少呢?

4字詞運算次數(shù):467758877041 次

四千六百多億次!難怪遲遲沒有結果輸出!看來代碼本身需要被修改優(yōu)化,以降低計算量。第二個版本除了修改算法外,也調整了代碼結構,使之更易于調試和增刪。

在這個版本中,詞頻統(tǒng)計僅可用于中文,處理幾千字的文章,大概需要1分鐘左右。此時,一個下午已經過去了。再次久坐忘動的我,決定暫停休息一下,扭扭脖子甩甩胳膊。而且,很重要的一件事是, 把實踐過程中的思考與第二個版本的腳本做一個階段交付 。

不得不提的是, 寫文章是一個提升階段交付成就感的小策略 。這也是此文的由來。當然啦,我還要順手在 trello 上給自己添加2張新卡片,等有精力時繼續(xù)實踐:

python如何統(tǒng)計英文文章詞頻? python統(tǒng)計中文詞頻的腳本處理十幾萬字的書籍時,性能如何?

在群里談及我在寫的詞頻腳本時,有位網友提出一個觀點,“不是程序員,學編程沒用”。我想,他肯定是沒有讀過李笑來的書,或者干脆讀過,只是讀成了另外一個版本吧!

如果你也在學習 python 或想要提高自學能力,歡迎來xue.cn 聊天室找我 @liujuanjuan1984 ~

def write_rlt(content,dic1,dic2):
  rlt = {}#有該結果但并沒有用上
  rlts = {}
  for i in dic1.keys():
    for j in dic2.keys():
      cix = i + j
      if cix in content:
        num = content.count(cix)
        if cix not in rlt.keys():
          rlt[cix]=num
          if num > 1:
            rlts[cix]=num
  return rlts

def cipin_1(content):
  rlt1 = {}
  rlt1s = {}
  for ci in content:
    #r"[^\u4e00-\u9fa5^a-z^A-Z^0-9]"
    atext ="""
    \ \\\\n ,.,。/一()()<>《》
    """
    if ci not in atext:
      num = content.count(ci)
      if ci not in rlt1.keys():
        rlt1[ci]=num
        if num > 1:
          rlt1s[ci]=num
  return rlt1s

def merge_dic(dic1,dic2):
  rlt = dic1.copy()
  rlt.update(dic2)
  return rlt

def cipin_x(content,dic1,dic2):
  rltsx = write_rlt(content,dic1,dic2)
  rltsy = write_rlt(content,dic2,dic1)
  rlts = merge_dic(rltsx,rltsy)
  return rlts

def sorted_dic(dic1,txt=None):
  rlt = sorted(dic1.items(),key=lambda x:x[1],reverse=True)
  print("\n--------------------\n")
  if txt==None:
    atxt = "結果共" 
  else:
    atxt = txt + "字詞共"
  print(atxt,len(rlt),"條,具體為:\n",rlt)
  return rlt


def main():
  from txt import zixue_x as content #加載想要統(tǒng)計的內容,string type
  import datetime

  print("---begin---",datetime.datetime.now())

  rlt1s = cipin_1(content)
  rlt2s = cipin_x(content,rlt1s,rlt1s)
  rlt3s = cipin_x(content,rlt1s,rlt2s)
  rlt4s = cipin_x(content,rlt1s,rlt3s)
  rlt5s = cipin_x(content,rlt1s,rlt4s)
  rlt6s = cipin_x(content,rlt1s,rlt5s)
  rlt7s = cipin_x(content,rlt1s,rlt6s)

  sorted_dic(rlt1s,"單")
  sorted_dic(rlt2s,"雙")
  sorted_dic(rlt3s,"3")
  sorted_dic(rlt4s,"4")
  sorted_dic(rlt5s,"5")
  sorted_dic(rlt6s,"6")
  sorted_dic(rlt7s,"7")

  print("---end---",datetime.datetime.now())

if __name__ == "__main__":
  main()

這篇文章的 PRESS.one 簽名: press.one/file/v?s=33…

總結

以上所述是小編給大家介紹的python寫程序統(tǒng)計詞頻的方法,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持!
如果你覺得本文對你有幫助,歡迎轉載,煩請注明出處,謝謝!

相關文章

  • Python JWT 介紹和使用詳解

    Python JWT 介紹和使用詳解

    這篇文章主要介紹了Python JWT 介紹和使用詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-05-05
  • 利用Python和OpenCV庫將URL轉換為OpenCV格式的方法

    利用Python和OpenCV庫將URL轉換為OpenCV格式的方法

    這篇文章主要介紹了利用Python和OpenCV庫將URL轉換為OpenCV格式的方法,同時用到了NumPy和urllib,需要的朋友可以參考下
    2015-03-03
  • 使用Python手工計算x的算數(shù)平方根,來自中國古人的數(shù)學智慧

    使用Python手工計算x的算數(shù)平方根,來自中國古人的數(shù)學智慧

    本篇采用的計算方法既非二分法也非牛頓迭代法,而是把中國古代的手工計算平方根的方法轉成代碼來完成。代碼有點煩雜,算是拋磚引玉吧,期待高手們寫出更好的代碼來
    2021-09-09
  • 推薦11個實用Python庫

    推薦11個實用Python庫

    這篇文章主要推薦了11個實用Python庫,都有這不錯的群眾基礎,非常好用,也都很實用,推薦給大家。
    2015-01-01
  • 簡單了解Django項目應用創(chuàng)建過程

    簡單了解Django項目應用創(chuàng)建過程

    這篇文章主要介紹了簡單了解Django項目應用創(chuàng)建過程,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-07-07
  • Python實戰(zhàn)之實現(xiàn)簡易的學生選課系統(tǒng)

    Python實戰(zhàn)之實現(xiàn)簡易的學生選課系統(tǒng)

    又到了小伙伴們最喜歡的python實戰(zhàn)環(huán)節(jié),文中對實現(xiàn)簡易的學生選課系統(tǒng)作了非常詳細的代碼示例,對正在學習python的小伙伴們有很好的幫助,需要的朋友可以參考下
    2021-05-05
  • Python與C語言分別完成排序流程

    Python與C語言分別完成排序流程

    這篇文章主要介紹了Python與C語言分別完成排序的實例,在Python與C語言基本類型的排序中特別有用,下面我們一起進入文章學習更詳細的內容吧,需要的朋友可以參考下
    2022-03-03
  • Python通過for循環(huán)理解迭代器和生成器實例詳解

    Python通過for循環(huán)理解迭代器和生成器實例詳解

    這篇文章主要介紹了Python通過for循環(huán)理解迭代器和生成器,結合實例形式詳細分析了迭代器和生成器的概念、原理、使用方法及相關操作技巧,需要的朋友可以參考下
    2019-02-02
  • Python爬蟲實現(xiàn)(偽)球迷速成

    Python爬蟲實現(xiàn)(偽)球迷速成

    還有4天就世界杯了,作為一個資深(偽)球迷,必須要實時關注世界杯相關新聞,了解各個球隊動態(tài),下面小編給大家?guī)砹薖ython爬蟲實現(xiàn)(偽)球迷速成功能,一起看看吧
    2018-06-06
  • Python中sorted()函數(shù)之排序的利器詳解

    Python中sorted()函數(shù)之排序的利器詳解

    sorted()函數(shù)是Python中的內置函數(shù),用于對可迭代對象進行排序,下面這篇文章主要給大家介紹了關于Python中sorted()函數(shù)之排序的相關資料,文中通過代碼介紹的非常詳細,需要的朋友可以參考下
    2024-08-08

最新評論