欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python讀大數據txt

 更新時間:2016年03月28日 13:55:09   投稿:hebedich  
本文通過2個例子給大家介紹了如何使用python實現讀取大文件txt的方法,有需要的小伙伴可以參考下

如果直接對大文件對象調用 read() 方法,會導致不可預測的內存占用。好的方法是利用固定長度的緩沖區(qū)來不斷讀取文件內容。即通過yield。

    在用Python讀一個兩個多G的txt文本時,天真的直接用readlines方法,結果一運行內存就崩了。

    還好同事點撥了下,用yield方法,測試了下果然毫無壓力。咎其原因,原來是readlines是把文本內容全部放于內存中,而yield則是類似于生成器。

代碼如下:

def open_txt(file_name):
  with open(file_name,'r+') as f:
    while True:
      line = f.readline()
      if not line:
        return
      yield line.strip()

調用實例:

for text in open_txt('aa.txt'):
  print text

例二:

目標 txt 文件大概有6G,想取出前面1000條數據保存于一個新的 txt 文件中做余下的操作,雖然不知道這樣做有沒有必要但還是先小數據量測試一下吧。參考這個帖子:我想把一個list列表保存到一個Txt文檔,該怎么保存 ,自己寫了一個簡單的小程序。
====================================================

import datetime
import pickle

start = datetime.datetime.now()
print "start--%s" % (start)

fileHandle = open ( 'train.txt' )
file2 = open('s_train.txt','w') 

i = 1
while ( i < 10000 ):
  a = fileHandle.readline()
  file2.write(''.join(a)) 
  i = i + 1

fileHandle.close() 
file2.close()

print "done--%s" % ( datetime.datetime.now() - start)

if __name__ == '__main__':
  pass

====================================================
pickle 這個庫大家說的很多,官網看看,后面可以好好學習一下。

相關文章

  • 使用python/pytorch讀取數據集的示例代碼

    使用python/pytorch讀取數據集的示例代碼

    這篇文章主要為大家詳細介紹了使用python/pytorch讀取數據集的示例,文中的示例代碼講解詳細,具有一定參考價值,感興趣的小伙伴可以跟隨小編一起學習一下
    2023-12-12
  • Pandas字符串操作的各種方法及速度測試

    Pandas字符串操作的各種方法及速度測試

    這篇文章主要為大家介紹了Pandas字符串操作的各種方法及速度測試,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-08-08
  • Python實現畫圖軟件功能方法詳解

    Python實現畫圖軟件功能方法詳解

    這篇文章主要介紹了 Python實現畫圖軟件功能方法詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-07-07
  • ORM Django 終端打印 SQL 語句實現解析

    ORM Django 終端打印 SQL 語句實現解析

    這篇文章主要介紹了ORM Django 終端打印 SQL 語句實現解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • 用map函數來完成Python并行任務的簡單示例

    用map函數來完成Python并行任務的簡單示例

    這篇文章主要介紹了用map函數來完成Python并行任務的簡單示例,多線程和多進程編程的問題一直都是Python中的熱點和難點,需要的朋友可以參考下
    2015-04-04
  • Python使用Gzip解壓的示例詳解

    Python使用Gzip解壓的示例詳解

    Python?中構建了許多用于壓縮和解壓縮目的的庫,本文為大家介紹的Gzip庫就是一種流行的數據壓縮工具,下面我們就來看看如何使用?gzip?解壓縮來解壓縮壓縮內容吧
    2023-11-11
  • pandas apply 函數 實現多進程的示例講解

    pandas apply 函數 實現多進程的示例講解

    下面小編就為大家分享一篇pandas apply 函數 實現多進程的示例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • python flask開發(fā)的簡單基金查詢工具

    python flask開發(fā)的簡單基金查詢工具

    基于python flask開發(fā)的簡單基金查詢工具,支持大盤指數實時情況查看,總持倉實際漲幅、預估漲幅等功能,感興趣的朋友可以下載該項目來查看使用
    2021-06-06
  • 使用python的Flask框架進行上傳和下載文件詳解

    使用python的Flask框架進行上傳和下載文件詳解

    這篇文章主要介紹了使用python的Flask框架進行上傳和下載文件詳解,Flask是一個使用Pyhton編寫的輕量級Web應用框架,工具包采用Werkzeug,模板引擎則使用Jinja2,是目前十分流行的web框架,需要的朋友可以參考下
    2023-07-07
  • python測試開發(fā)django之使用supervisord?后臺啟動celery?服務(worker/beat)

    python測試開發(fā)django之使用supervisord?后臺啟動celery?服務(worker/beat)

    Supervisor是用Python開發(fā)的一個client/server服務,是Linux/Unix系統(tǒng)下的一個進程管理工具,不支持Windows系統(tǒng),這篇文章主要介紹了python測試開發(fā)django之使用supervisord?后臺啟動celery?服務(worker/beat),需要的朋友可以參考下
    2022-07-07

最新評論