Python 循環(huán)讀取數(shù)據(jù)內(nèi)存不足的解決方案
看代碼吧~
import gc for x in list(locals().keys())[:]: del locals()[x] # del all_s_x, AE, AE_split, x_ticks, split gc.collect()
補(bǔ)充:Python讀取大文件的"坑“與內(nèi)存占用檢測(cè)
python讀寫文件的api都很簡(jiǎn)單,一不留神就容易踩”坑“。筆者記錄一次踩坑歷程,并且給了一些總結(jié),希望到大家在使用python的過程之中,能夠避免一些可能產(chǎn)生隱患的代碼。
1.read()與readlines():
隨手搜索python讀寫文件的教程,很經(jīng)??吹絩ead()與readlines()這對(duì)函數(shù)。所以我們會(huì)常??吹饺缦麓a:
with open(file_path, 'rb') as f: sha1Obj.update(f.read())
or
with open(file_path, 'rb') as f: for line in f.readlines(): print(line)
這對(duì)方法在讀取小文件時(shí)確實(shí)不會(huì)產(chǎn)生什么異常,但是一旦讀取大文件,很容易會(huì)產(chǎn)生MemoryError,也就是內(nèi)存溢出的問題。
Why Memory Error?
我們首先來看看這兩個(gè)方法:
當(dāng)默認(rèn)參數(shù)size=-1時(shí),read方法會(huì)讀取直到EOF,當(dāng)文件大小大于可用內(nèi)存時(shí),自然會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。
同樣的,readlines會(huì)構(gòu)造一個(gè)list。list而不是iter,所以所有的內(nèi)容都會(huì)保存在內(nèi)存之上,同樣也會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。
2.正確的用法:
在實(shí)際運(yùn)行的系統(tǒng)之中如果寫出上述代碼是十分危險(xiǎn)的,這種”坑“十分隱蔽。所以接下來我們來了解一下正確用,正確的用法也很簡(jiǎn)單,依照API之中對(duì)函數(shù)的描述來進(jìn)行對(duì)應(yīng)的編碼就OK了:
如果是二進(jìn)制文件推薦用如下這種寫法,可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大,讀取速度越快。
with open(file_path, 'rb') as f: while True: buf = f.read(1024) if buf: sha1Obj.update(buf) else: break
而如果是文本文件,則可以用readline方法或直接迭代文件(python這里封裝了一個(gè)語(yǔ)法糖,二者的內(nèi)生邏輯一致,不過顯然迭代文件的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡(jiǎn)單測(cè)試了一下,在3G文件之下,大概性能和前者差了20%.
with open(file_path, 'rb') as f: while True: line = f.readline() if buf: print(line) else: break with open(file_path, 'rb') as f: for line in f: print(line)
3.內(nèi)存檢測(cè)工具的介紹:
對(duì)于python代碼的內(nèi)存占用問題,對(duì)于代碼進(jìn)行內(nèi)存監(jiān)控十分必要。這里筆者這里推薦兩個(gè)小工具來檢測(cè)python代碼的內(nèi)存占用。
memory_profiler
首先先用pip安裝memory_profiler
pip install memory_profiler
memory_profiler是利用python的裝飾器工作的,所以我們需要在進(jìn)行測(cè)試的函數(shù)上添加裝飾器。
from hashlib import sha1 import sys @profile def my_func(): sha1Obj = sha1() with open(sys.argv[1], 'rb') as f: while True: buf = f.read(10 * 1024 * 1024) if buf: sha1Obj.update(buf) else: break print(sha1Obj.hexdigest()) if __name__ == '__main__': my_func()
之后在運(yùn)行代碼時(shí)加上** -m memory_profiler**
就可以了解函數(shù)每一步代碼的內(nèi)存占用了
guppy
依樣畫葫蘆,仍然是通過pip先安裝guppy
pip install guppy
之后可以在代碼之中利用guppy直接打印出對(duì)應(yīng)各種python類型(list、tuple、dict等)分別創(chuàng)建了多少對(duì)象,占用了多少內(nèi)存。
from guppy import hpy import sys def my_func(): mem = hpy() with open(sys.argv[1], 'rb') as f: while True: buf = f.read(10 * 1024 * 1024) if buf: print(mem.heap()) else: break
如下圖所示,可以看到打印出對(duì)應(yīng)的內(nèi)存占用數(shù)據(jù):
通過上述兩種工具guppy與memory_profiler可以很好地來監(jiān)控python代碼運(yùn)行時(shí)的內(nèi)存占用問題。
4.小結(jié):
python是一門崇尚簡(jiǎn)潔的語(yǔ)言,但是正是因?yàn)樗暮?jiǎn)潔反而更多了許多需要仔細(xì)推敲和思考的細(xì)節(jié)。希望大家在日常工作與學(xué)習(xí)之中也能多對(duì)一些細(xì)節(jié)進(jìn)行總結(jié),少踩一些不必要的“坑”。
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- Python數(shù)據(jù)結(jié)構(gòu)之循環(huán)鏈表詳解
- python 使用xlsxwriter循環(huán)向excel中插入數(shù)據(jù)和圖片的操作
- Python 使用xlwt模塊將多行多列數(shù)據(jù)循環(huán)寫入excel文檔的操作
- Python matplotlib讀取excel數(shù)據(jù)并用for循環(huán)畫多個(gè)子圖subplot操作
- python 循環(huán)數(shù)據(jù)賦值實(shí)例
- Python中l(wèi)ist循環(huán)遍歷刪除數(shù)據(jù)的正確方法
- Python中循環(huán)后使用list.append()數(shù)據(jù)被覆蓋問題的解決
- python循環(huán)某一特定列的所有行數(shù)據(jù)(方法示例)
相關(guān)文章
Python collections.defaultdict模塊用法詳解
這篇文章主要介紹了Python collections.defaultdict模塊用法詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06詳解appium+python 啟動(dòng)一個(gè)app步驟
這篇文章主要介紹了詳解appium+python 啟動(dòng)一個(gè)app步驟,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-12-12Python實(shí)現(xiàn)對(duì)字符串中字符提取校驗(yàn)
眾所周知,python之所以很方便在一定程度上是因?yàn)殡S時(shí)都可能有人又創(chuàng)作了一個(gè)好用又方便的python非標(biāo)準(zhǔn)庫(kù)。本文就來用Python實(shí)現(xiàn)對(duì)字符串中字符進(jìn)行提取校驗(yàn),需要的可以參考一下2022-10-10python中dict獲取關(guān)鍵字與值的實(shí)現(xiàn)
這篇文章主要介紹了python中dict獲取關(guān)鍵字與值的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-05-05用python畫個(gè)奧運(yùn)五環(huán)(附完整代碼)
大家好,本篇文章主要講的是用python畫個(gè)奧運(yùn)五環(huán)(附完整代碼),感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下2022-01-01python如何使用雙線性插值計(jì)算網(wǎng)格內(nèi)數(shù)據(jù)
這篇文章主要介紹了python如何使用雙線性插值計(jì)算網(wǎng)格內(nèi)數(shù)據(jù)問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08Python中實(shí)現(xiàn)最小二乘法思路及實(shí)現(xiàn)代碼
這篇文章主要介紹了Python中實(shí)現(xiàn)最小二乘法思路及實(shí)現(xiàn)代碼,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-012020新版本pycharm+anaconda+opencv+pyqt環(huán)境配置學(xué)習(xí)筆記,親測(cè)可用
這篇文章主要介紹了2020新版本pycharm+anaconda+opencv+pyqt環(huán)境配置學(xué)習(xí)筆記,親測(cè)可用,特此分享到腳本之家平臺(tái),需要的朋友可以參考下2020-03-03