Python存儲與讀寫二進制文件的示例代碼
技術背景
一般情況下我們會選擇使用明文形式來存儲數(shù)據(jù),如json、txt、csv等等。如果是需要壓縮率較高的存儲格式,還可以選擇使用hdf5或者npz等格式。還有一種比較緊湊的數(shù)據(jù)存儲格式,就是直接按照二進制格式存儲。這種格式下,存儲的數(shù)據(jù)之間沒有間隔符,在沒有壓縮的情況下應該是體積最小的存儲類型。
使用方法
在Python中,我們可以使用numpy.tofile()功能,直接將numpy數(shù)組類型存儲到一個二進制文件中。讀取的時候,雖然可以直接使用open(file_name, 'rb')來進行讀取,但是為了適配大量IO的場景,這里我們使用內(nèi)存映射mmap的形式來進行數(shù)據(jù)讀取。
完整示例
如下是一個完整的示例代碼,相關的功能直接用注釋的形式在代碼中標記:
import numpy as np import mmap import resource # 獲取頁數(shù)據(jù)量大?。▎挝唬鹤止?jié)) PAGE_SIZE = resource.getpagesize() # 定義單精度浮點數(shù)數(shù)據(jù)占用字節(jié)(單位:字節(jié)) DATA_SIZE = 4 # 計算頁存儲數(shù)據(jù)數(shù)量(num_float32) PAGE_FNUM = int(PAGE_SIZE/DATA_SIZE) print ("The PAGE_SIZE is: {}".format(PAGE_SIZE)) print ("Corresponding float32 numbers should be: {}".format(PAGE_FNUM)) # 生成示例數(shù)據(jù),使用PAGE_FNUM+4大小的數(shù)據(jù)量定義兩頁數(shù)據(jù) tmp_arr = np.arange(PAGE_FNUM+4).astype(np.float32) # 數(shù)據(jù)存儲路徑 tmp_file = '/tmp/tmp.dat' # 將數(shù)組存儲到二進制文件中 tmp_arr.tofile(tmp_file) # 每次從二進制文件中讀取4個數(shù)據(jù) READ_NUM = 4 with open(tmp_file, 'rb') as file: # 第一頁數(shù)據(jù)的內(nèi)存映射 mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=0) # 第一頁數(shù)據(jù)的1、2、3、4位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 第一頁數(shù)據(jù)的5、6、7、8位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 第二頁數(shù)據(jù)的內(nèi)存映射 mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=PAGE_SIZE) # 第二頁數(shù)據(jù)的1~4位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 第二頁數(shù)據(jù)的5~8位數(shù)據(jù) print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4')) # 關閉內(nèi)存映射 mm.close() # 退出文件IO
該腳本的輸出結(jié)果為:
The PAGE_SIZE is: 4096
Corresponding float32 numbers should be: 1024
[0. 1. 2. 3.]
[4. 5. 6. 7.]
[1024. 1025. 1026. 1027.]
[]
結(jié)果解析
我們打印的第一個數(shù)據(jù)是頁大小,這里顯示是4096個字節(jié)。而一個單精度浮點數(shù)占4個字節(jié),所以一頁存了1024個單精度浮點數(shù),也就是第二個打印輸出的結(jié)果。由于我們定義的numpy數(shù)組是一個從0開始的遞增數(shù)組,因此第一頁數(shù)據(jù)的前8位數(shù)字就是從0到7。而第二頁的數(shù)據(jù)是1024~1027一共4個浮點數(shù),占16個字節(jié)。所以我們在第二頁第二次使用numpy.frombuffer()去讀取數(shù)據(jù)的時候,得到的是一個空的數(shù)組。此外我們可以查看一下這個二進制文件的大?。?/p>
In [1]: import os In [2]: os.path.getsize('/tmp/tmp.dat') Out[2]: 4112
一共是4112個字節(jié),剛好是4096+16個字節(jié)。
總結(jié)概要
本文介紹了一種在Python中將Numpy數(shù)組轉(zhuǎn)存為一個緊湊的二進制格式的文件,及其使用內(nèi)存映射的形式進行讀取的方案。一個二進制的數(shù)據(jù)流,不僅可以更加方便頁形式的內(nèi)存映射,相比于傳統(tǒng)的Numpy單精度浮點數(shù)數(shù)組還有一個可哈希的特性。總體來說是一個對于高性能計算十分友好的存儲格式,在cudaSPONGE中作為一個分子動力學模擬軌跡輸出的格式使用。
版權(quán)聲明
本文首發(fā)鏈接為:https://www.cnblogs.com/dechinphy/p/dat.html
作者ID:DechinPhy
更多原著文章:https://www.cnblogs.com/dechinphy/
請博主喝咖啡:https://www.cnblogs.com/dechinphy/gallery/image/379634.html
到此這篇關于Python存儲與讀寫二進制文件的文章就介紹到這了,更多相關Python讀寫二進制文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python 給定的經(jīng)緯度標注在地圖上的實現(xiàn)方法
今天小編就為大家分享一篇Python 給定的經(jīng)緯度標注在地圖上的實現(xiàn)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07