欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python存儲與讀寫二進制文件的示例代碼

 更新時間:2024年09月10日 09:30:02   作者:DECHIN  
本文介紹了如何在Python中使用Numpy將數(shù)組轉(zhuǎn)存為二進制文件,并通過內(nèi)存映射的方式讀取,提供了一個高效處理大量數(shù)據(jù)的方法,示例代碼展示了完整的存儲和讀取過程,解釋了頁大小和數(shù)據(jù)存儲的關系,適用于需要高性能計算和數(shù)據(jù)壓縮的場景,感興趣的朋友跟隨小編一起看看吧

技術背景

一般情況下我們會選擇使用明文形式來存儲數(shù)據(jù),如json、txt、csv等等。如果是需要壓縮率較高的存儲格式,還可以選擇使用hdf5或者npz等格式。還有一種比較緊湊的數(shù)據(jù)存儲格式,就是直接按照二進制格式存儲。這種格式下,存儲的數(shù)據(jù)之間沒有間隔符,在沒有壓縮的情況下應該是體積最小的存儲類型。

使用方法

在Python中,我們可以使用numpy.tofile()功能,直接將numpy數(shù)組類型存儲到一個二進制文件中。讀取的時候,雖然可以直接使用open(file_name, 'rb')來進行讀取,但是為了適配大量IO的場景,這里我們使用內(nèi)存映射mmap的形式來進行數(shù)據(jù)讀取。

完整示例

如下是一個完整的示例代碼,相關的功能直接用注釋的形式在代碼中標記:

import numpy as np
import mmap
import resource
# 獲取頁數(shù)據(jù)量大?。▎挝唬鹤止?jié))
PAGE_SIZE = resource.getpagesize()
# 定義單精度浮點數(shù)數(shù)據(jù)占用字節(jié)(單位:字節(jié))
DATA_SIZE = 4
# 計算頁存儲數(shù)據(jù)數(shù)量(num_float32)
PAGE_FNUM = int(PAGE_SIZE/DATA_SIZE)
print ("The PAGE_SIZE is: {}".format(PAGE_SIZE))
print ("Corresponding float32 numbers should be: {}".format(PAGE_FNUM))
# 生成示例數(shù)據(jù),使用PAGE_FNUM+4大小的數(shù)據(jù)量定義兩頁數(shù)據(jù)
tmp_arr = np.arange(PAGE_FNUM+4).astype(np.float32)
# 數(shù)據(jù)存儲路徑
tmp_file = '/tmp/tmp.dat'
# 將數(shù)組存儲到二進制文件中
tmp_arr.tofile(tmp_file)
# 每次從二進制文件中讀取4個數(shù)據(jù)
READ_NUM = 4
with open(tmp_file, 'rb') as file:
    # 第一頁數(shù)據(jù)的內(nèi)存映射
    mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=0)
    # 第一頁數(shù)據(jù)的1、2、3、4位數(shù)據(jù)
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 第一頁數(shù)據(jù)的5、6、7、8位數(shù)據(jù)
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 第二頁數(shù)據(jù)的內(nèi)存映射
    mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=PAGE_SIZE)
    # 第二頁數(shù)據(jù)的1~4位數(shù)據(jù)
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 第二頁數(shù)據(jù)的5~8位數(shù)據(jù)
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 關閉內(nèi)存映射
    mm.close()
# 退出文件IO

該腳本的輸出結(jié)果為:

The PAGE_SIZE is: 4096
Corresponding float32 numbers should be: 1024
[0. 1. 2. 3.]
[4. 5. 6. 7.]
[1024. 1025. 1026. 1027.]
[]

結(jié)果解析

我們打印的第一個數(shù)據(jù)是頁大小,這里顯示是4096個字節(jié)。而一個單精度浮點數(shù)占4個字節(jié),所以一頁存了1024個單精度浮點數(shù),也就是第二個打印輸出的結(jié)果。由于我們定義的numpy數(shù)組是一個從0開始的遞增數(shù)組,因此第一頁數(shù)據(jù)的前8位數(shù)字就是從0到7。而第二頁的數(shù)據(jù)是1024~1027一共4個浮點數(shù),占16個字節(jié)。所以我們在第二頁第二次使用numpy.frombuffer()去讀取數(shù)據(jù)的時候,得到的是一個空的數(shù)組。此外我們可以查看一下這個二進制文件的大?。?/p>

In [1]: import os
In [2]: os.path.getsize('/tmp/tmp.dat')
Out[2]: 4112

一共是4112個字節(jié),剛好是4096+16個字節(jié)。

總結(jié)概要

本文介紹了一種在Python中將Numpy數(shù)組轉(zhuǎn)存為一個緊湊的二進制格式的文件,及其使用內(nèi)存映射的形式進行讀取的方案。一個二進制的數(shù)據(jù)流,不僅可以更加方便頁形式的內(nèi)存映射,相比于傳統(tǒng)的Numpy單精度浮點數(shù)數(shù)組還有一個可哈希的特性。總體來說是一個對于高性能計算十分友好的存儲格式,在cudaSPONGE中作為一個分子動力學模擬軌跡輸出的格式使用。

版權(quán)聲明

本文首發(fā)鏈接為:https://www.cnblogs.com/dechinphy/p/dat.html

作者ID:DechinPhy

更多原著文章:https://www.cnblogs.com/dechinphy/

請博主喝咖啡:https://www.cnblogs.com/dechinphy/gallery/image/379634.html

到此這篇關于Python存儲與讀寫二進制文件的文章就介紹到這了,更多相關Python讀寫二進制文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python簡單實現(xiàn)圖片文字分割

    python簡單實現(xiàn)圖片文字分割

    這篇文章主要為大家詳細介紹了python簡單實現(xiàn)圖片文字分割,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-09-09
  • Python hashlib模塊的使用示例

    Python hashlib模塊的使用示例

    這篇文章主要介紹了Python hashlib模塊的相關資料,幫助大家更好的理解和學習python,感興趣的朋友可以了解下
    2020-10-10
  • python 實現(xiàn)目錄復制的三種小結(jié)

    python 實現(xiàn)目錄復制的三種小結(jié)

    今天小編就為大家分享一篇python 實現(xiàn)目錄復制的三種小結(jié),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • python mysql斷開重連的實現(xiàn)方法

    python mysql斷開重連的實現(xiàn)方法

    這篇文章主要介紹了python mysql斷開重連的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-07-07
  • Matlab常用的輸出命令disp與fprintf解讀

    Matlab常用的輸出命令disp與fprintf解讀

    這篇文章主要介紹了Matlab常用的輸出命令disp與fprintf解讀,具有很好的參考價值,希望對大家有所幫助。
    2022-12-12
  • Python 給定的經(jīng)緯度標注在地圖上的實現(xiàn)方法

    Python 給定的經(jīng)緯度標注在地圖上的實現(xiàn)方法

    今天小編就為大家分享一篇Python 給定的經(jīng)緯度標注在地圖上的實現(xiàn)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • Python?hashlib模塊詳細講解使用方法

    Python?hashlib模塊詳細講解使用方法

    hashlib?是一個提供了一些流行的hash算法的?Python?標準庫.其中所包括的算法有?md5,?sha1,?sha224,?sha256,?sha384,?sha512.?另外,模塊中所定義的?new(name,?string=”)?方法可通過指定系統(tǒng)所支持的hash算法來構(gòu)造相應的hash對象
    2022-11-11
  • Python實現(xiàn)獲取某天是某個月中的第幾周

    Python實現(xiàn)獲取某天是某個月中的第幾周

    這篇文章主要介紹了Python實現(xiàn)獲取某天是某個月中的第幾周,本文代碼實現(xiàn)獲取指定的某天是某個月中的第幾周、周一作為一周的開始,需要的朋友可以參考下
    2015-02-02
  • Python使用Selenium進行Web自動化測試

    Python使用Selenium進行Web自動化測試

    Selenium 是一個用于 Web 應用自動化測試的強大工具,可以用來模擬用戶操作瀏覽器,從而測試 Web 應用的功能,它支持多種瀏覽器和編程語言,包括 Python,下面我們將介紹如何使用 Selenium 進行 Web 自動化測試,需要的朋友可以參考下
    2024-08-08
  • 深入理解python虛擬機生成器停止背后原理

    深入理解python虛擬機生成器停止背后原理

    這篇文章主要介紹了python虛擬機生成器停止背后原理深入詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-10-10

最新評論