欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用Python中的內(nèi)置open函數(shù)讀取二進(jìn)制文件

 更新時間:2022年05月30日 11:36:18   作者:??Python編程學(xué)習(xí)圈????  
這篇文章主要介紹了利用Python實現(xiàn)讀取二進(jìn)制文件,文章嘗試使用Python中的內(nèi)置open函數(shù)使用默認(rèn)讀取模式讀取zip文件,下文詳細(xì)介紹,需要的小伙伴可以參考一下

在python中讀取一個文本文件相信大家都比較熟悉了,但如果我們遇到一個二進(jìn)制文件要讀取怎么辦呢?我們嘗試使用 Python 中的內(nèi)置 open 函數(shù)使用默認(rèn)讀取模式讀取 zip 文件,抱歉,我們將收到錯誤消息:

>>> with open("exercises.zip") as zip_file:
...     contents = zip_file.read()
...
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
  File "/usr/lib/python3.10/codecs.py", line 322, in de
code
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 11: invalid sta
rt byte

我們收到一個錯誤,是因為 zip 文件不是文本文件,它們是二進(jìn)制文件。

要從二進(jìn)制文件中讀取,我們需要使用模式 rb 而不是默認(rèn)模式 rt 打開它:

>>> with open("exercises.zip", mode="rb") as zip_file:
...     contents = zip_file.read()

當(dāng)從二進(jìn)制文件中讀取時,我們不會得到字符串。將返回一個字節(jié)對象,也稱為字節(jié)字符串:

>>> with open("exercises.zip", mode="rb") as zip_file:
...     contents = zip_file.read()
...
>>> type(contents)
<class 'bytes'>
>>> contents[:20]
b'PK\x03\x04\n\x00\x00\x00\x00\x00Y\x8e\x84T\x00\x00\x00\x00\x00\x00'

字節(jié)字符串中沒有字符:它們中有字節(jié)。

除非我們理解它們的含義,否則文件中的字節(jié)對我們沒有多大幫助。

使用庫來讀取二進(jìn)制文件

處理二進(jìn)制文件時,你通常會使用和知道如何處理正在使用的特定類型文件的庫(內(nèi)置 Python 庫或第三方庫)。該庫將完成將文件中的字節(jié)解碼為更易于使用的工作。

例如,Python 的 ZipFile 模塊可以幫助我們讀取 zip 文件中的數(shù)據(jù):

>>> from zipfile import ZipFile
>>>
>>> with ZipFile("exercises.zip") as zip_file:
...     test_file = zip_file.read("exercises/test.py").decode("utf-8")
...
>>> test_file[:30]
'#!/usr/bin/env python3\nfrom __'

如果有人已經(jīng)完成了這項工作,最好避免實現(xiàn)自己的字節(jié)檢查或字節(jié)操作邏輯。

在 Python 中以字節(jié)級別工作

有時你會使用或被要求直接在字節(jié)級別工作的庫或 API。在這種情況下,你需要至少需要對二進(jìn)制文件和字節(jié)字符串有一點了解。

例如,假設(shè)我們要計算給定文件的 sha256 校驗和。

在這里,我們有一個名為 get_sha256_hash 的函數(shù)來執(zhí)行此操作:

import hashlib
def get_sha256_hash(filename):
    with open(filename, mode="rb") as f:
        return hashlib.sha256(f.read()).hexdigest()

此函數(shù)讀取此文件中的所有二進(jìn)制數(shù)據(jù)。我們正在讀取字節(jié),因為 Python 的 hashlib 模塊要求我們使用字節(jié)。hashlib 模塊在底層工作:它使用字節(jié)而不是字符串。

因此,我們傳入文件中的所有字節(jié)以獲取哈希對象,然后對該哈希對象調(diào)用 hexdigest 方法以獲取表示該文件的 SHA-256 校驗和的十六進(jìn)制字符串:

>>> get_sha256_hash("exercises.zip")
'9e98242a21760945ec815668fc79d8621fa15dd23659ea29be2c5949153fe96d'

此功能運行良好,但使用此功能讀取非常大的文件可能會出現(xiàn)問題。

分塊讀取二進(jìn)制文件

我們的 get_sha256_hash 函數(shù)一次將整個文件讀入內(nèi)存。一個非常大的文件可能會占用大量內(nèi)存。

對于文本文件,解決此問題的常用方法是逐行讀取文件。但是二進(jìn)制文件不一定有行!但是,我們可以嘗試逐塊讀取。

首先,我們將從文件中讀取一個 8 KB 的塊:

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        chunk = f.read(buffer_size)

我們首先創(chuàng)建一個新的哈希對象,然后讀取一個 8 KB 的塊(通過將字節(jié)數(shù)傳遞給我們的文件對象的 read 方法)。

現(xiàn)在我們需要文件的其余部分。所以我們將循環(huán):

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        chunk = f.read(buffer_size)
        while chunk:
            file_hash.update(chunk)
            chunk = f.read(buffer_size)
    return file_hash.hexdigest()

我們重復(fù)讀取一個塊,更新我們的哈希對象,然后讀取另一個塊。

只要我們不在文件的末尾,我們就會在讀取時返回一個真實的塊。

但是當(dāng)我們在文件的最后讀取時,我們會得到一個空字節(jié)字符串??兆止?jié)字符串(如空字符串)是錯誤的,因此在文件末尾我們將跳出循環(huán)。然后我們將像以前一樣返回十六進(jìn)制摘要。

>>> get_sha256_hash("exercises.zip")
'9e98242a21760945ec815668fc79d8621fa15dd23659ea29be2c5949153fe96d'

但是,我們現(xiàn)在不是將整個文件讀入內(nèi)存,而是逐塊讀取文件。

使用賦值表達(dá)式

在逐塊讀取文件時,通常會看到使用的賦值表達(dá)式(通過 Python 的海象運算符):

import hashlib
def get_sha256_hash(filename, buffer_size=2**10*8):
    file_hash = hashlib.sha256()
    with open(filename, mode="rb") as f:
        while chunk := f.read(buffer_size):
            file_hash.update(chunk)
    return file_hash.hexdigest()

在 while 循環(huán)中重復(fù)讀取數(shù)據(jù)是賦值表達(dá)式的一個很好的用例。它可能看起來有點奇怪,但它確實為我們節(jié)省了幾行代碼。

注意:海象運算符是在 Python 3.8 中添加的。

最后總結(jié)下,當(dāng)你在 Python 中讀取二進(jìn)制文件時,你會得到字節(jié),當(dāng)你讀取一個大型二進(jìn)制文件時,你需要逐塊讀取它,當(dāng)然如果可以最好避免自己讀取二進(jìn)制文件,有第三方庫可以使用第三方庫來處理。

相關(guān)文章

  • python-序列解包(對可迭代元素的快速取值方法)

    python-序列解包(對可迭代元素的快速取值方法)

    今天小編就為大家分享一篇python-序列解包(對可迭代元素的快速取值方法),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08
  • Python技法-序列拆分詳解

    Python技法-序列拆分詳解

    Python中的任何序列(可迭代的對象)都可以通過賦值操作進(jìn)行拆分,包括但不限于元組、列表、字符串、文件、迭代器、生成器等。
    2021-10-10
  • 使用python繪制地圖的示例代碼

    使用python繪制地圖的示例代碼

    要在Python中繪制地圖,你可以使用各種庫和工具包,其中最常用的是matplotlib和folium,本文就來給大家介紹一下如何使用python繪制地圖,文章通過代碼示例介紹的非常詳細(xì),需要的朋友可以參考下
    2023-08-08
  • 如何使用Python多線程測試并發(fā)漏洞

    如何使用Python多線程測試并發(fā)漏洞

    這篇文章主要介紹了如何使用Python多線程測試并發(fā)漏洞,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-12-12
  • python3 pathlib庫Path類方法總結(jié)

    python3 pathlib庫Path類方法總結(jié)

    這篇文章主要介紹了python3 pathlib庫Path類方法總結(jié),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-12-12
  • Python time.time()方法

    Python time.time()方法

    這篇文章主要介紹了詳解Python中time.time()方法的使用的教程,是Python入門學(xué)習(xí)中的基礎(chǔ)知識,需要的朋友可以參考下,希望能給你帶來幫助
    2021-08-08
  • python通過Seq2Seq實現(xiàn)閑聊機(jī)器人

    python通過Seq2Seq實現(xiàn)閑聊機(jī)器人

    這篇文章主要介紹了python通過Seq2Seq實現(xiàn)閑聊機(jī)器人,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好的幫助,需要的朋友可以參考下
    2021-04-04
  • python多線程死鎖現(xiàn)象及解決方法

    python多線程死鎖現(xiàn)象及解決方法

    這篇文章主要為大家介紹了python多線程死鎖現(xiàn)象與解決方法示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-07-07
  • Python批量查詢關(guān)鍵詞微信指數(shù)實例方法

    Python批量查詢關(guān)鍵詞微信指數(shù)實例方法

    在本篇文章中小編給大家整理的是關(guān)于Python批量查詢關(guān)鍵詞微信指數(shù)實例方法以及相關(guān)代碼,需要的朋友們可以跟著學(xué)習(xí)下。
    2019-06-06
  • Python與HTTP服務(wù)交互的三種方式

    Python與HTTP服務(wù)交互的三種方式

    本文主要介紹了Python與HTTP服務(wù)交互的三種方式,通過http.client,requests,RissionPage,具有一定的參考價值,感興趣的可以了解一下
    2024-03-03

最新評論