快捷導(dǎo)航

Python基礎(chǔ)筆記之struct和格式化字符

更新時(shí)間：2022年02月14日 15:58:11 作者：程序那些事

strtuct模塊主要在Python中的值于C語言結(jié)構(gòu)之間的轉(zhuǎn)換,下面這篇文章主要給大家介紹了關(guān)于Python基礎(chǔ)筆記之struct和格式化字符的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

簡介

文件的存儲內(nèi)容有兩種方式，一種是二進(jìn)制，一種是文本的形式。如果是以文本的形式存儲在文件中，那么從文件中讀取的時(shí)候就會遇到一個(gè)將文本轉(zhuǎn)換為Python中數(shù)據(jù)類型的問題。實(shí)際上即使是文本的形式存儲，存儲的數(shù)據(jù)也是也是有結(jié)構(gòu)的，因?yàn)镻ython底層是用C來編寫的，這里我們也稱之為C結(jié)構(gòu)。

Lib/struct.py 就是負(fù)責(zé)進(jìn)行這種結(jié)構(gòu)轉(zhuǎn)換的模塊。

struct中的方法

先看下struct的定義：

__all__ = [
    # Functions
    'calcsize', 'pack', 'pack_into', 'unpack', 'unpack_from',
    'iter_unpack',

    # Classes
    'Struct',

    # Exceptions
    'error'
    ]

其中有6個(gè)方法，1個(gè)異常。

我們主要來看這6個(gè)方法的使用：

方法名	作用
struct.pack(format, v1, v2, ...)	返回一個(gè) bytes 對象，其中包含根據(jù)格式字符串 format 打包的值 v1, v2, ... 參數(shù)個(gè)數(shù)必須與格式字符串所要求的值完全匹配。
struct.pack_into(format, buffer, offset, v1, v2, ...)	根據(jù)格式字符串 format 打包 v1, v2, ... 并將打包的字節(jié)串從 offset 開始的位置寫入可寫緩沖區(qū) buffer 。請注意 offset 是必需的參數(shù)。
struct.unpack(format, buffer)	根據(jù)格式字符串 format 從緩沖區(qū) buffer 解包（假定是由 pack(format, ...) 打包）。返回的結(jié)果為一個(gè)元組，即使其只包含一個(gè)條目。緩沖區(qū)的字節(jié)大小必須匹配格式所要求的大小。
struct.unpack_from(format, /, buffer, offset=0)	從位置 offset 開始對 buffer 根據(jù)格式字符串 format 進(jìn)行解包。結(jié)果為一個(gè)元組，即使其中只包含一個(gè)條目。
struct.iter_unpack(format, buffer)	根據(jù)格式字符串 format 以迭代方式從緩沖區(qū) buffer 解包。此函數(shù)返回一個(gè)迭代器，它將從緩沖區(qū)讀取相同大小的塊直至其內(nèi)容全部耗盡。
struct.calcsize(format)	返回與格式字符串 format 相對應(yīng)的結(jié)構(gòu)的大小（亦即 pack(format, ...) 所產(chǎn)生的字節(jié)串對象的大?。?。

這些方法主要就是打包和解包的操作，其中一個(gè)非常重要的參數(shù)就是format，也被成為格式字符串，它指定了每個(gè)字符串被打包的格式。

格式字符串

格式字符串是用來在打包和解包數(shù)據(jù)時(shí)指定數(shù)據(jù)格式的機(jī)制。它們使用指定被打包/解包數(shù)據(jù)類型的格式字符進(jìn)行構(gòu)建。此外，還有一些特殊字符用來控制字節(jié)順序，大小和對齊方式。

字節(jié)順序，大小和對齊方式

默認(rèn)情況下，C類型以機(jī)器的本機(jī)格式和字節(jié)順序表示，并在必要時(shí)通過填充字節(jié)進(jìn)行正確對齊（根據(jù)C編譯器使用的規(guī)則）。

我們也可以手動(dòng)指定格式字符串的字節(jié)順序，大小和對齊方式：

字符	字節(jié)順序	大小	對齊方式
@	按原字節(jié)	按原字節(jié)	按原字節(jié)
=	按原字節(jié)	標(biāo)準(zhǔn)	無
<	小端	標(biāo)準(zhǔn)	無
>	大端	標(biāo)準(zhǔn)	無
!	網(wǎng)絡(luò)（=大端）	標(biāo)準(zhǔn)	無

大端和小端是兩種數(shù)據(jù)存儲方式。

第一種Big Endian將高位的字節(jié)存儲在起始地址

第二種Little Endian將地位的字節(jié)存儲在起始地址

其實(shí)Big Endian更加符合人類的讀寫習(xí)慣，而Little Endian更加符合機(jī)器的讀寫習(xí)慣。

目前主流的兩大CPU陣營中，PowerPC系列采用big endian方式存儲數(shù)據(jù)，而x86系列則采用little endian方式存儲數(shù)據(jù)。

如果不同的CPU架構(gòu)直接進(jìn)行通信，就由可能因?yàn)樽x取順序的不同而產(chǎn)生問題。

填充只會在連續(xù)結(jié)構(gòu)成員之間自動(dòng)添加。填充不會添加到已編碼結(jié)構(gòu)的開頭和末尾。

當(dāng)使用非原字節(jié)大小和對齊方式即 '<', '>', '=', and '!' 時(shí)不會添加任何填充。

格式字符

我們來看下字符都有哪些格式：

格式	C 類型	Python 類型	標(biāo)準(zhǔn)大小（字節(jié)）
x	填充字節(jié)	無
c	char	長度為 1 的字節(jié)串	1
b	signed char	整數(shù)	1
B	unsigned char	整數(shù)	1
?	_Bool	bool	1
h	short	整數(shù)	2
H	unsigned short	整數(shù)	2
i	int	整數(shù)	4
I	unsigned int	整數(shù)	4
l	long	整數(shù)	4
L	unsigned long	整數(shù)	4
q	long long	整數(shù)	8
Q	unsigned long long	整數(shù)	8
n	ssize_t	整數(shù)
N	size_t	整數(shù)
e	(6)	浮點(diǎn)數(shù)	2
f	float	浮點(diǎn)數(shù)	4
d	double	浮點(diǎn)數(shù)	8
s	char[]	字節(jié)串
p	char[]	字節(jié)串
P	void *	整數(shù)

格式數(shù)字

舉個(gè)例子，比如我們要打包一個(gè)int對象，我們可以這樣寫：

In [101]: from struct import *

In [102]: pack('i',10)
Out[102]: b'\n\x00\x00\x00'

In [103]: unpack('i',b'\n\x00\x00\x00')
Out[103]: (10,)
  
In [105]: calcsize('i')
Out[105]: 4

上面的例子中，我們打包了一個(gè)int對象10，然后又對其解包。并且計(jì)算了 i 這個(gè)格式的長度為4字節(jié)。

大家可以看到輸出結(jié)果是 b'\n\x00\x00\x00' ，這里不去深究這個(gè)輸出到底是什么意思，開頭的b表示的是byte，后面是byte的編碼。

格式字符之前可以帶有整數(shù)重復(fù)計(jì)數(shù)。例如，格式字符串 '4h' 的含義與 'hhhh' 完全相同。

看下如何打包4個(gè)short類型：

In [106]: pack('4h',2,3,4,5)
Out[106]: b'\x02\x00\x03\x00\x04\x00\x05\x00'

In [107]: unpack('4h',b'\x02\x00\x03\x00\x04\x00\x05\x00')
Out[107]: (2, 3, 4, 5)

格式之間的空白字符會被忽略，但如果是struct.calcsize 方法的話格式字符中不可有空白字符。

當(dāng)使用某一種整數(shù)格式 ('b', 'B', 'h', 'H', 'i', 'I', 'l', 'L', 'q', 'Q') 打包值 x 時(shí)，如果 x 在該格式的有效范圍之外則將引發(fā) struct.error。

格式字符

除了數(shù)字之外，最常用的就是字符和字符串了。

我們先看下怎么使用格式字符，因?yàn)樽址拈L度是1個(gè)字節(jié)，我們需要這樣做：

In [109]: pack('4c',b'a',b'b',b'c',b'd')
Out[109]: b'abcd'

In [110]: unpack('4c',b'abcd')
Out[110]: (b'a', b'b', b'c', b'd')

In [111]: calcsize('4c')
Out[111]: 4

字符前面的b，表示這是一個(gè)字符，否則將會被當(dāng)做字符串。

格式字符串

再看下字符串的格式：

In [114]: pack('4s',b'abcd')
Out[114]: b'abcd'

In [115]: unpack('4s',b'abcd')
Out[115]: (b'abcd',)

In [116]: calcsize('4s')
Out[116]: 4

In [117]: calcsize('s')
Out[117]: 1

可以看到對于字符串來說calcsize返回的是字節(jié)的長度。

填充的影響

格式字符的順序可能對大小產(chǎn)生影響，因?yàn)闈M足對齊要求所需的填充是不同的:

>>> pack('ci', b'*', 0x12131415)
b'*\x00\x00\x00\x12\x13\x14\x15'
>>> pack('ic', 0x12131415, b'*')
b'\x12\x13\x14\x15*'
>>> calcsize('ci')
8
>>> calcsize('ic')
5

下面的例子我們將會展示如何手動(dòng)影響填充效果：

In [120]: pack('llh',1, 2, 3)
Out[120]: b'\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\x03\x00'

上面的例子中，我們打包1，2，3這三個(gè)數(shù)字，但是格式不一樣，分別是long，long，short。

因?yàn)閘ong是4個(gè)字節(jié)，short是2個(gè)字節(jié)，所以本質(zhì)上是不對齊的。

如果想要對齊，我們可以在后面再加上 0l 表示0個(gè)long，從而進(jìn)行手動(dòng)填充：

In [118]: pack('llh0l', 1, 2, 3)
Out[118]: b'\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00'

In [122]: unpack('llh0l',b'\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00')
Out[122]: (1, 2, 3)

復(fù)雜應(yīng)用

最后看一個(gè)復(fù)雜點(diǎn)的應(yīng)用，這個(gè)應(yīng)用中直接從unpack出來的數(shù)據(jù)讀取到元組中：

>>> record = b'raymond   \x32\x12\x08\x01\x08'
>>> name, serialnum, school, gradelevel = unpack('<10sHHb', record)

>>> from collections import namedtuple
>>> Student = namedtuple('Student', 'name serialnum school gradelevel')
>>> Student._make(unpack('<10sHHb', record))
Student(name=b'raymond   ', serialnum=4658, school=264, gradelevel=8)

總結(jié)

到此這篇關(guān)于Python基礎(chǔ)筆記之struct和格式化字符的文章就介紹到這了,更多相關(guān)Python struct和格式化字符內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python基礎(chǔ)筆記之struct和格式化字符

目錄

簡介

struct中的方法

格式字符串

字節(jié)順序，大小和對齊方式

格式字符

格式數(shù)字

格式字符

格式字符串

填充的影響

復(fù)雜應(yīng)用

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python基礎(chǔ)筆記之struct和格式化字符

目錄

簡介

struct中的方法

格式字符串

字節(jié)順序，大小和對齊方式

格式字符

格式數(shù)字

格式字符

格式字符串

填充的影響

復(fù)雜應(yīng)用

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

字節(jié)順序，大小和對齊方式