序列化Python對象的方法
問題
你需要將一個Python對象序列化為一個字節(jié)流,以便將它保存到一個文件、存儲到數(shù)據(jù)庫或者通過網(wǎng)絡(luò)傳輸它。
解決方案
對于序列化最普遍的做法就是使用 pickle
模塊。為了將一個對象保存到一個文件中,可以這樣做:
import pickle data = ... # Some Python object f = open('somefile', 'wb') pickle.dump(data, f)
為了將一個對象轉(zhuǎn)儲為一個字符串,可以使用 pickle.dumps()
:
s = pickle.dumps(data)
為了從字節(jié)流中恢復(fù)一個對象,使用 pickle.load()
或 pickle.loads()
函數(shù)。比如:
# Restore from a file f = open('somefile', 'rb') data = pickle.load(f) # Restore from a string data = pickle.loads(s)
討論
對于大多數(shù)應(yīng)用程序來講,dump()
和 load()
函數(shù)的使用就是你有效使用 pickle
模塊所需的全部了。 它可適用于絕大部分Python數(shù)據(jù)類型和用戶自定義類的對象實例。 如果你碰到某個庫可以讓你在數(shù)據(jù)庫中保存/恢復(fù)Python對象或者是通過網(wǎng)絡(luò)傳輸對象的話, 那么很有可能這個庫的底層就使用了 pickle
模塊。
pickle
是一種Python特有的自描述的數(shù)據(jù)編碼。 通過自描述,被序列化后的數(shù)據(jù)包含每個對象開始和結(jié)束以及它的類型信息。 因此,你無需擔(dān)心對象記錄的定義,它總是能工作。 舉個例子,如果要處理多個對象,你可以這樣做:
>>> import pickle >>> f = open('somedata', 'wb') >>> pickle.dump([1, 2, 3, 4], f) >>> pickle.dump('hello', f) >>> pickle.dump({'Apple', 'Pear', 'Banana'}, f) >>> f.close() >>> f = open('somedata', 'rb') >>> pickle.load(f) [1, 2, 3, 4] >>> pickle.load(f) 'hello' >>> pickle.load(f) {'Apple', 'Pear', 'Banana'} >>>
你還能序列化函數(shù),類,還有接口,但是結(jié)果數(shù)據(jù)僅僅將它們的名稱編碼成對應(yīng)的代碼對象。例如:
>>> import math >>> import pickle. >>> pickle.dumps(math.cos) b'\x80\x03cmath\ncos\nq\x00.' >>>
當(dāng)數(shù)據(jù)反序列化回來的時候,會先假定所有的源數(shù)據(jù)時可用的。 模塊、類和函數(shù)會自動按需導(dǎo)入進來。對于Python數(shù)據(jù)被不同機器上的解析器所共享的應(yīng)用程序而言, 數(shù)據(jù)的保存可能會有問題,因為所有的機器都必須訪問同一個源代碼。
注
千萬不要對不信任的數(shù)據(jù)使用pickle.load()。
pickle在加載時有一個副作用就是它會自動加載相應(yīng)模塊并構(gòu)造實例對象。
但是某個壞人如果知道pickle的工作原理,
他就可以創(chuàng)建一個惡意的數(shù)據(jù)導(dǎo)致Python執(zhí)行隨意指定的系統(tǒng)命令。
因此,一定要保證pickle只在相互之間可以認(rèn)證對方的解析器的內(nèi)部使用。
有些類型的對象是不能被序列化的。這些通常是那些依賴外部系統(tǒng)狀態(tài)的對象, 比如打開的文件,網(wǎng)絡(luò)連接,線程,進程,棧幀等等。 用戶自定義類可以通過提供 __getstate__()
和 __setstate__()
方法來繞過這些限制。 如果定義了這兩個方法,pickle.dump()
就會調(diào)用 __getstate__()
獲取序列化的對象。 類似的,__setstate__()
在反序列化時被調(diào)用。為了演示這個工作原理, 下面是一個在內(nèi)部定義了一個線程但仍然可以序列化和反序列化的類:
# countdown.py import time import threading class Countdown: def __init__(self, n): self.n = n self.thr = threading.Thread(target=self.run) self.thr.daemon = True self.thr.start() def run(self): while self.n > 0: print('T-minus', self.n) self.n -= 1 time.sleep(5) def __getstate__(self): return self.n def __setstate__(self, n): self.__init__(n)
試著運行下面的序列化試驗代碼:
>>> import countdown >>> c = countdown.Countdown(30) >>> T-minus 30 T-minus 29 T-minus 28 ... >>> # After a few moments >>> f = open('cstate.p', 'wb') >>> import pickle >>> pickle.dump(c, f) >>> f.close()
然后退出Python解析器并重啟后再試驗下:
>>> f = open('cstate.p', 'rb') >>> pickle.load(f) countdown.Countdown object at 0x10069e2d0> T-minus 19 T-minus 18 ...
你可以看到線程又奇跡般的重生了,從你第一次序列化它的地方又恢復(fù)過來。
pickle
對于大型的數(shù)據(jù)結(jié)構(gòu)比如使用 array
或 numpy
模塊創(chuàng)建的二進制數(shù)組效率并不是一個高效的編碼方式。 如果你需要移動大量的數(shù)組數(shù)據(jù),你最好是先在一個文件中將其保存為數(shù)組數(shù)據(jù)塊或使用更高級的標(biāo)準(zhǔn)編碼方式如HDF5 (需要第三方庫的支持)。
由于 pickle
是Python特有的并且附著在源碼上,所有如果需要長期存儲數(shù)據(jù)的時候不應(yīng)該選用它。 例如,如果源碼變動了,你所有的存儲數(shù)據(jù)可能會被破壞并且變得不可讀取。 坦白來講,對于在數(shù)據(jù)庫和存檔文件中存儲數(shù)據(jù)時,你最好使用更加標(biāo)準(zhǔn)的數(shù)據(jù)編碼格式如XML,CSV或JSON。 這些編碼格式更標(biāo)準(zhǔn),可以被不同的語言支持,并且也能很好的適應(yīng)源碼變更。
最后一點要注意的是 pickle
有大量的配置選項和一些棘手的問題。 對于最常見的使用場景,你不需要去擔(dān)心這個,但是如果你要在一個重要的程序中使用pickle去做序列化的話, 最好去查閱一下 官方文檔 。
以上就是序列化Python對象的方法的詳細內(nèi)容,更多關(guān)于序列化Python對象的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
pandas的drop_duplicates無法去重問題解決
在我們利用Pandas進行數(shù)據(jù)清洗的時候,往往會用到drop_duplicates()進行去重,本文主要介紹了pandas的drop_duplicates無法去重問題解決,具有一定的參考價值,感興趣的可以了解一下2024-03-03Selenium向iframe富文本框輸入內(nèi)容過程圖解
這篇文章主要介紹了Selenium向iframe富文本框輸入內(nèi)容過程圖解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-04-04Python實現(xiàn)變量數(shù)值交換及判斷數(shù)組是否含有某個元素的方法
這篇文章主要介紹了Python實現(xiàn)變量數(shù)值交換及判斷數(shù)組是否含有某個元素的方法,涉及Python字符串與數(shù)組的相關(guān)賦值、判斷操作技巧,需要的朋友可以參考下2017-09-09keras 讀取多標(biāo)簽圖像數(shù)據(jù)方式
這篇文章主要介紹了keras 讀取多標(biāo)簽圖像數(shù)據(jù)方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06Python編程實現(xiàn)雙擊更新所有已安裝python模塊的方法
這篇文章主要介紹了Python編程實現(xiàn)雙擊更新所有已安裝python模塊的方法,涉及Python針對模塊操作命令的相關(guān)封裝與調(diào)用技巧,需要的朋友可以參考下2017-06-06