快捷導航

Python中的數(shù)據(jù)對象持久化存儲模塊pickle的使用示例

更新時間：2016年03月03日 14:19:10 作者：oldj

這篇文章主要介紹了Python中的數(shù)據(jù)對象持久化存儲模塊pickle的使用示例,重點講解了pickle中模塊中對象持久化和文件讀取的相關(guān)方法,需要的朋友可以參考下

Python中可以使用 pickle 模塊將對象轉(zhuǎn)化為文件保存在磁盤上，在需要的時候再讀取并還原。具體用法如下：
pickle是Python庫中常用的序列化工具，可以將內(nèi)存對象以文本或二進制格式導出為字符串，或者寫入文檔。后續(xù)可以從字符或文檔中還原為內(nèi)存對象。新版本的Python中用c重新實現(xiàn)了一遍，叫cPickle，性能更高。下面的代碼演示了pickle庫的常用接口用法，非常簡單：

import cPickle as pickle

# dumps and loads
# 將內(nèi)存對象dump為字符串，或者將字符串load為內(nèi)存對象
def test_dumps_and_loads():
  t = {'name': ['v1', 'v2']}
  print t

  o = pickle.dumps(t)
  print o
  print 'len o: ', len(o)

  p = pickle.loads(o)
  print p

 

# 關(guān)于HIGHEST_PROTOCOL參數(shù)，pickle 支持3種protocol，0、1、2：
# http://stackoverflow.com/questions/23582489/python-pickle-protocol-choice
# 0：ASCII protocol，兼容舊版本的Python
# 1：binary format，兼容舊版本的Python
# 2：binary format，Python2.3 之后才有，更好的支持new-sytle class
def test_dumps_and_loads_HIGHEST_PROTOCOL():
  print 'HIGHEST_PROTOCOL: ', pickle.HIGHEST_PROTOCOL

  t = {'name': ['v1', 'v2']}
  print t

  o = pickle.dumps(t, pickle.HIGHEST_PROTOCOL)
  print 'len o: ', len(o)

  p = pickle.loads(o)
  print p


# new-style class
def test_new_sytle_class():
  class TT(object):
    def __init__(self, arg, **kwargs):
      super(TT, self).__init__()
      self.arg = arg
      self.kwargs = kwargs

    def test(self):
      print self.arg
      print self.kwargs

  # ASCII protocol
  t = TT('test', a=1, b=2)
  o1 = pickle.dumps(t)
  print o1
  print 'o1 len: ', len(o1)
  p = pickle.loads(o1)
  p.test()

  # HIGHEST_PROTOCOL對new-style class支持更好，性能更高
  o2 = pickle.dumps(t, pickle.HIGHEST_PROTOCOL)
  print 'o2 len: ', len(o2)
  p = pickle.loads(o2)
  p.test()


# dump and load
# 將內(nèi)存對象序列化后直接dump到文件或支持文件接口的對象中
# 對于dump，需要支持write接口，接受一個字符串作為輸入?yún)?shù)，比如：StringIO
# 對于load，需要支持read接口，接受int輸入?yún)?shù)，同時支持readline接口，無輸入?yún)?shù)，比如StringIO

# 使用文件，ASCII編碼
def test_dump_and_load_with_file():
  t = {'name': ['v1', 'v2']}

  # ASCII format
  with open('test.txt', 'w') as fp:
    pickle.dump(t, fp)

  with open('test.txt', 'r') as fp:
    p = pickle.load(fp)
    print p


# 使用文件，二進制編碼
def test_dump_and_load_with_file_HIGHEST_PROTOCOL():
  t = {'name': ['v1', 'v2']}
  with open('test.bin', 'wb') as fp:
    pickle.dump(t, fp, pickle.HIGHEST_PROTOCOL)

  with open('test.bin', 'rb') as fp:
    p = pickle.load(fp)
    print p


# 使用StringIO，二進制編碼
def test_dump_and_load_with_StringIO():
  import StringIO

  t = {'name': ['v1', 'v2']}

  fp = StringIO.StringIO()
  pickle.dump(t, fp, pickle.HIGHEST_PROTOCOL)

  fp.seek(0)
  p = pickle.load(fp)
  print p

  fp.close()


# 使用自定義類
# 這里演示用戶自定義類，只要實現(xiàn)了write、read、readline接口，
# 就可以用作dump、load的file參數(shù)
def test_dump_and_load_with_user_def_class():
  import StringIO

  class FF(object):
    def __init__(self):
      self.buf = StringIO.StringIO()

    def write(self, s):
      self.buf.write(s)
      print 'len: ', len(s)

    def read(self, n):
      return self.buf.read(n)

    def readline(self):
      return self.buf.readline()

    def seek(self, pos, mod=0):
      return self.buf.seek(pos, mod)

    def close(self):
      self.buf.close()

  fp = FF()
  t = {'name': ['v1', 'v2']}
  pickle.dump(t, fp, pickle.HIGHEST_PROTOCOL)

  fp.seek(0)
  p = pickle.load(fp)
  print p

  fp.close()


# Pickler/Unpickler
# Pickler(file, protocol).dump(obj) 等價于 pickle.dump(obj, file[, protocol])
# Unpickler(file).load() 等價于 pickle.load(file)
# Pickler/Unpickler 封裝性更好，可以很方便的替換file
def test_pickler_unpickler():
  t = {'name': ['v1', 'v2']}

  f = file('test.bin', 'wb')
  pick = pickle.Pickler(f, pickle.HIGHEST_PROTOCOL)
  pick.dump(t)
  f.close()

  f = file('test.bin', 'rb')
  unpick = pickle.Unpickler(f)
  p = unpick.load()
  print p
  f.close()

pickle.dump(obj, file[, protocol])
這是將對象持久化的方法，參數(shù)的含義分別為：

obj: 要持久化保存的對象；
file: 一個擁有 write() 方法的對象，并且這個 write() 方法能接收一個字符串作為參數(shù)。這個對象可以是一個以寫模式打開的文件對象或者一個 StringIO 對象，或者其他自定義的滿足條件的對象。
protocol: 這是一個可選的參數(shù)，默認為 0 ，如果設(shè)置為 1 或 True，則以高壓縮的二進制格式保存持久化后的對象，否則以ASCII格式保存。

對象被持久化后怎么還原呢？pickle 模塊也提供了相應(yīng)的方法，如下：

pickle.load(file)
只有一個參數(shù) file ，對應(yīng)于上面 dump 方法中的 file 參數(shù)。這個 file 必須是一個擁有一個能接收一個整數(shù)為參數(shù)的 read() 方法以及一個不接收任何參數(shù)的 readline() 方法，并且這兩個方法的返回值都應(yīng)該是字符串。這可以是一個打開為讀的文件對象、StringIO 對象或其他任何滿足條件的對象。

下面是一個基本的用例：

# -*- coding: utf-8 -*-

import pickle
# 也可以這樣：
# import cPickle as pickle

obj = {"a": 1, "b": 2, "c": 3}

# 將 obj 持久化保存到文件 tmp.txt 中
pickle.dump(obj, open("tmp.txt", "w"))

# do something else ...

# 從 tmp.txt 中讀取并恢復 obj 對象
obj2 = pickle.load(open("tmp.txt", "r"))

print obj2

# -*- coding: utf-8 -*-
 
import pickle
# 也可以這樣：
# import cPickle as pickle
 
obj = {"a": 1, "b": 2, "c": 3}
 
# 將 obj 持久化保存到文件 tmp.txt 中
pickle.dump(obj, open("tmp.txt", "w"))
 
# do something else ...
 
# 從 tmp.txt 中讀取并恢復 obj 對象
obj2 = pickle.load(open("tmp.txt", "r"))
 
print obj2

不過實際應(yīng)用中，我們可能還會有一些改進，比如用 cPickle 來代替 pickle ，前者是后者的一個 C 語言實現(xiàn)版本，擁有更快的速度，另外，有時在 dump 時也會將第三個參數(shù)設(shè)為 True 以提高壓縮比。再來看下面的例子：

# -*- coding: utf-8 -*-

import cPickle as pickle
import random
import os

import time

LENGTH = 1024 * 10240

def main():
 d = {}
 a = []
 for i in range(LENGTH):
 a.append(random.randint(0, 255))

 d["a"] = a

 print "dumping..."

 t1 = time.time()
 pickle.dump(d, open("tmp1.dat", "wb"), True)
 print "dump1: %.3fs" % (time.time() - t1)

 t1 = time.time()
 pickle.dump(d, open("tmp2.dat", "w"))
 print "dump2: %.3fs" % (time.time() - t1)

 s1 = os.stat("tmp1.dat").st_size
 s2 = os.stat("tmp2.dat").st_size

 print "%d, %d, %.2f%%" % (s1, s2, 100.0 * s1 / s2)

 print "loading..."

 t1 = time.time()
 obj1 = pickle.load(open("tmp1.dat", "rb"))
 print "load1: %.3fs" % (time.time() - t1)

 t1 = time.time()
 obj2 = pickle.load(open("tmp2.dat", "r"))
 print "load2: %.3fs" % (time.time() - t1)


if __name__ == "__main__":
 main()

# -*- coding: utf-8 -*-
 
import cPickle as pickle
import random
import os
 
import time
 
LENGTH = 1024 * 10240
 
def main():
 d = {}
 a = []
 for i in range(LENGTH):
 a.append(random.randint(0, 255))
 
 d["a"] = a
 
 print "dumping..."
 
 t1 = time.time()
 pickle.dump(d, open("tmp1.dat", "wb"), True)
 print "dump1: %.3fs" % (time.time() - t1)
 
 t1 = time.time()
 pickle.dump(d, open("tmp2.dat", "w"))
 print "dump2: %.3fs" % (time.time() - t1)
 
 s1 = os.stat("tmp1.dat").st_size
 s2 = os.stat("tmp2.dat").st_size
 
 print "%d, %d, %.2f%%" % (s1, s2, 100.0 * s1 / s2)
 
 print "loading..."
 
 t1 = time.time()
 obj1 = pickle.load(open("tmp1.dat", "rb"))
 print "load1: %.3fs" % (time.time() - t1)
 
 t1 = time.time()
 obj2 = pickle.load(open("tmp2.dat", "r"))
 print "load2: %.3fs" % (time.time() - t1)
 
 
if __name__ == "__main__":
 main()

在我的電腦上執(zhí)行結(jié)果為：

dumping…
dump1: 1.297s
dump2: 4.750s
20992503, 68894198, 30.47%
loading…
load1: 2.797s
load2: 10.125s

可以看到，dump 時如果指定了 protocol 為 True，壓縮過后的文件的大小只有原來的文件的 30% ，同時無論在 dump 時還是 load 時所耗費的時間都比原來少。因此，一般來說，可以建議把這個值設(shè)為 True 。

另外，pickle 模塊還提供 dumps 和 loads 兩個方法，用法與上面的 dump 和 load 方法類似，只是不需要輸入 file 參數(shù)，輸入及輸出都是字符串對象，有些場景中使用這兩個方法可能更為方便。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python中的數(shù)據(jù)對象持久化存儲模塊pickle的使用示例

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具