欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python3實(shí)現(xiàn)zip分卷壓縮過(guò)程解析

 更新時(shí)間:2019年10月09日 08:31:43   作者:zaxtyson  
這篇文章主要介紹了Python3實(shí)現(xiàn)zip分卷壓縮過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

使用zipfile庫(kù)

查看 官方中文文檔

利用 Python 壓縮 ZIP 文件,我們第一反應(yīng)是使用 zipfile 庫(kù),然而,它的官方文檔中卻明確標(biāo)注“此模塊目前不能處理分卷 ZIP 文件”,(⊙﹏⊙)

折騰經(jīng)過(guò)

翻遍了Google、CSDN、Stackoverflow等平臺(tái)均未找到解決方案,最靠譜的是調(diào)用外部解壓程序?qū)崿F(xiàn)分卷壓縮的功能。但是,如何不依靠外部程序?qū)崿F(xiàn)這個(gè)功能呢??

于是乎,只能自己慢慢造輪子。看著 ZIP 格式開(kāi)發(fā)商留下的文檔 ZIP File Format Specification,頭疼啊(;´д`)。于是我拿著 WinHex 開(kāi)始16進(jìn)制一個(gè)一個(gè)文件對(duì)比 WinRar 創(chuàng)建的分卷壓縮和單個(gè) zip 文件的差異。最后還真的整出來(lái)了( ̄▽ ̄)"

如果想把單個(gè)大文件 test.zip -> 分卷文件 test.z01、test.z02、test.zip

首先,在創(chuàng)建的第一個(gè)分卷文件 test.z01的前面加上 \x50\x4b\x07\x08 這個(gè)是分卷壓縮的文件頭(header),占4個(gè)字節(jié)。其實(shí)單個(gè)壓縮文件本身 header 就有這個(gè)了,而分卷壓縮的需要兩個(gè)emmm。之后便是從單個(gè)大壓縮文件文件test.zip中讀取 "一個(gè)分卷大小 -4 個(gè)字節(jié)"的數(shù)據(jù),寫入test.z01中,如何接著讀取一個(gè)分卷大小的數(shù)據(jù),寫入test.z02,以此類推,最后一個(gè)分卷文件名也是test.zip。

Python3的代碼實(shí)現(xiàn)

import os
import zipfile


def zip_by_volume(file_path, block_size):
  """zip文件分卷壓縮"""
  file_size = os.path.getsize(file_path) # 文件字節(jié)數(shù)
  path, file_name = os.path.split(file_path) # 除去文件名以外的path,文件名
  suffix = file_name.split('.')[-1] # 文件后綴名
  # 添加到臨時(shí)壓縮文件
  zip_file = file_path + '.zip'
  with zipfile.ZipFile(zip_file, 'w') as zf:
    zf.write(file_path, arcname=file_name)
  # 小于分卷尺寸則直接返回壓縮文件路徑
  if file_size <= block_size:
    return zip_file
  else:
    fp = open(zip_file, 'rb')
    count = file_size // block_size + 1
    # 創(chuàng)建分卷壓縮文件的保存路徑
    save_dir = path + os.sep + file_name + '_split'
    if os.path.exists(save_dir):
      from shutil import rmtree
      rmtree(save_dir)
    os.mkdir(save_dir)
    # 拆分壓縮包為分卷文件
    for i in range(1, count + 1):
      _suffix = 'z{:0>2}'.format(i) if i != count else 'zip'
      name = save_dir + os.sep + file_name.replace(str(suffix), _suffix)
      f = open(name, 'wb+')
      if i == 1:
        f.write(b'\x50\x4b\x07\x08') # 添加分卷壓縮header(4字節(jié))
        f.write(fp.read(block_size - 4))
      else:
        f.write(fp.read(block_size))
    fp.close()
    os.remove(zip_file)   # 刪除臨時(shí)的 zip 文件  
    return save_dir

if __name__ == '__main__':
  file = r"D:\Downloads\1.mp4"    # 原始文件
  volume_size = 1024 * 1024 * 100 # 分卷大小 100MB
  path = zip_by_volume(file, volume_size)
  print(path)   # 輸出分卷壓縮文件的路徑

缺點(diǎn)

該方法創(chuàng)建分卷壓縮的時(shí)候,需要先在磁盤創(chuàng)建一個(gè)臨時(shí)壓縮包,然后將其拆分,實(shí)際上會(huì)對(duì)磁盤寫入兩次,這就浪費(fèi)了時(shí)間。

當(dāng)然,我嘗試使用 ByteIO 進(jìn)行字節(jié)流的壓縮,但是這種方式需要先把文件讀入內(nèi)存,對(duì)于超級(jí)大的文件,這是不現(xiàn)實(shí)的,分分鐘內(nèi)存爆炸。

然后,我嘗試使用 io.pipe 的管道來(lái)處理,而 zipfile 壓縮需要提供一個(gè) file 或 file-like 對(duì)象,這個(gè)對(duì)象必須實(shí)現(xiàn) seek() 和 tell() 方法來(lái)回去寫入文件頭信息,然而管道流沒(méi)辦法seek回去修改數(shù)據(jù)。這里,參考了Python zipfile + os.pipe()探索記,屏蔽了 seek() 和 tell() 函數(shù)。但是,后面我分卷時(shí)需要指定讀取的字節(jié)數(shù),這就需要這兩個(gè)函數(shù)。。。我大概知道為什么 zipfile 庫(kù)不支持創(chuàng)建分卷文件了〒▽〒

這個(gè)庫(kù)的作者也沒(méi)少掉頭發(fā)。?!,F(xiàn)在就將就一下,這樣用著吧。。。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python鏈表排序相關(guān)問(wèn)題解法示例

    Python鏈表排序相關(guān)問(wèn)題解法示例

    這篇文章主要為大家介紹了Python鏈表排序相關(guān)問(wèn)題解法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • 全CPU并行處理Pandas操作Pandarallel更快處理數(shù)據(jù)

    全CPU并行處理Pandas操作Pandarallel更快處理數(shù)據(jù)

    我們?cè)谔幚頂?shù)據(jù)時(shí),通常小的數(shù)據(jù)對(duì)處理速度不敏感,但數(shù)據(jù)量一大,頓時(shí)會(huì)感覺(jué)數(shù)據(jù)處理效率不盡如人意,今天介紹的pandarallel就是一個(gè)簡(jiǎn)單高效的Pandas并行工具,幾行代碼就可以提高數(shù)據(jù)處理效率,
    2024-01-01
  • Python實(shí)現(xiàn)模擬瀏覽器請(qǐng)求及會(huì)話保持操作示例

    Python實(shí)現(xiàn)模擬瀏覽器請(qǐng)求及會(huì)話保持操作示例

    這篇文章主要介紹了Python實(shí)現(xiàn)模擬瀏覽器請(qǐng)求及會(huì)話保持操作,結(jié)合實(shí)例形式分析了Python基于urllib與urllib2模塊模擬瀏覽器請(qǐng)求及cookie保存會(huì)話相關(guān)操作技巧,需要的朋友可以參考下
    2018-07-07
  • 對(duì)Python協(xié)程之異步同步的區(qū)別詳解

    對(duì)Python協(xié)程之異步同步的區(qū)別詳解

    今天小編就為大家分享一篇對(duì)Python協(xié)程之異步同步的區(qū)別詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-02-02
  • Python字符串不可不知的6個(gè)小技巧分享

    Python字符串不可不知的6個(gè)小技巧分享

    字符串可以理解為一段普通的文本內(nèi)容,在python里,使用引號(hào)來(lái)表示一個(gè)字符串,不同的引號(hào)表示的效果會(huì)有區(qū)別,本文將給介紹Python字符串不可不知的6個(gè)小技巧分享,并有詳細(xì)的代碼供大家參考,感興趣的小伙伴可以參考一下
    2024-03-03
  • Python初學(xué)者需要注意的事項(xiàng)小結(jié)(python2與python3)

    Python初學(xué)者需要注意的事項(xiàng)小結(jié)(python2與python3)

    這篇文章主要介紹了Python初學(xué)者需要注意的事項(xiàng)小結(jié),包括了python2與python3的一些區(qū)別,需要的朋友可以參考下
    2018-09-09
  • python中嵌套函數(shù)的實(shí)操步驟

    python中嵌套函數(shù)的實(shí)操步驟

    在本文里我們給大家分享了關(guān)于python中嵌套函數(shù)的步驟圖文分解,有需要的朋友們跟著學(xué)習(xí)下。
    2019-02-02
  • Python實(shí)現(xiàn)計(jì)算圖像RGB均值方式

    Python實(shí)現(xiàn)計(jì)算圖像RGB均值方式

    這篇文章主要介紹了Python實(shí)現(xiàn)計(jì)算圖像RGB均值方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-06-06
  • Python讀取圖像并顯示灰度圖的實(shí)現(xiàn)

    Python讀取圖像并顯示灰度圖的實(shí)現(xiàn)

    這篇文章主要介紹了Python讀取圖像并顯示灰度圖的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

    python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解

    這篇文章主要介紹了python爬蟲(chóng)爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過(guò)程圖解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-11-11

最新評(píng)論