python zip文件 壓縮
更新時(shí)間:2008年12月24日 23:13:49 作者:
看了我前面的一系列文章,不知道你會(huì)不會(huì)覺(jué)得python是無(wú)所不能的,我現(xiàn)在就這感覺(jué)!如何用python進(jìn)行文件壓縮呢
從簡(jiǎn)單的角度來(lái)看的話,zip格式會(huì)是個(gè)不錯(cuò)的選擇,而且python對(duì)zip格式的支持夠簡(jiǎn)單,夠好用。
1)簡(jiǎn)單應(yīng)用
如果你僅僅是希望用python來(lái)做壓縮和解壓縮,那么就不用去翻文檔了,這里提供一個(gè)簡(jiǎn)單的用法,讓你一看就能明白。
import zipfile
f = zipfile.ZipFile('filename.zip', 'w' ,zipfile.ZIP_DEFLATED)
f.write('file1.txt')
f.write('file2.doc')
f.write('file3.rar')
f.close()
f.zipfile.ZipFile('filename')
f.extractall()
f.close()
不知道上面的例子是不是足夠簡(jiǎn)單呢?
1.1 zipfile.ZipFile(fileName[, mode[, compression[, allowZip64]]])
fileName是沒(méi)有什么疑問(wèn)的了。
mode和一般的文件操作一樣,'r'表示打開(kāi)一個(gè)存在的只讀ZIP文件;'w'表示清空并打開(kāi)一個(gè)只寫(xiě)的ZIP文件,或創(chuàng)建一個(gè)只寫(xiě)的ZIP文件;'a'表示打開(kāi)一個(gè)ZIP文件,并添加內(nèi)容。
compression表示壓縮格式,可選的壓縮格式只有2個(gè):ZIP_STORE;ZIP_DEFLATED。ZIP_STORE是默認(rèn)的,表示不壓縮;ZIP_DEFLATED表示壓縮,如果你不知道什么是Deflated,那么建議你去補(bǔ)補(bǔ)課。
allowZip64為T(mén)rue時(shí),表示支持64位的壓縮,一般而言,在所壓縮的文件大于2G時(shí),會(huì)用到這個(gè)選項(xiàng);默認(rèn)情況下,該值為False,因?yàn)閁nix系統(tǒng)不支持。
1.2 zipfile.close()
說(shuō)真的,這個(gè)沒(méi)什么可說(shuō)的,如果有的話,那就是你寫(xiě)入的任何文件在關(guān)閉之前不會(huì)真正寫(xiě)入磁盤(pán)。
1.3 zipfile.write(filename[, arcname[, compress_type]])
acrname是壓縮文件中該文件的名字,默認(rèn)情況下和filename一樣
compress_type的存在是因?yàn)閦ip文件允許被壓縮的文件可以有不同的壓縮類型。
1.4 zipfile.extractall([path[, member[, password]]])
path解壓縮目錄,沒(méi)什么可說(shuō)的
member需要解壓縮的文件名兒列表
password當(dāng)zip文件有密碼時(shí)需要該選項(xiàng)
對(duì)于簡(jiǎn)單的應(yīng)用,這么多就夠了。
2)高級(jí)應(yīng)用
2.1 zipfile.is_zipfile(filename)
判斷一個(gè)文件是不是壓縮文件
2.2 ZipFile.namelist()
返回文件列表
2.3 ZipFile.open(name[, mode[, password]])
打開(kāi)壓縮文檔中的某個(gè)文件
2.4 ZipFile.infolist()
2.5 ZipFile.getinfo(name)
上述文件返回ZipInfo對(duì)象,只不過(guò)一個(gè)返回的是列表,一個(gè)返回的是一個(gè)ZipInfo
ZipInfo類
2.6 ZipInfo.filename
2.7 ZipInfo.date_time
返回值的格式為(year,month,date,hour,minute,second)
2.8 ZipInfo.compress_type
2.9 ZipInfo.comment
2.10ZipInfo.extra
2.11ZipInfo.create_system
2.12ZipInfo.extract_version
2.13ZipInfo.reserved 總是0
2.14ZipInfo.flag_bits
2.15ZipInfo.volume
2.16ZipInfo.internal_attr
2.17ZipInfo.external_attr
2.18ZipInfo.header_offset
2.19ZipInfo.CRC
2.20ZipInfo.file_size
2.21ZipInfo.compress_size
2.22ZipFile.testzip()
檢查每個(gè)文件和它對(duì)應(yīng)的CRC,如果有錯(cuò)誤返回對(duì)應(yīng)的文件列表
2.23ZipFile.setpassword(password)
2.24ZipFile.read(name[,password])
返回對(duì)應(yīng)的文件
2.25ZipFile.printdir()
打印壓縮文件夾的信息
2.26ZipFile.writestr(zipinfo_or_arcname, bytes)
PyZipFile類
zipfile.PyZipFile除了上面的方法和屬性之外,還有一個(gè)特殊的方法
2.27PyZipFile.writepy(pathname,basename)
一般情況下,僅僅壓縮.pyc和.pyo文件,不壓縮.py文件
----------------------------------------------------------------------
zip文件格式信息
一個(gè) ZIP 文件由三個(gè)部分組成:壓縮源文件數(shù)據(jù)區(qū)+壓縮源文件目錄區(qū)+壓縮源文件目錄結(jié)束標(biāo)志
1)壓縮源文件數(shù)據(jù)區(qū)
在這個(gè)數(shù)據(jù)區(qū)中每一個(gè)壓縮的源文件/目錄都是一條記錄,記錄的格式如下: [文件頭+ 文件數(shù)據(jù) + 數(shù)據(jù)描述符]
a、文件頭結(jié)構(gòu)
組成 長(zhǎng)度
文件頭標(biāo)記 4 bytes (0x04034b50)
解壓文件所需 pkware 版本 2 bytes
全局方式位標(biāo)記 2 bytes
壓縮方式 2 bytes
最后修改文件時(shí)間 2 bytes
最后修改文件日期 2 bytes
CRC-32校驗(yàn) 4 bytes
壓縮后尺寸 4 bytes
未壓縮尺寸 4 bytes
文件名長(zhǎng)度 2 bytes
擴(kuò)展記錄長(zhǎng)度 2 bytes
文件名 (不定長(zhǎng)度)
擴(kuò)展字段 (不定長(zhǎng)度)
b、文件數(shù)據(jù)
c、數(shù)據(jù)描述符
組成 長(zhǎng)度
CRC-32校驗(yàn) 4 bytes
壓縮后尺寸 4 bytes
未壓縮尺寸 4 bytes
這個(gè)數(shù)據(jù)描述符只在全局方式位標(biāo)記的第3位設(shè)為1時(shí)才存在(見(jiàn)后詳解),緊接在壓縮數(shù)據(jù)的最后一個(gè)字節(jié)后。這個(gè)數(shù)據(jù)描述符只用在不能對(duì)輸出的 ZIP 文件進(jìn)行檢索時(shí)使用。例如:在一個(gè)不能檢索的驅(qū)動(dòng)器(如:磁帶機(jī)上)上的 ZIP 文件中。如果是磁盤(pán)上的ZIP文件一般沒(méi)有這個(gè)數(shù)據(jù)描述符。
2)壓縮源文件目錄區(qū)
在這個(gè)數(shù)據(jù)區(qū)中每一條紀(jì)錄對(duì)應(yīng)在壓縮源文件數(shù)據(jù)區(qū)中的一條數(shù)據(jù)
組成 長(zhǎng)度
目錄中文件文件頭標(biāo)記 4 bytes (0x02014b50)
壓縮使用的pkware 版本 2 bytes
解壓文件所需 pkware 版本 2 bytes
全局方式位標(biāo)記 2 bytes
壓縮方式 2 bytes
最后修改文件時(shí)間 2 bytes
最后修改文件日期 2 bytes
CRC-32校驗(yàn) 4 bytes
壓縮后尺寸 4 bytes
未壓縮尺寸 4 bytes
文件名長(zhǎng)度 2 bytes
擴(kuò)展字段長(zhǎng)度 2 bytes
文件注釋長(zhǎng)度 2 bytes
磁盤(pán)開(kāi)始號(hào) 2 bytes
內(nèi)部文件屬性 2 bytes
外部文件屬性 4 bytes
局部頭部偏移量 4 bytes
文件名 (不定長(zhǎng)度)
擴(kuò)展字段 (不定長(zhǎng)度)
文件注釋 (不定長(zhǎng)度)
3)壓縮源文件目錄結(jié)束標(biāo)志
組成 長(zhǎng)度
目錄結(jié)束標(biāo)記 4 bytes (0x02014b50)
當(dāng)前磁盤(pán)編號(hào) 2 bytes
目錄區(qū)開(kāi)始磁盤(pán)編號(hào) 2 bytes
本磁盤(pán)上紀(jì)錄總數(shù) 2 bytes
目錄區(qū)中紀(jì)錄總數(shù) 2 bytes
目錄區(qū)尺寸大小 4 bytes
目錄區(qū)對(duì)第一張磁盤(pán)的偏移量 4 bytes
ZIP 文件注釋長(zhǎng)度 2 bytes
ZIP 文件注釋 (不定長(zhǎng)度)
1)簡(jiǎn)單應(yīng)用
如果你僅僅是希望用python來(lái)做壓縮和解壓縮,那么就不用去翻文檔了,這里提供一個(gè)簡(jiǎn)單的用法,讓你一看就能明白。
import zipfile
f = zipfile.ZipFile('filename.zip', 'w' ,zipfile.ZIP_DEFLATED)
f.write('file1.txt')
f.write('file2.doc')
f.write('file3.rar')
f.close()
f.zipfile.ZipFile('filename')
f.extractall()
f.close()
不知道上面的例子是不是足夠簡(jiǎn)單呢?
1.1 zipfile.ZipFile(fileName[, mode[, compression[, allowZip64]]])
fileName是沒(méi)有什么疑問(wèn)的了。
mode和一般的文件操作一樣,'r'表示打開(kāi)一個(gè)存在的只讀ZIP文件;'w'表示清空并打開(kāi)一個(gè)只寫(xiě)的ZIP文件,或創(chuàng)建一個(gè)只寫(xiě)的ZIP文件;'a'表示打開(kāi)一個(gè)ZIP文件,并添加內(nèi)容。
compression表示壓縮格式,可選的壓縮格式只有2個(gè):ZIP_STORE;ZIP_DEFLATED。ZIP_STORE是默認(rèn)的,表示不壓縮;ZIP_DEFLATED表示壓縮,如果你不知道什么是Deflated,那么建議你去補(bǔ)補(bǔ)課。
allowZip64為T(mén)rue時(shí),表示支持64位的壓縮,一般而言,在所壓縮的文件大于2G時(shí),會(huì)用到這個(gè)選項(xiàng);默認(rèn)情況下,該值為False,因?yàn)閁nix系統(tǒng)不支持。
1.2 zipfile.close()
說(shuō)真的,這個(gè)沒(méi)什么可說(shuō)的,如果有的話,那就是你寫(xiě)入的任何文件在關(guān)閉之前不會(huì)真正寫(xiě)入磁盤(pán)。
1.3 zipfile.write(filename[, arcname[, compress_type]])
acrname是壓縮文件中該文件的名字,默認(rèn)情況下和filename一樣
compress_type的存在是因?yàn)閦ip文件允許被壓縮的文件可以有不同的壓縮類型。
1.4 zipfile.extractall([path[, member[, password]]])
path解壓縮目錄,沒(méi)什么可說(shuō)的
member需要解壓縮的文件名兒列表
password當(dāng)zip文件有密碼時(shí)需要該選項(xiàng)
對(duì)于簡(jiǎn)單的應(yīng)用,這么多就夠了。
2)高級(jí)應(yīng)用
2.1 zipfile.is_zipfile(filename)
判斷一個(gè)文件是不是壓縮文件
2.2 ZipFile.namelist()
返回文件列表
2.3 ZipFile.open(name[, mode[, password]])
打開(kāi)壓縮文檔中的某個(gè)文件
2.4 ZipFile.infolist()
2.5 ZipFile.getinfo(name)
上述文件返回ZipInfo對(duì)象,只不過(guò)一個(gè)返回的是列表,一個(gè)返回的是一個(gè)ZipInfo
ZipInfo類
2.6 ZipInfo.filename
2.7 ZipInfo.date_time
返回值的格式為(year,month,date,hour,minute,second)
2.8 ZipInfo.compress_type
2.9 ZipInfo.comment
2.10ZipInfo.extra
2.11ZipInfo.create_system
2.12ZipInfo.extract_version
2.13ZipInfo.reserved 總是0
2.14ZipInfo.flag_bits
2.15ZipInfo.volume
2.16ZipInfo.internal_attr
2.17ZipInfo.external_attr
2.18ZipInfo.header_offset
2.19ZipInfo.CRC
2.20ZipInfo.file_size
2.21ZipInfo.compress_size
2.22ZipFile.testzip()
檢查每個(gè)文件和它對(duì)應(yīng)的CRC,如果有錯(cuò)誤返回對(duì)應(yīng)的文件列表
2.23ZipFile.setpassword(password)
2.24ZipFile.read(name[,password])
返回對(duì)應(yīng)的文件
2.25ZipFile.printdir()
打印壓縮文件夾的信息
2.26ZipFile.writestr(zipinfo_or_arcname, bytes)
PyZipFile類
zipfile.PyZipFile除了上面的方法和屬性之外,還有一個(gè)特殊的方法
2.27PyZipFile.writepy(pathname,basename)
一般情況下,僅僅壓縮.pyc和.pyo文件,不壓縮.py文件
----------------------------------------------------------------------
zip文件格式信息
一個(gè) ZIP 文件由三個(gè)部分組成:壓縮源文件數(shù)據(jù)區(qū)+壓縮源文件目錄區(qū)+壓縮源文件目錄結(jié)束標(biāo)志
1)壓縮源文件數(shù)據(jù)區(qū)
在這個(gè)數(shù)據(jù)區(qū)中每一個(gè)壓縮的源文件/目錄都是一條記錄,記錄的格式如下: [文件頭+ 文件數(shù)據(jù) + 數(shù)據(jù)描述符]
a、文件頭結(jié)構(gòu)
組成 長(zhǎng)度
文件頭標(biāo)記 4 bytes (0x04034b50)
解壓文件所需 pkware 版本 2 bytes
全局方式位標(biāo)記 2 bytes
壓縮方式 2 bytes
最后修改文件時(shí)間 2 bytes
最后修改文件日期 2 bytes
CRC-32校驗(yàn) 4 bytes
壓縮后尺寸 4 bytes
未壓縮尺寸 4 bytes
文件名長(zhǎng)度 2 bytes
擴(kuò)展記錄長(zhǎng)度 2 bytes
文件名 (不定長(zhǎng)度)
擴(kuò)展字段 (不定長(zhǎng)度)
b、文件數(shù)據(jù)
c、數(shù)據(jù)描述符
組成 長(zhǎng)度
CRC-32校驗(yàn) 4 bytes
壓縮后尺寸 4 bytes
未壓縮尺寸 4 bytes
這個(gè)數(shù)據(jù)描述符只在全局方式位標(biāo)記的第3位設(shè)為1時(shí)才存在(見(jiàn)后詳解),緊接在壓縮數(shù)據(jù)的最后一個(gè)字節(jié)后。這個(gè)數(shù)據(jù)描述符只用在不能對(duì)輸出的 ZIP 文件進(jìn)行檢索時(shí)使用。例如:在一個(gè)不能檢索的驅(qū)動(dòng)器(如:磁帶機(jī)上)上的 ZIP 文件中。如果是磁盤(pán)上的ZIP文件一般沒(méi)有這個(gè)數(shù)據(jù)描述符。
2)壓縮源文件目錄區(qū)
在這個(gè)數(shù)據(jù)區(qū)中每一條紀(jì)錄對(duì)應(yīng)在壓縮源文件數(shù)據(jù)區(qū)中的一條數(shù)據(jù)
組成 長(zhǎng)度
目錄中文件文件頭標(biāo)記 4 bytes (0x02014b50)
壓縮使用的pkware 版本 2 bytes
解壓文件所需 pkware 版本 2 bytes
全局方式位標(biāo)記 2 bytes
壓縮方式 2 bytes
最后修改文件時(shí)間 2 bytes
最后修改文件日期 2 bytes
CRC-32校驗(yàn) 4 bytes
壓縮后尺寸 4 bytes
未壓縮尺寸 4 bytes
文件名長(zhǎng)度 2 bytes
擴(kuò)展字段長(zhǎng)度 2 bytes
文件注釋長(zhǎng)度 2 bytes
磁盤(pán)開(kāi)始號(hào) 2 bytes
內(nèi)部文件屬性 2 bytes
外部文件屬性 4 bytes
局部頭部偏移量 4 bytes
文件名 (不定長(zhǎng)度)
擴(kuò)展字段 (不定長(zhǎng)度)
文件注釋 (不定長(zhǎng)度)
3)壓縮源文件目錄結(jié)束標(biāo)志
組成 長(zhǎng)度
目錄結(jié)束標(biāo)記 4 bytes (0x02014b50)
當(dāng)前磁盤(pán)編號(hào) 2 bytes
目錄區(qū)開(kāi)始磁盤(pán)編號(hào) 2 bytes
本磁盤(pán)上紀(jì)錄總數(shù) 2 bytes
目錄區(qū)中紀(jì)錄總數(shù) 2 bytes
目錄區(qū)尺寸大小 4 bytes
目錄區(qū)對(duì)第一張磁盤(pán)的偏移量 4 bytes
ZIP 文件注釋長(zhǎng)度 2 bytes
ZIP 文件注釋 (不定長(zhǎng)度)
相關(guān)文章
給Python中的MySQLdb模塊添加超時(shí)功能的教程
這篇文章主要介紹了給Python中的MySQLdb模塊添加超時(shí)功能的教程,timeout功能在服務(wù)器的運(yùn)維當(dāng)中非常有用,需要的朋友可以參考下2015-05-05基于Python Numpy的數(shù)組array和矩陣matrix詳解
下面小編就為大家分享一篇基于Python Numpy的數(shù)組array和矩陣matrix詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04python刪除文件、清空目錄的實(shí)現(xiàn)方法
這篇文章主要介紹了python刪除文件、清空目錄的實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09如何用python多次調(diào)用exe文件運(yùn)行不同的結(jié)果
有個(gè)C++項(xiàng)目是讀取配置參數(shù)文件并打印對(duì)應(yīng)的結(jié)果,后來(lái)需要多次修改配置文件并運(yùn)行,于是想到寫(xiě)個(gè)python腳本執(zhí)行這一過(guò)程,今天通過(guò)本文給大家分享python多次調(diào)用exe文件運(yùn)行不同的結(jié)果,感興趣的朋友一起看看吧2023-05-05Python 中最長(zhǎng)公共子序列的長(zhǎng)度
子序列是在不改變剩余字符的順序的情況下,在刪除一些字符或不刪除任何字符后從給定序列獲得的序列,這篇文章主要介紹了Python 中的最長(zhǎng)公共子序列,需要的朋友可以參考下2023-06-06