Python3 filecmp模塊測(cè)試比較文件原理解析
1.filecmp比較文件
filecmp模塊提供了一些函數(shù)和一個(gè)類來比較文件系統(tǒng)上的文件和目錄。
1.1 示例數(shù)據(jù)
使用下面代碼創(chuàng)建一組測(cè)試文件。
import os
def mkfile(filename, body=None):
with open(filename, 'w') as f:
f.write(body or filename)
return
def make_example_dir(top):
if not os.path.exists(top):
os.mkdir(top)
curdir = os.getcwd()
os.chdir(top)
os.mkdir('dir1')
os.mkdir('dir2')
mkfile('dir1/file_only_in_dir1')
mkfile('dir2/file_only_in_dir2')
os.mkdir('dir1/dir_only_in_dir1')
os.mkdir('dir2/dir_only_in_dir2')
os.mkdir('dir1/common_dir')
os.mkdir('dir2/common_dir')
mkfile('dir1/common_file', 'this file is the same')
os.link('dir1/common_file', 'dir2/common_file')
mkfile('dir1/contents_differ')
mkfile('dir2/contents_differ')
# Update the access and modification times so most of the stat
# results will match.
st = os.stat('dir1/contents_differ')
os.utime('dir2/contents_differ', (st.st_atime, st.st_mtime))
mkfile('dir1/file_in_dir1', 'This is a file in dir1')
os.mkdir('dir2/file_in_dir1')
os.chdir(curdir)
return
if __name__ == '__main__':
os.chdir(os.path.dirname(__file__) or os.getcwd())
make_example_dir('example')
make_example_dir('example/dir1/common_dir')
make_example_dir('example/dir2/common_dir')
運(yùn)行這個(gè)腳本會(huì)在axample目錄下生成一個(gè)文件樹。

common_dir目錄下也有同樣的目錄結(jié)構(gòu),以提供有意思的遞歸比較選擇。
1.2 比較文件
cmp()用于比較文件系統(tǒng)上的兩個(gè)文件。
import filecmp
print('common_file :', end=' ')
print(filecmp.cmp('example/dir1/common_file',
'example/dir2/common_file',
shallow=True),
end=' ')
print(filecmp.cmp('example/dir1/common_file',
'example/dir2/common_file',
shallow=False))
print('contents_differ:', end=' ')
print(filecmp.cmp('example/dir1/contents_differ',
'example/dir2/contents_differ',
shallow=True),
end=' ')
print(filecmp.cmp('example/dir1/contents_differ',
'example/dir2/contents_differ',
shallow=False))
print('identical :', end=' ')
print(filecmp.cmp('example/dir1/file_only_in_dir1',
'example/dir1/file_only_in_dir1',
shallow=True),
end=' ')
print(filecmp.cmp('example/dir1/file_only_in_dir1',
'example/dir1/file_only_in_dir1',
shallow=False))
shallo參數(shù)告訴cmp()除了文件的元數(shù)據(jù)外,是否還要查看文件的內(nèi)容。默認(rèn)情況下,會(huì)使用由os.stat()得到的信息來完成一個(gè)淺比較。如果結(jié)果是一樣的,則認(rèn)為文件相同。因此,對(duì)于同時(shí)創(chuàng)建的相同大小的文件,即使他們的內(nèi)容不同,也會(huì)報(bào)告為是相同的文件。當(dāng)shallow為False時(shí),則要比較文件的內(nèi)容。

如果非遞歸的比較兩個(gè)目錄中的一組文件,則可以使用cmpfiles()。參數(shù)是目錄名和兩個(gè)位置上要檢查的我就愛你列表。傳入的公共文件列表應(yīng)當(dāng)只包含文件名(目錄會(huì)導(dǎo)致匹配不成功),而且這些文件在兩個(gè)位置上都應(yīng)當(dāng)出現(xiàn)。下一個(gè)例子顯示了構(gòu)造公共列表的一種簡單方法。與cmp()一樣,這個(gè)比較也有一個(gè)shallow標(biāo)志。
import filecmp
import os
# Determine the items that exist in both directories
d1_contents = set(os.listdir('example/dir1'))
d2_contents = set(os.listdir('example/dir2'))
common = list(d1_contents & d2_contents)
common_files = [
f
for f in common
if os.path.isfile(os.path.join('example/dir1', f))
]
print('Common files:', common_files)
# Compare the directories
match, mismatch, errors = filecmp.cmpfiles(
'example/dir1',
'example/dir2',
common_files,
)
print('Match :', match)
print('Mismatch :', mismatch)
print('Errors :', errors)
cmpfiles()返回3個(gè)文件名列表,分別包含匹配的文件、不匹配的文件和不能比較的文件(由于權(quán)限問題或出于其他原因)。

1.3 比較目錄
前面介紹的函數(shù)適合完成相對(duì)簡單的比較。對(duì)于大目錄樹的遞歸比較或者更完整的分析,dircmp類很更有用。在最簡單的用例中,report()會(huì)打印比較兩個(gè)目錄的報(bào)告。
import filecmp
dc = filecmp.dircmp('example/dir1', 'example/dir2')
dc.report()
輸出是一個(gè)純文本報(bào)告,顯示的結(jié)果只包括給定目錄的內(nèi)容,而不會(huì)遞歸比較其子目錄。在這里,認(rèn)為文件not_the_same是相同的,因?yàn)檫@里沒有比較內(nèi)容。無法讓dircmp像cmp()那樣比較文件的內(nèi)容。

為了更多的細(xì)節(jié),也為了完成一個(gè)遞歸比較,可以使用report_full_closure()。
import filecmp
dc = filecmp.dircmp('example/dir1', 'example/dir2')
dc.report_full_closure()
輸出將包括所有同級(jí)子目錄的比較。

1.4 在程序中使用差異
除了生成打印報(bào)告,dircmp還能計(jì)算文件列表,可以在程序中直接使用。以下各個(gè)屬性只在請(qǐng)求時(shí)才計(jì)算,所以對(duì)于未用的數(shù)據(jù),創(chuàng)建dircmp實(shí)例不會(huì)帶來開銷。
import filecmp
import pprint
dc = filecmp.dircmp('example/dir1', 'example/dir2')
print('Left:')
pprint.pprint(dc.left_list)
print('\nRight:')
pprint.pprint(dc.right_list)
所比較目錄中包含的文件和子目錄分別列在left_list和right_list中。

可以向構(gòu)造函數(shù)傳入一個(gè)要忽略的名字列表(該列表中指定的名字將被忽略)來對(duì)輸入進(jìn)行過濾。默認(rèn)的,RCS、CVS和tags等名字會(huì)被忽略。
import filecmp
import pprint
dc = filecmp.dircmp('example/dir1', 'example/dir2',
ignore=['common_file'])
print('Left:')
pprint.pprint(dc.left_list)
print('\nRight:')
pprint.pprint(dc.right_list)
在這里,將common_file從要比較的文件列表中去除。

兩個(gè)輸入目錄中共有的文件名會(huì)保存在common內(nèi),各目錄獨(dú)有的文件會(huì)列在left_only和right_only中。
import filecmp
import pprint
dc = filecmp.dircmp('example/dir1', 'example/dir2')
print('Common:')
pprint.pprint(dc.common)
print('\nLeft:')
pprint.pprint(dc.left_only)
print('\nRight:')
pprint.pprint(dc.right_only)
"左"目錄是dircmp()的第一個(gè)參數(shù),"右"目錄是第二個(gè)參數(shù)。

公共成員可以被進(jìn)一步分解為文件、目錄和“有趣”元素(兩個(gè)目錄中類型不同的內(nèi)容,或者os.stat()指出的有錯(cuò)誤的地方)。
import filecmp
import pprint
dc = filecmp.dircmp('example/dir1', 'example/dir2')
print('Common:')
pprint.pprint(dc.common)
print('\nDirectories:')
pprint.pprint(dc.common_dirs)
print('\nFiles:')
pprint.pprint(dc.common_files)
print('\nFunny:')
pprint.pprint(dc.common_funny)
在示例數(shù)據(jù)中,file_in_dir1元素在一個(gè)目錄中是一個(gè)文件,而在另一個(gè)目錄中是一個(gè)子目錄,所以它會(huì)出現(xiàn)在“有趣”列表中。

文件之間的差別也可以做類似的劃分。
import filecmp
dc = filecmp.dircmp('example/dir1', 'example/dir2')
print('Same :', dc.same_files)
print('Different :', dc.diff_files)
print('Funny :', dc.funny_files)
文件not_the_same通過os.stat()比較,并且不檢查內(nèi)容,所以它包含在same_files列表中。

最后一點(diǎn),子目錄也會(huì)被保存,以便容易地完成遞歸比較。
import filecmp
dc = filecmp.dircmp('example/dir1', 'example/dir2')
print('Subdirectories:')
print(dc.subdirs)
屬性subdirs是一個(gè)字典,它將目錄名映射到新的dircmp對(duì)象。

以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
在pytorch中動(dòng)態(tài)調(diào)整優(yōu)化器的學(xué)習(xí)率方式
這篇文章主要介紹了在pytorch中動(dòng)態(tài)調(diào)整優(yōu)化器的學(xué)習(xí)率方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-06-06
WxPython界面利用pubsub如何實(shí)現(xiàn)多線程控制
這篇文章主要介紹了WxPython界面利用pubsub如何實(shí)現(xiàn)多線程控制,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-11-11
Python使用htpasswd實(shí)現(xiàn)基本認(rèn)證授權(quán)的例子
這篇文章主要介紹了Python使用htpasswd實(shí)現(xiàn)基本認(rèn)證授權(quán)的例子,服務(wù)器使用的是mini_httpd,需要的朋友可以參考下2014-06-06

