Python實(shí)現(xiàn)檢測(cè)文件的MD5值來查找重復(fù)文件案例
平時(shí)學(xué)生交上機(jī)作業(yè)的時(shí)候經(jīng)常有人相互復(fù)制,直接改文件名了事,為了能夠簡(jiǎn)單的檢測(cè)這種作弊行為,想到了檢測(cè)文件的MD5值,雖然對(duì)于抄襲來說作用不大,但是聊勝于無,以后可以做一個(gè)復(fù)雜點(diǎn)的。
# coding: utf8
import hashlib
import os
from collections import Counter
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def get_md5_01(file_path):
md5 = None
if os.path.isfile(file_path):
f = open(file_path,'rb')
md5_obj = hashlib.md5()
md5_obj.update(f.read())
hash_code = md5_obj.hexdigest()
f.close()
md5 = str(hash_code).lower()
return md5
def get_md5_02(file_path):
f = open(file_path,'rb')
md5_obj = hashlib.md5()
while True:
d = f.read(8096)
if not d:
break
md5_obj.update(d)
hash_code = md5_obj.hexdigest()
f.close()
md5 = str(hash_code).lower()
return md5
if __name__ == "__main__":
output_list=[]
#input_path=r"e:\xx\新建文件夾"
#output_path = unicode(input_path , "utf8")
output_path=os.getcwd()
g = os.walk(output_path)
for path,dir_list,file_list in g:
for file_name in file_list:
output_list.append(os.path.join(path, file_name) )
md5_list= [get_md5_01(i) for i in output_list]
Counter_list=Counter(md5_list)
for i in Counter_list.items():
if i[1] >1:
duplicate_list=[ a for a in range(len(md5_list)) if md5_list[a] == i[0]]
print '-'*50
print i[0]
for j in duplicate_list:
with open('duplicate.log', mode='a+') as f:
f.write(i[0]+'\t'+output_list[j]+'\n')
print output_list[j]
補(bǔ)充知識(shí):python一句話校驗(yàn)文件哈希值
MD5
python -c "import hashlib,sys;print hashlib.md5(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
SHA-1
python -c "import hashlib,sys;print hashlib.sha1(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
SHA-256
python -c "import hashlib,sys;print hashlib.sha256(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
SHA-512
python -c "import hashlib,sys;print hashlib.sha512(open(sys.argv[1],'rb').read()).hexdigest()" 文件名
以上這篇Python實(shí)現(xiàn)檢測(cè)文件的MD5值來查找重復(fù)文件案例就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python cookie反爬處理的實(shí)現(xiàn)
這篇文章主要介紹了python cookie反爬處理的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11
淺談Pytorch中的自動(dòng)求導(dǎo)函數(shù)backward()所需參數(shù)的含義
今天小編就為大家分享一篇淺談Pytorch中的自動(dòng)求導(dǎo)函數(shù)backward()所需參數(shù)的含義,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-02-02
Python解析JSON數(shù)據(jù)的方法簡(jiǎn)單例子
這篇文章主要給大家介紹了關(guān)于Python解析JSON數(shù)據(jù)的方法,解析JSON文件是Python中非常常見的操作,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-09-09

