Python利用模糊哈希實現(xiàn)對比文件相似度
對比兩個文件相似度,python中可通過difflib.SequenceMatcher/ssdeep/python_mmdt/tlsh實現(xiàn),在大量需要對比,且文件較大時,需要更高的效率,可以考慮模糊哈希(fuzzy hash),如ssdeep/python_mmdt
測試過程發(fā)現(xiàn):
- difflib方法,讀取文件后,可以實現(xiàn)匹配度輸出
- ssdeep/mmdt/tlsh方法可以實現(xiàn),實現(xiàn)提前模糊哈希值,驗證時,只讀取一次,完成對比,從而優(yōu)化對比時間,及內(nèi)存/cpu消耗
- tlsh測試時,值越小,相似度越高,在對比小文件時,很不理想
- 在對比小文件時,三種方法相差不大,在對比大文件(案例中81MB),difflib方法慢的難以接受
- 在實際環(huán)境中,建議使用mmdt方法,因為ssdeep在二進制對比中差別較大,失去參考價值,具體還有哪些文件類型存在此問題有待考量,
測試環(huán)境:
OS:ubuntu20.04
python:3.8.10
py-tlsh==4.7.2
python-mmdt==0.3.1
ssdeep==3.4
# -*- coding: utf-8 -*-
import ssdeep
import time
from python_mmdt.mmdt.mmdt import MMDT
from difflib import SequenceMatcher
def difflib_test(file1,file2):
start_time = time.time()
with open(file1,'rb') as f:
s1 = f.read()
with open(file2,'rb') as f:
s2 = f.read()
match_obj = SequenceMatcher(None,s1,s2)
print("difflib match:",match_obj.ratio())
end_time = time.time()
print('difflib_test cost :',end_time-start_time)
def mmdt_test(file1,file2):
start_time = time.time()
mmdt=MMDT()
r1 = mmdt.mmdt_hash(file1)
print(r1)
r2 = mmdt.mmdt_hash_streaming(file2)
print(r2)
# sim1 = mmdt.mmdt_compare(file1, file2)
# print("mmdt match:",sim1)
sim2 = mmdt.mmdt_compare_hash(r1, r2)
print("mmdt match:",sim2)
end_time = time.time()
print('mmdt_test cost :',end_time-start_time)
def ssdeep_test(file1,file2):
start_time = time.time()
sig1=ssdeep.hash_from_file(file1)
sig2=ssdeep.hash_from_file(file2)
print(sig1)
print(sig2)
print("ssdeep match:",ssdeep.compare(sig1,sig2))
end_time = time.time()
print('ssdeep_test cost :',end_time-start_time)
if __name__ == '__main__':
start_time = time.time()
file1='/root/test/fstab'
file2='/root/test/fstab2'
# file1 = '/root/test/initrd.img-5.4.0-125-generic'
# file2 = '/root/test/initrd.img-5.4.0-135-generic'
mmdt_test(file1,file2)
ssdeep_test(file1,file2)
difflib_test(file1,file2)
end_time = time.time()
print('總執(zhí)行時間:',end_time-start_time)下面給出對比小文件/大文件效果:

測試tlsh
import tlsh
import time
def tlsh_test(file1,file2):
start_time = time.time()
with open(file1,'rb') as f:
s1 = tlsh.hash(f.read())
with open(file2,'rb') as f:
s2 = tlsh.hash(f.read())
match_obj = tlsh.diff(s1,s2)
print("tlsh match:",match_obj)
end_time = time.time()
print('difflib_test cost :',end_time-start_time)
if __name__ == '__main__':
start_time = time.time()
# file1='/root/test/fstab'
# file2='/root/test/fstab2'
file1 = '/root/test/initrd.img-5.4.0-125-generic'
file2 = '/root/test/initrd.img-5.4.0-135-generic'
tlsh_test(file1,file2)
end_time = time.time()
print('總執(zhí)行時間:',end_time-start_time)對比小文件/大文件

到此這篇關(guān)于Python利用模糊哈希實現(xiàn)對比文件相似度的文章就介紹到這了,更多相關(guān)Python對比文件相似度內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用tensorflow顯示pb模型的所有網(wǎng)絡結(jié)點方式
今天小編就為大家分享一篇使用tensorflow顯示pb模型的所有網(wǎng)絡結(jié)點方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01
python如何根據(jù)x軸、y軸坐標在坐標軸里畫出曲線圖
這篇文章主要介紹了python如何根據(jù)x軸、y軸坐標在坐標軸里畫出曲線圖問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-10-10
使用Docker制作Python環(huán)境連接Oracle鏡像
這篇文章主要為大家介紹了使用Docker制作Python環(huán)境連接Oracle鏡像示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-06-06
詳解Python 使用 selenium 進行自動化測試或者協(xié)助日常工作
這篇文章主要介紹了Python 使用 selenium 進行自動化測試 或者協(xié)助日常工作,我們可以使用 selenium 來幫助我們進行自動化的 Web 測試,也可以通過 selenium 操作瀏覽器做一些重復的,簡單的事情,來減輕我們的工作2021-09-09
Keras目標檢測mtcnn?facenet搭建人臉識別平臺
這篇文章主要為大家介紹了Keras目標檢測mtcnn?facenet搭建人臉識別平臺,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05
YOLOv5車牌識別實戰(zhàn)教程(四)模型優(yōu)化與部署
這篇文章主要介紹了YOLOv5車牌識別實戰(zhàn)教程(四)模型優(yōu)化與部署,在這個教程中,我們將一步步教你如何使用YOLOv5進行車牌識別,幫助你快速掌握YOLOv5車牌識別技能,需要的朋友可以參考下2023-04-04

