Python利用模糊哈希實(shí)現(xiàn)對(duì)比文件相似度
對(duì)比兩個(gè)文件相似度,python中可通過(guò)difflib.SequenceMatcher/ssdeep/python_mmdt/tlsh實(shí)現(xiàn),在大量需要對(duì)比,且文件較大時(shí),需要更高的效率,可以考慮模糊哈希(fuzzy hash),如ssdeep/python_mmdt
測(cè)試過(guò)程發(fā)現(xiàn):
- difflib方法,讀取文件后,可以實(shí)現(xiàn)匹配度輸出
- ssdeep/mmdt/tlsh方法可以實(shí)現(xiàn),實(shí)現(xiàn)提前模糊哈希值,驗(yàn)證時(shí),只讀取一次,完成對(duì)比,從而優(yōu)化對(duì)比時(shí)間,及內(nèi)存/cpu消耗
- tlsh測(cè)試時(shí),值越小,相似度越高,在對(duì)比小文件時(shí),很不理想
- 在對(duì)比小文件時(shí),三種方法相差不大,在對(duì)比大文件(案例中81MB),difflib方法慢的難以接受
- 在實(shí)際環(huán)境中,建議使用mmdt方法,因?yàn)閟sdeep在二進(jìn)制對(duì)比中差別較大,失去參考價(jià)值,具體還有哪些文件類型存在此問(wèn)題有待考量,
測(cè)試環(huán)境:
OS:ubuntu20.04
python:3.8.10
py-tlsh==4.7.2
python-mmdt==0.3.1
ssdeep==3.4
# -*- coding: utf-8 -*- import ssdeep import time from python_mmdt.mmdt.mmdt import MMDT from difflib import SequenceMatcher def difflib_test(file1,file2): start_time = time.time() with open(file1,'rb') as f: s1 = f.read() with open(file2,'rb') as f: s2 = f.read() match_obj = SequenceMatcher(None,s1,s2) print("difflib match:",match_obj.ratio()) end_time = time.time() print('difflib_test cost :',end_time-start_time) def mmdt_test(file1,file2): start_time = time.time() mmdt=MMDT() r1 = mmdt.mmdt_hash(file1) print(r1) r2 = mmdt.mmdt_hash_streaming(file2) print(r2) # sim1 = mmdt.mmdt_compare(file1, file2) # print("mmdt match:",sim1) sim2 = mmdt.mmdt_compare_hash(r1, r2) print("mmdt match:",sim2) end_time = time.time() print('mmdt_test cost :',end_time-start_time) def ssdeep_test(file1,file2): start_time = time.time() sig1=ssdeep.hash_from_file(file1) sig2=ssdeep.hash_from_file(file2) print(sig1) print(sig2) print("ssdeep match:",ssdeep.compare(sig1,sig2)) end_time = time.time() print('ssdeep_test cost :',end_time-start_time) if __name__ == '__main__': start_time = time.time() file1='/root/test/fstab' file2='/root/test/fstab2' # file1 = '/root/test/initrd.img-5.4.0-125-generic' # file2 = '/root/test/initrd.img-5.4.0-135-generic' mmdt_test(file1,file2) ssdeep_test(file1,file2) difflib_test(file1,file2) end_time = time.time() print('總執(zhí)行時(shí)間:',end_time-start_time)
下面給出對(duì)比小文件/大文件效果:
測(cè)試tlsh
import tlsh import time def tlsh_test(file1,file2): start_time = time.time() with open(file1,'rb') as f: s1 = tlsh.hash(f.read()) with open(file2,'rb') as f: s2 = tlsh.hash(f.read()) match_obj = tlsh.diff(s1,s2) print("tlsh match:",match_obj) end_time = time.time() print('difflib_test cost :',end_time-start_time) if __name__ == '__main__': start_time = time.time() # file1='/root/test/fstab' # file2='/root/test/fstab2' file1 = '/root/test/initrd.img-5.4.0-125-generic' file2 = '/root/test/initrd.img-5.4.0-135-generic' tlsh_test(file1,file2) end_time = time.time() print('總執(zhí)行時(shí)間:',end_time-start_time)
對(duì)比小文件/大文件
到此這篇關(guān)于Python利用模糊哈希實(shí)現(xiàn)對(duì)比文件相似度的文章就介紹到這了,更多相關(guān)Python對(duì)比文件相似度內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用tensorflow顯示pb模型的所有網(wǎng)絡(luò)結(jié)點(diǎn)方式
今天小編就為大家分享一篇使用tensorflow顯示pb模型的所有網(wǎng)絡(luò)結(jié)點(diǎn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-01-01python如何根據(jù)x軸、y軸坐標(biāo)在坐標(biāo)軸里畫出曲線圖
這篇文章主要介紹了python如何根據(jù)x軸、y軸坐標(biāo)在坐標(biāo)軸里畫出曲線圖問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-10-10使用Docker制作Python環(huán)境連接Oracle鏡像
這篇文章主要為大家介紹了使用Docker制作Python環(huán)境連接Oracle鏡像示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06詳解Python 使用 selenium 進(jìn)行自動(dòng)化測(cè)試或者協(xié)助日常工作
這篇文章主要介紹了Python 使用 selenium 進(jìn)行自動(dòng)化測(cè)試 或者協(xié)助日常工作,我們可以使用 selenium 來(lái)幫助我們進(jìn)行自動(dòng)化的 Web 測(cè)試,也可以通過(guò) selenium 操作瀏覽器做一些重復(fù)的,簡(jiǎn)單的事情,來(lái)減輕我們的工作2021-09-09Keras目標(biāo)檢測(cè)mtcnn?facenet搭建人臉識(shí)別平臺(tái)
這篇文章主要為大家介紹了Keras目標(biāo)檢測(cè)mtcnn?facenet搭建人臉識(shí)別平臺(tái),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05YOLOv5車牌識(shí)別實(shí)戰(zhàn)教程(四)模型優(yōu)化與部署
這篇文章主要介紹了YOLOv5車牌識(shí)別實(shí)戰(zhàn)教程(四)模型優(yōu)化與部署,在這個(gè)教程中,我們將一步步教你如何使用YOLOv5進(jìn)行車牌識(shí)別,幫助你快速掌握YOLOv5車牌識(shí)別技能,需要的朋友可以參考下2023-04-04PyTorch如何搭建一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)
這篇文章主要介紹了PyTorch如何搭建一個(gè)簡(jiǎn)單的網(wǎng)絡(luò),幫助大家更好的理解和學(xué)習(xí)PyTorch,感興趣的朋友可以了解下2020-08-08