Python實(shí)現(xiàn)的刪除重復(fù)文件或圖片功能示例【去重】
本文實(shí)例講述了Python實(shí)現(xiàn)的刪除重復(fù)文件或圖片功能。分享給大家供大家參考,具體如下:
通過python爬蟲或其他方式保存的圖片文件通常包含一些重復(fù)的圖片或文件,
通過下面的python代碼可以將重復(fù)的文件刪除以達(dá)到去重的目的。其中,文件目錄結(jié)構(gòu)如下圖:
# /usr/bin/env python # -*- coding:utf-8 -*- # 運(yùn)行的代碼文件要放到刪除重復(fù)的文件或圖片所包含的目錄中 import os import hashlib def filecount(): filecount = int(os.popen('dir /B |find /V /C ""').read()) return (filecount) def md5sum(filename): f = open(filename, 'rb') md5 = hashlib.md5() while True: fb = f.read(8096) if not fb: break md5.update(fb) f.close() return (md5.hexdigest()) def delfile(): all_md5 = {} filedir = os.walk(os.getcwd()) for i in filedir: for tlie in i[2]: if md5sum(tlie) in all_md5.values(): os.remove(tlie) else: all_md5[tlie] = md5sum(tlie) if __name__ == '__main__': oldf = filecount() print('去重前有', oldf, '個(gè)文件\n\n\n請(qǐng)稍等正在刪除重復(fù)文件...') delfile() print('\n\n去重后剩', filecount(), '個(gè)文件') print('\n\n一共刪除了', oldf - filecount(), '個(gè)文件\n\n')
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python文件與目錄操作技巧匯總》、《Python文本文件操作技巧匯總》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》及《Python入門與進(jìn)階經(jīng)典教程》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
Flask框架實(shí)現(xiàn)debug模式下計(jì)算pin碼
pin碼也就是flask在開啟debug模式下,進(jìn)行代碼調(diào)試模式的進(jìn)入密碼。本文為大家整理了Flask框架在debug模式下計(jì)算pin碼的方法,需要的可以參考一下2023-02-02如何在向量化NumPy數(shù)組上進(jìn)行移動(dòng)窗口
這篇文章主要介紹了如何在向量化NumPy數(shù)組上進(jìn)行移動(dòng)窗口的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。2021-05-05python對(duì)excel文檔去重及求和的實(shí)例
下面小編就為大家分享一篇python對(duì)excel文檔去重及求和的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-04-04Python實(shí)現(xiàn)五子棋人機(jī)對(duì)戰(zhàn)?和人人對(duì)戰(zhàn)
這篇文章主要介紹了Python實(shí)現(xiàn)五子棋人機(jī)對(duì)戰(zhàn)?和人人對(duì)戰(zhàn),通過定義黑白子,落子位置以及獲勝規(guī)則展開詳細(xì)內(nèi)容,需要的小伙伴可以參考一下2022-05-05plt.figure()參數(shù)使用詳解及運(yùn)行演示
這篇文章主要介紹了plt.figure()參數(shù)使用詳解及運(yùn)行演示,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01python如何用columns參數(shù)獲取DataFrame各列的表頭名
這篇文章主要介紹了python如何用columns參數(shù)獲取DataFrame各列的表頭名問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-03-03