欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python實現(xiàn)MD5進行文件去重的示例代碼

 更新時間:2021年07月09日 11:45:26   作者:lainwith  
工作中偶爾會收到一大堆文件,名稱各不相同,分析文件的時候發(fā)現(xiàn)有不少重復(fù)的文件,導(dǎo)致工作效率低下,那么,這里就寫了一個python腳本實現(xiàn)文件去重功能,感興趣的就一起來了解一下

前言

工作中偶爾會遇到文件去重的事情,收到一大堆文件,名稱各不相同,分析文件的時候發(fā)現(xiàn)有不少重復(fù)的文件,導(dǎo)致工作效率低下,那么,這里就寫了一個python腳本實現(xiàn)文件去重功能

工作原理

腳本會檢查你給出的文件路徑下的所有文件,然后計算每個文件的MD5值,并將其加入到一個列表中。

  • 如果某文件的MD5值不在列表中,就認(rèn)定其是我們需要的文件,腳本會在桌面新建一個名為“去重結(jié)果”的文件夾,并將其復(fù)制到里面去。
  • 如果某文件的MD5值在列表中,就認(rèn)定其不是我們需要的文件,不對其做任何處理。
  • 代碼可以直接運行,無需做任何修改(除了安裝可能缺少的庫文件)

代碼

import os
import shutil
import hashlib


# 對文件去重
# 計算每個文件的md5值,據(jù)此進行去重
def only_one(test_path):
    md5_list = []
    count = 0
    for current_folder, list_folders, files in os.walk(test_path):
        for file in files:
            file_path = current_folder + '\\' + file  # 獲取每個文件的路徑
            f = open(file_path, 'rb')  # 開始計算每個文件的md5值
            md5obj = hashlib.md5()
            md5obj.update(f.read())
            get_hash = md5obj.hexdigest()
            f.close()
            md5_value = str(get_hash).upper()
            # 開始去重
            if md5_value in md5_list:  # 如果這個文件的md5值曾經(jīng)出現(xiàn)過,就不對它做任何處理
                count += 1
                print('\033[31m[-] 發(fā)現(xiàn)重復(fù)文件:\033[0m' + str(file))
            else:
                md5_list.append(md5_value)  # 如果這個文件的md5值不存在列表中,就添加進列表中
                shutil.copy(file_path, path1)
    print('\033[31m[-] 共發(fā)現(xiàn)重復(fù)文件:{}個\033[0m'.format(count))


if __name__ == '__main__':
    print('\033[4;33m[+] 此腳本會檢查指定路徑下的所有文件,通過計算文件的MD5值進行去重\033[0m')
    print('\033[4;33m[+] 去重后的文件會復(fù)制到桌面新文件夾中,源文件不會丟失\033[0m')
    path = input('\033[34m[+] 請輸入文件夾地址:\033[0m')
    os.chdir(path)

    # path1 用來存放所有的去重結(jié)果
    desktop_path = os.path.join(os.path.expanduser("~"), 'Desktop')  # 獲取桌面路徑
    path1 = os.path.join(desktop_path, '去重結(jié)果')
    os.makedirs(path1)

    only_one(path)
    print('\033[32m[-] 現(xiàn)有非重復(fù)文件共計:{}個\033[0m'.format(len(os.listdir(path1))))

在這里插入圖片描述

到此這篇關(guān)于python實現(xiàn)MD5進行文件去重的示例代碼的文章就介紹到這了,更多相關(guān)python MD5文件去重內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • windows系統(tǒng)中python使用rar命令壓縮多個文件夾示例

    windows系統(tǒng)中python使用rar命令壓縮多個文件夾示例

    這篇文章主要介紹了windows系統(tǒng)中python使用rar命令壓縮多個文件夾示例,需要的朋友可以參考下
    2014-05-05
  • pandas數(shù)據(jù)集的端到端處理

    pandas數(shù)據(jù)集的端到端處理

    今天小編就為大家分享一篇關(guān)于pandas數(shù)據(jù)集的端到端處理,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-02-02
  • Python腳本讀取Consul配置信息的方法示例

    Python腳本讀取Consul配置信息的方法示例

    本文主要介紹了Python腳本讀取Consul配置信息的方法示例,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-11-11
  • Python入門教程(三十三)Python的字符串格式化

    Python入門教程(三十三)Python的字符串格式化

    這篇文章主要介紹了Python入門教程(三十三)Python的字符串格式化,為了確保字符串按預(yù)期顯示,我們可以使用 format()方法對結(jié)果進行格式化,需要的朋友可以參考下
    2023-05-05
  • Python中字符編碼簡介、方法及使用建議

    Python中字符編碼簡介、方法及使用建議

    這篇文章主要介紹了Python中字符編碼簡介、方法及使用建議,需要的朋友可以參考下
    2015-01-01
  • Python構(gòu)建簡單線性回歸模型

    Python構(gòu)建簡單線性回歸模型

    這篇文章主要介紹了Python構(gòu)建簡單線性回歸模型,線性回歸表示發(fā)現(xiàn)函數(shù)使用線性組合表示輸入變量。簡單線性回歸很容易理解,使用了基本的回歸技術(shù),一旦理解了這些基本概念,可以更好地學(xué)習(xí)其他類型的回歸模型
    2022-08-08
  • python忽略警告(warning)的3種方法小結(jié)

    python忽略警告(warning)的3種方法小結(jié)

    python開發(fā)中經(jīng)常遇到報錯的情況,但是warning通常并不影響程序的運行,而且有時特別討厭,下面我們來說下如何忽略warning錯誤,這篇文章主要給大家介紹了關(guān)于python忽略警告(warning)的3種方法,需要的朋友可以參考下
    2023-10-10
  • Python協(xié)程實踐分享

    Python協(xié)程實踐分享

    這篇文章主要分享的是Python協(xié)程實踐,協(xié)程簡單來說就是一個更加輕量級的線程,并且不由操作系統(tǒng)內(nèi)核管理,完全由程序所控制,下文相關(guān)介紹需要的朋友可以參考一下
    2022-05-05
  • 對django后臺admin下拉框進行過濾的實例

    對django后臺admin下拉框進行過濾的實例

    今天小編就為大家分享一篇對django后臺admin下拉框進行過濾的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07
  • 徹底理解Python list切片原理

    徹底理解Python list切片原理

    本篇文章主要介紹了Python list切片原理,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-10-10

最新評論