快捷導(dǎo)航

Python實(shí)現(xiàn)查找并刪除重復(fù)文件的方法小結(jié)

更新時(shí)間：2025年03月08日 13:36:36 作者：Bruce_xiaowei

這篇文章主要為大家詳細(xì)介紹了如何使用Python編寫一個(gè)簡(jiǎn)單的腳本來(lái)查找并刪除指定目錄及其子目錄中的重復(fù)文件,需要的可以參考一下

1. 引言

隨著計(jì)算機(jī)存儲(chǔ)技術(shù)的發(fā)展，硬盤容量越來(lái)越大，但隨之而來(lái)的文件管理問題也日益突出。尤其是當(dāng)多個(gè)用戶或應(yīng)用程序在同一系統(tǒng)中工作時(shí)，很容易產(chǎn)生大量的重復(fù)文件。這些重復(fù)文件不僅浪費(fèi)了寶貴的存儲(chǔ)空間，還可能影響系統(tǒng)的性能。因此，定期清理重復(fù)文件是非常有必要的。

本文將介紹一種基于Python的解決方案，利用哈希算法（如MD5）來(lái)高效地查找并刪除重復(fù)文件。

2. 環(huán)境準(zhǔn)備

為了運(yùn)行本文提供的代碼，您需要：

Python 3.x 版本

安裝了os和hashlib模塊（這兩個(gè)模塊是Python標(biāo)準(zhǔn)庫(kù)的一部分，無(wú)需額外安裝）

確保您的環(huán)境中已正確安裝了Python，并且可以正常導(dǎo)入上述模塊。

3. 核心代碼解析

3.1 計(jì)算文件的MD5哈希值

def file_hash(filepath):
    """計(jì)算文件的MD5哈希值"""
    hash_md5 = hashlib.md5()
    with open(filepath, "rb") as f:
        for chunk in iter(lambda: f.read(4096), b""):
            hash_md5.update(chunk)
    return hash_md5.hexdigest()

該函數(shù)接受一個(gè)文件路徑作為參數(shù)，返回其MD5哈希值。它通過逐塊讀取文件內(nèi)容（每次讀取4096字節(jié)），以避免一次性加載整個(gè)文件到內(nèi)存中，從而提高效率并減少內(nèi)存占用。

3.2 查找并刪除重復(fù)文件

def find_and_confirm_delete_duplicates(root_dir):
    """在指定目錄下查找并確認(rèn)刪除重復(fù)文件"""
    hashes = {}
    duplicates = []

    # 遍歷指定目錄及其所有子目錄
    for dirpath, _, filenames in os.walk(root_dir):
        for filename in filenames:
            filepath = os.path.join(dirpath, filename)
            try:
                file_hash_value = file_hash(filepath)
                if file_hash_value in hashes:
                    duplicates.append(filepath)
                else:
                    hashes[file_hash_value] = filepath
            except Exception as e:
                print(f"Error processing file {filepath}: {e}")

    # 創(chuàng)建Tkinter根窗口
    root = tk.Tk()
    root.withdraw()  # 隱藏主窗口

    # 遍歷重復(fù)文件列表，逐個(gè)確認(rèn)是否刪除
    for dup in duplicates:
        # 顯示確認(rèn)對(duì)話框
        response = messagebox.askyesno("Confirm Deletion", f"Do you want to delete the duplicate file:\n{dup}")
        if response:
            try:
                os.remove(dup)
                print(f"Deleted duplicate file: {dup}")
            except Exception as e:
                print(f"Error deleting file {dup}: {e}")
        else:
            print(f"Skipped deletion of duplicate file: {dup}")

    root.destroy()  # 銷毀Tkinter根窗口

此函數(shù)遍歷給定的根目錄及其所有子目錄，檢查每個(gè)文件的內(nèi)容是否與其他文件相同。如果發(fā)現(xiàn)相同的文件，則將其添加到duplicates列表中，最后批量刪除這些重復(fù)文件。

3.3刪除確認(rèn)

引入tkinter和messagebox：用于創(chuàng)建圖形用戶界面并顯示確認(rèn)對(duì)話框。

創(chuàng)建Tkinter根窗口：隱藏主窗口以避免不必要的顯示干擾。

確認(rèn)刪除操作：對(duì)于每個(gè)發(fā)現(xiàn)的重復(fù)文件，使用messagebox.askyesno()彈出確認(rèn)對(duì)話框。用戶點(diǎn)擊“是”則刪除文件，點(diǎn)擊“否”則跳過該文件。

異常處理：增加了對(duì)文件讀取和刪除操作中的異常處理，確保程序不會(huì)因單個(gè)文件的問題而崩潰。

使用說(shuō)明：

將上述代碼保存為一個(gè)Python文件（例如remove_duplicates_with_confirmation.py）。

修改代碼中的root_directory變量，使其指向您想要清理的文件夾路徑。

在命令行中運(yùn)行該P(yáng)ython腳本：

python remove_duplicates_with_confirmation.py

通過這種方式，您可以更安全地管理文件，確保每次刪除操作都經(jīng)過用戶的確認(rèn)。

4. 功能詳解

4.1 文件哈希值計(jì)算

我們選擇使用MD5算法來(lái)計(jì)算文件的哈希值。MD5是一種廣泛使用的加密散列函數(shù)，能夠生成固定長(zhǎng)度的字符串，該字符串幾乎不可能與任何其他輸入產(chǎn)生相同的輸出。因此，兩個(gè)文件具有相同的MD5哈希值意味著它們的內(nèi)容完全一致。

4.2 遍歷目錄結(jié)構(gòu)

os.walk()是一個(gè)非常有用的函數(shù)，它可以遞歸地遍歷指定目錄及其所有子目錄。對(duì)于每個(gè)目錄，它會(huì)返回三個(gè)值：當(dāng)前目錄路徑、當(dāng)前目錄下的子目錄名列表以及當(dāng)前目錄下的文件名列表。這使得我們可以輕松地訪問和處理每一個(gè)文件。

4.3 刪除重復(fù)文件

一旦確定了哪些文件是重復(fù)的，就可以使用os.remove()函數(shù)將它們從文件系統(tǒng)中刪除。需要注意的是，在實(shí)際應(yīng)用中應(yīng)謹(jǐn)慎操作，最好先備份重要數(shù)據(jù)，或者僅將重復(fù)文件移動(dòng)到另一個(gè)位置進(jìn)行審查。

5. 使用示例

假設(shè)您有一個(gè)包含許多圖片、文檔等文件的文件夾，并且懷疑其中存在重復(fù)項(xiàng)?？梢酝ㄟ^以下步驟使用我們的腳本：

將上述代碼保存為一個(gè)Python文件（例如remove_duplicates.py）。

修改代碼中的root_directory變量，使其指向您想要清理的文件夾路徑。

在命令行中運(yùn)行該P(yáng)ython腳本：

python remove_duplicates.py

6. 源碼

# 導(dǎo)入必要的模塊
import os
import hashlib
import tkinter as tk
from tkinter import messagebox

def file_hash(filepath):
    """計(jì)算文件的MD5哈希值"""
    hash_md5 = hashlib.md5()
    with open(filepath, "rb") as f:
        for chunk in iter(lambda: f.read(4096), b""):
            hash_md5.update(chunk)
    return hash_md5.hexdigest()

def find_and_confirm_delete_duplicates(root_dir):
    """在指定目錄下查找并確認(rèn)刪除重復(fù)文件"""
    hashes = {}
    duplicates = []

    # 遍歷指定目錄及其所有子目錄
    for dirpath, _, filenames in os.walk(root_dir):
        for filename in filenames:
            filepath = os.path.join(dirpath, filename)
            try:
                file_hash_value = file_hash(filepath)
                if file_hash_value in hashes:
                    duplicates.append(filepath)
                else:
                    hashes[file_hash_value] = filepath
            except Exception as e:
                print(f"Error processing file {filepath}: {e}")

    # 創(chuàng)建Tkinter根窗口
    root = tk.Tk()
    root.withdraw()  # 隱藏主窗口

    # 遍歷重復(fù)文件列表，逐個(gè)確認(rèn)是否刪除
    for dup in duplicates:
        # 顯示確認(rèn)對(duì)話框
        response = messagebox.askyesno("Confirm Deletion", f"Do you want to delete the duplicate file:\n{dup}")
        if response:
            try:
                os.remove(dup)
                print(f"Deleted duplicate file: {dup}")
            except Exception as e:
                print(f"Error deleting file {dup}: {e}")
        else:
            print(f"Skipped deletion of duplicate file: {dup}")

    root.destroy()  # 銷毀Tkinter根窗口

# 使用示例
if __name__ == "__main__":
    # 指定要查找重復(fù)文件的根目錄路徑
    root_directory = input("請(qǐng)輸入要查找的目錄：")  # 替換為你的目錄路徑
    # 調(diào)用函數(shù)查找并確認(rèn)刪除重復(fù)文件
    find_and_confirm_delete_duplicates(root_directory)

/Users/liuxiaowei/PycharmProjects/AI大模型/.venv/bin/python /Users/liuxiaowei/PycharmProjects/AI大模型/Kimi模型/查找并刪除重復(fù)文件.py
請(qǐng)輸入要查找的目錄： /Users/liuxiaowei/Downloads

7. 注意事項(xiàng)

數(shù)據(jù)安全性：在執(zhí)行刪除操作之前，請(qǐng)務(wù)必確認(rèn)確實(shí)不需要保留這些文件。建議先備份重要數(shù)據(jù)，或者只將重復(fù)文件移至臨時(shí)位置進(jìn)行進(jìn)一步檢查。

性能考慮：對(duì)于非常大的文件集，計(jì)算哈希值可能會(huì)比較耗時(shí)。可以根據(jù)實(shí)際情況調(diào)整每次讀取的字節(jié)數(shù)（默認(rèn)為4096），以優(yōu)化性能。

跨平臺(tái)兼容性：雖然本文提供的代碼適用于大多數(shù)操作系統(tǒng)，但在不同平臺(tái)上使用時(shí)仍需注意路徑分隔符等問題。

8. 總結(jié)

通過使用Python編寫一個(gè)簡(jiǎn)單的腳本，我們可以高效地查找并刪除指定目錄及其子目錄中的重復(fù)文件。這種方法不僅節(jié)省了磁盤空間，還提高了文件管理的效率。

到此這篇關(guān)于Python實(shí)現(xiàn)查找并刪除重復(fù)文件的方法小結(jié)的文章就介紹到這了,更多相關(guān)Python查找與刪除重復(fù)文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！