欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

8行代碼實現(xiàn)Python文件去重

 更新時間:2021年08月10日 10:15:13   作者:Dream丶Killer  
本文主要介紹了Python文件去重,所以就想使用Python自動化解決,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下

需求描述

上周突然接到一個任務(wù),要通過XX網(wǎng)站導出XX年-XX年之間的數(shù)據(jù),導出后的文件名就是對應(yīng)日期,導出后發(fā)現(xiàn),竟然有的文件大小是一樣,但文件名又沒有重復,所以打開文件看了下,確實重復了,原因暫時不清楚,預(yù)測是網(wǎng)站的原因,最后發(fā)現(xiàn)大概只有 30% 的數(shù)據(jù)沒有重復。我淦!

在這里插入圖片描述

啥也不說,首要任務(wù)還是把那些沒有重復的文件給篩選出來,或是刪除重復的文件。文件很多幾百個,通過一個個的對比文件去刪除估計又要加班,然后突然想到 Python 有個內(nèi)置的 filecmp 能夠貌似是比較文件的,于是乎就有了這篇文章~

在這里插入圖片描述

擼代碼ing

導出的文件都是保存在同一文件夾下的,格式也相同。然后,上網(wǎng)查了下 filecmp.cmp() 的用法。

filecmp.cmp(f1, f2, shallow=True)

f1/f2:待比較的兩個文件路徑。shallow :默認為True,即只比較os.stat()獲取的元數(shù)據(jù)(創(chuàng)建時間,大小等信息)是否相同,設(shè)置為False的話,在對比文件的時候還要比較文件內(nèi)容。
from pathlib import Path
import filecmp

path_list = [path for path in Path(r'C:\Users\pc\Desktop\test').iterdir() if path.is_file()]

for front in range(len(path_list) - 1):
    for later in range(front + 1, len(path_list)):
        if filecmp.cmp(path_list[front], path_list[later], shallow=False):
            path_list[front].unlink()    # 刪除文件
            break

為了防止代碼有問題,我先創(chuàng)建了一個 test 文件夾,在文件夾下手動創(chuàng)建了6個文件,1~5中只有1,2,3,4,5對應(yīng)的數(shù)字內(nèi)容,第6個為空文件。

在這里插入圖片描述

之后再將文件全部復制一份。

在這里插入圖片描述

▶️運行效果

請?zhí)砑訄D片描述

到此這篇關(guān)于8行代碼實現(xiàn)Python文件去重的文章就介紹到這了,更多相關(guān)Python文件去重內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python使用Numpy實現(xiàn)Kmeans算法的步驟詳解

    Python使用Numpy實現(xiàn)Kmeans算法的步驟詳解

    將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。這篇文章主要介紹了Python使用Numpy實現(xiàn)Kmeans算法,需要的朋友可以參考下
    2021-11-11
  • python實現(xiàn)SMTP郵件發(fā)送功能

    python實現(xiàn)SMTP郵件發(fā)送功能

    這篇文章主要為大家詳細介紹了python實現(xiàn)SMTP郵件發(fā)送功能的相關(guān)資料,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2016-05-05
  • matplotlib 曲線圖 和 折線圖 plt.plot()實例

    matplotlib 曲線圖 和 折線圖 plt.plot()實例

    這篇文章主要介紹了matplotlib 曲線圖 和 折線圖 plt.plot()實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • python-docx如何刪除所有bookmarks

    python-docx如何刪除所有bookmarks

    在Python-docx庫中,雖然沒有直接刪除書簽的功能,但可以通過操作XML元素,遍歷文檔結(jié)構(gòu)并刪除指定元素來實現(xiàn)刪除所有書簽的目的,首先要明白書簽在XML文件中的位置,然后利用Python-docx提供的element元素遍歷并刪除特定的書簽元素
    2024-09-09
  • 利用matplotlib為圖片上添加觸發(fā)事件進行交互

    利用matplotlib為圖片上添加觸發(fā)事件進行交互

    這篇文章主要介紹了利用matplotlib為圖片上添加觸發(fā)事件進行交互,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • 關(guān)于python selenium 運行時彈出窗口問題

    關(guān)于python selenium 運行時彈出窗口問題

    最近在做一個網(wǎng)頁代填項目,用到了python的selenium知識,經(jīng)過了各種嘗試與搜索最后終算是較完美的解決了,下面小編給大家?guī)砹藀ython selenium 運行時彈出窗口問題,感興趣的朋友一起看看吧
    2021-11-11
  • Python實現(xiàn)圖像的二進制與base64互轉(zhuǎn)

    Python實現(xiàn)圖像的二進制與base64互轉(zhuǎn)

    這篇文章主要為大家介紹了如何在Python中使用OpenCV從而實現(xiàn)圖像轉(zhuǎn)base64編碼、圖像轉(zhuǎn)二進制編碼、二進制轉(zhuǎn)圖像等功能,感興趣的可以跟上小編一起學習一下
    2022-03-03
  • Python實現(xiàn)提取文章摘要的方法

    Python實現(xiàn)提取文章摘要的方法

    這篇文章主要介紹了Python實現(xiàn)提取文章摘要的方法,實例分析了Python提取文章摘要的原理與實現(xiàn)技巧,需要的朋友可以參考下
    2015-04-04
  • Python判斷Nan值的五種方式小結(jié)

    Python判斷Nan值的五種方式小結(jié)

    這篇文章主要介紹了Python判斷Nan值的五種方式小結(jié),具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • Python實現(xiàn)定時任務(wù)

    Python實現(xiàn)定時任務(wù)

    本篇文章主要介紹了Python實現(xiàn)定時任務(wù),主要有5種方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下。
    2017-02-02

最新評論