Python實現(xiàn)一鍵整理百度云盤中重復無用文件
有沒有頭疼過百度云盤都要塞滿了,可是又沒有工具能剔除大量重復無用的文件?這里教你一個簡單的方法,通過整理目錄的方式來處理我們云盤中無用的文件吧。
獲取云盤緩存目錄
使用 Everything 找到云盤緩存 db 文件,復制到腳本的目錄下。
云盤數(shù)據(jù)整理
我們發(fā)現(xiàn)這個是一個 sqlite3 的文件,用 Navicat 打開先看看。
我們所有云盤的文件以及對應的路徑保存在 cache_file 中,直接導出可能會有些問題,所以我們用 pandas 來處理數(shù)據(jù)就可以了。
云盤數(shù)據(jù)導出
我的云盤導出來了 40MB 的目錄數(shù)據(jù),看著都頭疼。
數(shù)據(jù)整理
把云盤的目錄數(shù)據(jù)導出到 excel,后去該怎么處理就怎么處理吧。代碼非常少,如果喜歡用 python 處理就用 pandas 處理,如果感覺有困難直接在 excel 中處理就可以了。
import sqlite3 import pandas as pd file_dict = {} con = sqlite3.connect('BaiduYunCacheFileV0.db') cursor = con.cursor() cursor.execute("select * from cache_file") values = cursor.fetchall() df = pd.DataFrame(values,columns=["id","fid","parent_path","server_filename","file_size","md5","isdir","category","server_mtime","local_mtime","reserved1","reserved2","reserved3","reserved4","reserved5","reserved6","reserved7","reserved8","reserved9"]) df.to_excel("data.xlsx")
重復文件提取
這個由于百度云盤沒有對應的API接口可以使用爬蟲的方式進行網(wǎng)頁的操作對重復數(shù)據(jù)進行刪除,但是容易誤操作,所以還是手動把要處理的數(shù)據(jù)整理出來然后進行操作把。
通過文件名稱判斷重復,有了結果后續(xù)自己處理就好了。
df["server_filename"].duplicated() 0 False 1 False 2 False 3 False 4 False ... 379563 False 379564 False 379565 True 379566 True 379567 False Name: server_filename, Length: 379568, dtype: bool df[df["server_filename"].duplicated()]["server_filename"] 188 WE_rk_nos06.txt 252 django.po 254 django.po 255 django.po 256 django.po ... 378517 video.mp4 378518 top_level.txt 378543 Blog_articleinfo.xlsx 379565 apps 379566 職業(yè)培訓規(guī)劃.mmap Name: server_filename, Length: 152409, dtype: object
到此這篇關于Python實現(xiàn)一鍵整理百度云盤中重復無用文件的文章就介紹到這了,更多相關Python整理重復文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
教你Pycharm安裝使用requests第三方庫的詳細教程
PyCharm安裝第三方庫是十分方便的,無需pip或其他工具,平臺就自帶了這個功能而且操作十分簡便,今天通過本文帶領大家學習Pycharm安裝使用requests第三方庫的詳細教程,感興趣的朋友一起看看吧2021-07-07如何以Winsows Service方式運行JupyterLab
這篇文章主要介紹了如何以Winsows Service方式運行JupyterLab的教程2020-08-08Python實現(xiàn)通過解析域名獲取ip地址的方法分析
這篇文章主要介紹了Python實現(xiàn)通過解析域名獲取ip地址的方法,結合實例形式總結分析了兩種比較常見的解析域名對應IP地址相關操作技巧,需要的朋友可以參考下2019-05-05