Python實(shí)現(xiàn)一鍵整理百度云盤中重復(fù)無用文件
有沒有頭疼過百度云盤都要塞滿了,可是又沒有工具能剔除大量重復(fù)無用的文件?這里教你一個(gè)簡單的方法,通過整理目錄的方式來處理我們云盤中無用的文件吧。
獲取云盤緩存目錄
使用 Everything 找到云盤緩存 db 文件,復(fù)制到腳本的目錄下。
云盤數(shù)據(jù)整理
我們發(fā)現(xiàn)這個(gè)是一個(gè) sqlite3 的文件,用 Navicat 打開先看看。
我們所有云盤的文件以及對應(yīng)的路徑保存在 cache_file 中,直接導(dǎo)出可能會有些問題,所以我們用 pandas 來處理數(shù)據(jù)就可以了。
云盤數(shù)據(jù)導(dǎo)出
我的云盤導(dǎo)出來了 40MB 的目錄數(shù)據(jù),看著都頭疼。
數(shù)據(jù)整理
把云盤的目錄數(shù)據(jù)導(dǎo)出到 excel,后去該怎么處理就怎么處理吧。代碼非常少,如果喜歡用 python 處理就用 pandas 處理,如果感覺有困難直接在 excel 中處理就可以了。
import sqlite3 import pandas as pd file_dict = {} con = sqlite3.connect('BaiduYunCacheFileV0.db') cursor = con.cursor() cursor.execute("select * from cache_file") values = cursor.fetchall() df = pd.DataFrame(values,columns=["id","fid","parent_path","server_filename","file_size","md5","isdir","category","server_mtime","local_mtime","reserved1","reserved2","reserved3","reserved4","reserved5","reserved6","reserved7","reserved8","reserved9"]) df.to_excel("data.xlsx")
重復(fù)文件提取
這個(gè)由于百度云盤沒有對應(yīng)的API接口可以使用爬蟲的方式進(jìn)行網(wǎng)頁的操作對重復(fù)數(shù)據(jù)進(jìn)行刪除,但是容易誤操作,所以還是手動把要處理的數(shù)據(jù)整理出來然后進(jìn)行操作把。
通過文件名稱判斷重復(fù),有了結(jié)果后續(xù)自己處理就好了。
df["server_filename"].duplicated() 0 False 1 False 2 False 3 False 4 False ... 379563 False 379564 False 379565 True 379566 True 379567 False Name: server_filename, Length: 379568, dtype: bool df[df["server_filename"].duplicated()]["server_filename"] 188 WE_rk_nos06.txt 252 django.po 254 django.po 255 django.po 256 django.po ... 378517 video.mp4 378518 top_level.txt 378543 Blog_articleinfo.xlsx 379565 apps 379566 職業(yè)培訓(xùn)規(guī)劃.mmap Name: server_filename, Length: 152409, dtype: object
到此這篇關(guān)于Python實(shí)現(xiàn)一鍵整理百度云盤中重復(fù)無用文件的文章就介紹到這了,更多相關(guān)Python整理重復(fù)文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python3實(shí)現(xiàn)漢語轉(zhuǎn)換為漢語拼音
這篇文章主要為大家詳細(xì)介紹了Python3實(shí)現(xiàn)漢語轉(zhuǎn)換為漢語拼音,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-07-07pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作
這篇文章主要介紹了pandas快速處理Excel,替換Nan,轉(zhuǎn)字典的操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03教你Pycharm安裝使用requests第三方庫的詳細(xì)教程
PyCharm安裝第三方庫是十分方便的,無需pip或其他工具,平臺就自帶了這個(gè)功能而且操作十分簡便,今天通過本文帶領(lǐng)大家學(xué)習(xí)Pycharm安裝使用requests第三方庫的詳細(xì)教程,感興趣的朋友一起看看吧2021-07-07如何以Winsows Service方式運(yùn)行JupyterLab
這篇文章主要介紹了如何以Winsows Service方式運(yùn)行JupyterLab的教程2020-08-08Python實(shí)現(xiàn)通過解析域名獲取ip地址的方法分析
這篇文章主要介紹了Python實(shí)現(xiàn)通過解析域名獲取ip地址的方法,結(jié)合實(shí)例形式總結(jié)分析了兩種比較常見的解析域名對應(yīng)IP地址相關(guān)操作技巧,需要的朋友可以參考下2019-05-05