用Python自動下載網(wǎng)站所有文件
最近維基 jie mi 徹底公開了網(wǎng)站的全部文件,我就在想如何使用 Python 將其下載到本地永久保存,于是就有了這篇文章,寫爬蟲會遇到很多坑,借鑒他人經(jīng)驗,考慮越全面,出錯的概率就越小。
假如一個網(wǎng)站,里面有很多鏈接,有指向文件的,有指向新鏈接的,新的鏈接點擊進去后,仍然是有指向文件的,有指向新鏈接的,類似一個文件夾,里面即有文件,又有目錄,目錄中又有文件和目錄。如何從這樣的網(wǎng)站上下載所有的文件,并按網(wǎng)站的目錄結(jié)構(gòu)來保存這些文件呢?
關(guān)鍵詞:Python、下載、正則表達式、遞歸。
按照自頂向下來設(shè)計程序,我們整理自己的思路,然后使用 Python 語言來翻譯下即可。
思路:由于目錄的深度不固定,也不可能窮舉,且每一個目錄的處理方式和子目錄父目錄的處理流程都是一樣的,因此我們可以使用遞歸來下載所有文件。
遞歸代碼必須要有退出條件,退出條件要放在前面,本例中的遞歸退出條件就是:如果是文件就下載,下載完遞歸函數(shù)即完成任務。
總體思路:
1、給定一個 url,判斷是否是文件,如果是文件,下載即可,然后函數(shù)結(jié)束。
2、如果給定 url 不是文件,那么訪問該 url,并獲取它下面的所有鏈接。
3、遍歷步驟 2 產(chǎn)生的所有鏈接,遞歸的執(zhí)行步驟 1 和 2,直到程序運行結(jié)束。
以上思路,用代碼描述如下:
import urllib.request import requests import re, os def get_file(url): ''' 遞歸下載網(wǎng)站的文件 :param url: :return: ''' if isFile(url): print(url) try: download(url) except: pass else: urls = get_url(url) for u in urls: get_file(u)
前面導入的包在接下來函數(shù)中會用到,下面就是逐漸層向下,實現(xiàn)子功能。
判斷鏈接是否指向文件:
這里總結(jié) url 規(guī)律,很容易寫出。
def isFile(url): ''' 判斷一個鏈接是否是文件 :param url: :return: ''' if url.endswith('/'): return False else: return True
下載文件:
下載文件時要從 url 中獲取文件應該存儲的位置,并使用 os.makedirs 來創(chuàng)建多級目錄。然后使用 urllib.request.urlretrieve 來下載文件。
def download(url): ''' :param url:文件鏈接 :return: 下載文件,自動創(chuàng)建目錄 ''' full_name = url.split('//')[-1] filename = full_name.split('/')[-1] dirname = "/".join(full_name.split('/')[:-1]) if os.path.exists(dirname): pass else: os.makedirs(dirname, exist_ok=True) urllib.request.urlretrieve(url, full_name)
獲取 url 下的所有鏈接:
這里要具體網(wǎng)站具體分析,看看如何使用正則表達式獲取網(wǎng)頁中的鏈接,這樣的正則表達式可以說是再簡單不過了。
def get_url(base_url): ''' :param base_url:給定一個網(wǎng)址 :return: 獲取給定網(wǎng)址中的所有鏈接 ''' text = '' try: text = requests.get(base_url).text except Exception as e: print("error - > ",base_url,e) pass reg = '<a href="(.*)" rel="external nofollow" >.*</a>' urls = [base_url + url for url in re.findall(reg, text) if url != '../'] return urls
這里有個小坑,就是網(wǎng)站有個鏈接是返回上級頁面的,url 的后輟是 '../' 這樣的鏈接要去掉,否則遞歸函數(shù)就限入了死循環(huán)。
接下來就是寫主函數(shù),執(zhí)行任務了,慢慢等它下載完吧。
if __name__ == '__main__': get_file('https://file.wikileaks.org/file/')
其實,還會存兩個問題:
1、假如網(wǎng)站某頁有個鏈接它指向了首頁,那么遞歸程序仍然會限入一個死循環(huán),解決方法就是將訪問過的 url 保存在一個列表里(或者其他數(shù)據(jù)結(jié)構(gòu)),如果接下來要訪問的 url 不在此列表中,那么就訪問,否則就忽略。
2、如果下載的過程中程序突然報錯退出了,由于下載文件較慢,為了節(jié)約時間,那么如何讓程序從報錯處繼續(xù)運行呢?這里可采用分層遞歸,一開始時先獲取網(wǎng)站的所有一級 url 鏈接,順序遍歷這些一級 url 鏈接,執(zhí)行上述的 get_file(url) ,每訪問一次一級 url 就將其索引位置加1(索引位置默認為0,存儲在文件中或數(shù)據(jù)庫中),程序中斷后再運行時先讀取索引,然后從索引處開始執(zhí)行即可。另外,每下載成功一個文件,就把對應的 url 也保存在文件中或數(shù)據(jù)庫中,如果一級 url 下的鏈接已經(jīng)下載過文件,那么就不需要重新下載了。
以上就是用Python自動下載網(wǎng)站所有文件的詳細內(nèi)容,更多關(guān)于python 自動下載網(wǎng)站文件的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python?常用內(nèi)置模塊超詳細梳理總結(jié)
模塊是一個包含索引你定義的函數(shù)和變量的文件,其擴展名為.py。模塊可以被其他程序引入,以使用該模塊中的函數(shù)等功能。這也是使用python標準庫的方法2022-03-03Django框架HttpResponse和HttpRequest對象學習
這篇文章主要介紹了Django框架HttpResponse和HttpRequest對象學習,有需要的朋友可以借鑒參考下,希望可以有所幫助,祝大家早日升職加薪2021-09-09Python Diagrams庫以代碼形式生成云系統(tǒng)架構(gòu)圖實例詳解
這篇文章主要介紹了Python Diagrams庫以代碼形式生成云系統(tǒng)架構(gòu)圖實例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2024-01-01微軟開源最強Python自動化神器Playwright(不用寫一行代碼)
這篇文章主要介紹了微軟開源最強Python自動化神器Playwright(不用寫一行代碼),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-01-01python實現(xiàn)同級目錄調(diào)用的示例詳解
同級目錄指的是位于同一級別的文件夾,這些文件夾具有相同的層級結(jié)構(gòu),它們相互平行,沒有一個被包含在另一個之中,本文將給大家介紹python實現(xiàn)同級目錄調(diào)用的示例,需要的朋友可以參考下2024-06-06Python ''takes exactly 1 argument (2 given)'' Python error
這篇文章主要介紹了Python 'takes exactly 1 argument (2 given)' Python error的相關(guān)資料,需要的朋友可以參考下2016-12-12python爬取NUS-WIDE數(shù)據(jù)庫圖片
本文給大家分享的是使用Python制作爬蟲爬取圖片的小程序,非常的簡單,但是很實用,有需要的小伙伴可以參考下2016-10-10Python socket如何實現(xiàn)服務端和客戶端數(shù)據(jù)傳輸(TCP)
這篇文章主要介紹了Python socket如何實現(xiàn)服務端和客戶端數(shù)據(jù)傳輸(TCP),具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-05-05