詳解Python爬取并下載《電影天堂》3千多部電影
不知不覺,玩爬蟲玩了一個多月了。
我愈發(fā)覺得,爬蟲其實并不是什么特別高深的技術(shù),它的價值不在于你使用了什么特別牛的框架,用了多么了不起的技術(shù),它不需要。它只是以一種自動化搜集數(shù)據(jù)的小工具,能夠獲取到想要的數(shù)據(jù),就是它最大的價值。
我的爬蟲課老師也常跟我們強(qiáng)調(diào),學(xué)習(xí)爬蟲最重要的,不是學(xué)習(xí)里面的技術(shù),因為前端技術(shù)在不斷的發(fā)展,爬蟲的技術(shù)便會隨著改變。學(xué)習(xí)爬蟲最重要的是,學(xué)習(xí)它的原理,萬變不離其宗。
爬蟲說白了是為了解決需要,方便生活的。如果能夠在日常生活中,想到并應(yīng)用爬蟲去解決實際的問題,那么爬蟲的真正意義也久發(fā)揮出來了。
這是些閑話啦,有感而發(fā)而已。
最近有點片荒,不知道該看什么電影,而且有些電影在網(wǎng)上找好久也找不到資源。后來我了解到這個網(wǎng)站,發(fā)現(xiàn)最近好多不錯的電影上面都有資源(這里我就先不管它的來源正不正規(guī)啦,#掩面)。
所以這次我們要爬取的網(wǎng)站是:《電影天堂》,屯一些電影,等無聊的時候拿出來看看,消遣消遣也是不錯。
這次的網(wǎng)站,從爬蟲的技術(shù)角度上來講,難度不大,而且可以說是非常簡單了。但是,它實用??!你想嘛,早上上班前跑一下爬蟲,晚上回家以后已經(jīng)有幾十部最新大片在你硬盤里等著你啦,累了一天躺床上看看電影,這種感覺是不是很爽啊。
而且正因為這個爬蟲比較簡單,所以我會寫的稍微細(xì)一點,爭取讓 python 小白們也能盡可能看懂,并且能夠在這個爬蟲的基礎(chǔ)上修改,得到爬取這個網(wǎng)站其他板塊或者其他電影網(wǎng)站的爬蟲。
寫在前面的話
在編寫爬蟲程序之前,我先捋一捋我們的思路。
- 爬蟲的原理,是通過給定的一個 URL(就是類似于 http://www.baidu.com 這樣的,俗稱網(wǎng)址的東東) 請求,去訪問一個網(wǎng)頁,獲取那個網(wǎng)頁上的源代碼(不知道源代碼的,隨便打開一個網(wǎng)頁,右鍵,查看網(wǎng)頁源代碼,出來的一大堆像亂碼一樣的東西就是網(wǎng)頁源代碼,我們需要的數(shù)據(jù)就藏在這些源代碼里面)并返回來。
- 然后,通過一些手段(比如說json庫,BeautifulSoup庫,正則表達(dá)式等)從網(wǎng)頁源代碼中篩選出我們想要的數(shù)據(jù)(當(dāng)然,前提是我們需要分析網(wǎng)頁結(jié)構(gòu),知道自己想要什么數(shù)據(jù),以及這些數(shù)據(jù)存放在網(wǎng)頁的哪兒,存放的位置有什么特征等)。
- 最后,將我們獲取到的數(shù)據(jù)按照一定的格式,存儲到本地或者數(shù)據(jù)庫中,這樣就完成了爬蟲的全部工作。
當(dāng)然,也有一些 「騷操作」,如果你嫌爬蟲效率低,可以開多線程(就是相當(dāng)于幾十只爬蟲同時給你爬,效率直接翻了幾十倍);如果擔(dān)心爬取頻率過高被網(wǎng)站封 IP,可以掛 IP 代理(相當(dāng)于打幾槍換個地方,對方網(wǎng)站就不知道你究竟是爬蟲還是正常訪問的用戶了);如果對方網(wǎng)站有反爬機(jī)制,那么也有一些騷操作可以繞過反爬機(jī)制(有點黑客攻防的感覺,有木有?。?。這些都是后話了。
爬蟲部分
一、分析網(wǎng)站結(jié)構(gòu)(以動作片電影為例)
1. 分析網(wǎng)頁的 URL 的組成結(jié)構(gòu)
首先,我們需要分析網(wǎng)頁的 URL 的組成結(jié)構(gòu),主要關(guān)注兩方面,一是如何切換選擇的電影類型,二是網(wǎng)頁如何翻頁的。
點擊網(wǎng)頁上的電影類型的按鈕,觀察地址欄中的 URL ,發(fā)現(xiàn)網(wǎng)址和電影類型的關(guān)系如下:
電影類型 | 網(wǎng)址 |
劇情片 | https://www.dy2018.com/0/ |
喜劇片 | https://www.dy2018.com/1/ |
動作片 | https://www.dy2018.com/2/ |
愛情片 | https://www.dy2018.com/3/ |
科幻片 | https://www.dy2018.com/4/ |
動畫片 | https://www.dy2018.com/5/ |
懸疑片 | https://www.dy2018.com/6/ |
驚悚片 | https://www.dy2018.com/7/ |
恐怖片 | https://www.dy2018.com/8/ |
記錄片 | https://www.dy2018.com/9/ |
...... | ...... |
災(zāi)難片 | https://www.dy2018.com/18/ |
武俠片 | https://www.dy2018.com/19/ |
古裝片 | https://www.dy2018.com/20/ |
發(fā)現(xiàn)規(guī)律了吧,以后如果想爬其他類型的電影,只要改變 url 中的數(shù)字即可,甚至你可以寫一個循環(huán),把所有板塊中的電影全部爬取下來。
隨便打開一個分類,我們滾動到頁面的最下面,發(fā)現(xiàn)這里有翻頁的按鈕,點擊按鈕翻頁的同時,觀察 url 的變化。
頁碼 | URL |
第一頁 | https://www.dy2018.com/2/index.html |
第二頁 | https://www.dy2018.com/2/index_2.html |
第三頁 | https://www.dy2018.com/2/index_3.html |
第四頁 | https://www.dy2018.com/2/index_4.html |
除了第一頁是 「index」外,其余頁碼均是 「index_頁碼」的形式。
所以我們基本掌握了網(wǎng)站的 url 的構(gòu)成形式,這樣我們就可以通過自己構(gòu)造 url 來訪問任意類型電影的任意一頁了,是不是很酷。
2. 分析網(wǎng)站的頁面結(jié)構(gòu)
其次,我們分析一下網(wǎng)站的頁面結(jié)構(gòu),看一看我們需要的信息都藏在網(wǎng)頁的什么地方(在這之前我們先要明確一下我們需要哪些數(shù)據(jù)),由于我們這個目的是下載電影,所以對我有用的數(shù)據(jù)只有兩個,電影名稱和下載電影的磁力鏈接。
按 F12 召喚出開發(fā)者工具(這個工具可以幫助你快速定位網(wǎng)頁中的元素在 html 源代碼中位置)。
然后,我們可以發(fā)現(xiàn),電影列表中,每一部電影的信息存放在一個 <table> 標(biāo)簽里,而電影的名字,就藏在里面的一個 <a> 標(biāo)簽中。電影下載的磁力鏈接在電影的詳情頁面,而電影詳情頁面的網(wǎng)址也在這個 <a> 標(biāo)簽中( href 屬性的值)。
而下載的磁力鏈接,存放在 <tbody> 標(biāo)簽下的 <a> 標(biāo)簽中,是不是很好找??!
最后我們來縷一縷思路,一會兒我們準(zhǔn)備這樣操作:通過前面的網(wǎng)址的構(gòu)造規(guī)則,訪問到網(wǎng)站的某一頁,然后獲取到這個頁面里的所有 table 標(biāo)簽(這里存放著電影的數(shù)據(jù)),然后從每一個 table 標(biāo)簽中找到存有電影名稱的 a 標(biāo)簽(這里可以拿到電影名稱以及詳情頁面的網(wǎng)址),然后通過這里獲取的網(wǎng)址訪問電影的詳情頁面,在詳情頁面挑選出 <tbody> 標(biāo)簽下的 <a> 標(biāo)簽(這里存放著電影的下載鏈接),這樣我們就找到了我們所需要的全部數(shù)據(jù)了,是不是很簡單啊。
二、爬蟲編碼階段
爬蟲的程序,我一般習(xí)慣把它分成五個部分, 一是主函數(shù),作為程序的入口,二是爬蟲調(diào)度器,三是網(wǎng)絡(luò)請求函數(shù),四是網(wǎng)頁解析函數(shù),五是數(shù)據(jù)存儲函數(shù)。
- get_data :其參數(shù)是目標(biāo)網(wǎng)頁 url,這個函數(shù)可以模擬瀏覽器訪問 url,獲取并將網(wǎng)頁的內(nèi)容返回。
- parse_data :其參數(shù)是網(wǎng)頁的內(nèi)容,這個函數(shù)主要是用來解析網(wǎng)頁內(nèi)容,篩選提取出關(guān)鍵的信息,并打包成列表返回。
- save_data :其參數(shù)是數(shù)據(jù)的列表,這個函數(shù)用來將列表中的數(shù)據(jù)寫入本地的文件中。
- main :這個函數(shù)是爬蟲程序的調(diào)度器,可以根據(jù)事先分析好的 url 的規(guī)則,不斷的構(gòu)造新的請求 url,并調(diào)用其他三個函數(shù),獲取數(shù)據(jù)并保存到本地,直到結(jié)束。
- if __name__ == '__main__' :這是主程序的入口,在這里調(diào)用 main 函數(shù),啟動爬蟲調(diào)度器即可。
# 我們用到的庫 import requests import bs4 import re import pandas as pd
1. 網(wǎng)絡(luò)請求函數(shù) :get_data (url)
負(fù)責(zé)訪問指定的 url 網(wǎng)頁,并將網(wǎng)頁的內(nèi)容返回,此部分功能比較簡單固定,一般不需要做修改(除非你要掛代理,或者自定義請求頭等,可以做一些相應(yīng)的調(diào)整)。
def get_data(url): ''' 功能:訪問 url 的網(wǎng)頁,獲取網(wǎng)頁內(nèi)容并返回 參數(shù): url :目標(biāo)網(wǎng)頁的 url 返回:目標(biāo)網(wǎng)頁的 html 內(nèi)容 ''' headers = { 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } try: r = requests.get(url, headers=headers) r.raise_for_status() return r.text except requests.HTTPError as e: print(e) print("HTTPError") except requests.RequestException as e: print(e) except: print("Unknown Error !")
2. 網(wǎng)頁解析函數(shù):parse_data(html)
這個函數(shù)是整個爬蟲程序的核心所在,整體思路在上一部分已經(jīng)講過了。我這里使用的庫是 BeautifulSoup。
這部分的寫法多種多樣,有很多發(fā)揮的空間,也沒有什么太多固定的模式,因為這部分的寫法是要隨著不同網(wǎng)站的頁面結(jié)構(gòu)來做調(diào)整的,比如說有的網(wǎng)站提供了數(shù)據(jù)的 api 接口,那么返回的數(shù)據(jù)就是 json 格式,我們只需要調(diào)用 json 庫就可以完成數(shù)據(jù)解析,而大部分的網(wǎng)站只能通過從網(wǎng)頁源代碼中一層層篩選(篩選手段也多種多樣,什么正則表達(dá)式,beautifulsoup等等)。
這里需要根據(jù)數(shù)據(jù)的形式來選擇不同的篩選策略,所以,知道原理就可以了,習(xí)慣什么方法就用什么方法,反正最后能拿到數(shù)據(jù)就好了。
def parse_data(html): ''' 功能:提取 html 頁面信息中的關(guān)鍵信息,并整合一個數(shù)組并返回 參數(shù):html 根據(jù) url 獲取到的網(wǎng)頁內(nèi)容 返回:存儲有 html 中提取出的關(guān)鍵信息的數(shù)組 ''' bsobj = bs4.BeautifulSoup(html,'html.parser') info = [] # 獲取電影列表 tbList = bsobj.find_all('table', attrs = {'class': 'tbspan'}) # 對電影列表中的每一部電影單獨處理 for item in tbList: movie = [] link = item.b.find_all('a')[1] # 獲取電影的名稱 name = link["title"] # 獲取詳情頁面的 url url = 'https://www.dy2018.com' + link["href"] # 將數(shù)據(jù)存放到電影信息列表里 movie.append(name) movie.append(url) try: # 訪問電影的詳情頁面,查找電影下載的磁力鏈接 temp = bs4.BeautifulSoup(get_data(url),'html.parser') tbody = temp.find_all('tbody') # 下載鏈接有多個(也可能沒有),這里將所有鏈接都放進(jìn)來 for i in tbody: download = i.a.text movie.append(download) #print(movie) # 將此電影的信息加入到電影列表中 info.append(movie) except Exception as e: print(e) return info
3. 數(shù)據(jù)存儲函數(shù):save_data(data)
這個函數(shù)目的是將數(shù)據(jù)存儲到本地文件或數(shù)據(jù)庫中,具體的寫法要根據(jù)實際需要的存儲形式來定,我這里是將數(shù)據(jù)存放在本地的 csv 文件中。
當(dāng)然這個函數(shù)也并不只能做這些事兒,比如你可以在這里寫一些簡單的數(shù)據(jù)處理的操作,比如說:數(shù)據(jù)清洗,數(shù)據(jù)去重等操作。
def save_data(data): ''' 功能:將 data 中的信息輸出到文件中/或數(shù)據(jù)庫中。 參數(shù):data 將要保存的數(shù)據(jù) ''' filename = 'Data/電影天堂/動作片.csv' dataframe = pd.DataFrame(data) dataframe.to_csv(filename, mode='a', index=False, sep=',', header=False)
4. 爬蟲調(diào)度器:main()
這個函數(shù)負(fù)責(zé)根據(jù) url 生成規(guī)則,構(gòu)造新的 url 請求,然后依次調(diào)用網(wǎng)絡(luò)請求函數(shù),網(wǎng)頁解析函數(shù),數(shù)據(jù)存儲函數(shù),爬取并保存該頁數(shù)據(jù)。
所謂爬蟲調(diào)度器,就是控制爬蟲什么時候開始爬,多少只爬蟲一起爬,爬哪個網(wǎng)頁,爬多久休息一次,等等這些事兒。
def main(): # 循環(huán)爬取多頁數(shù)據(jù) for page in range(1, 114): print('正在爬?。旱? + str(page) + '頁......') # 根據(jù)之前分析的 URL 的組成結(jié)構(gòu),構(gòu)造新的 url if page == 1: index = 'index' else: index = 'index_' + str(page) url = 'https://www.dy2018.com/2/'+ index +'.html' # 依次調(diào)用網(wǎng)絡(luò)請求函數(shù),網(wǎng)頁解析函數(shù),數(shù)據(jù)存儲函數(shù),爬取并保存該頁數(shù)據(jù) html = get_data(url) movies = parse_data(html) save_data(movies) print('第' + str(page) + '頁完成!')
5. 主函數(shù):程序入口
主函數(shù)作為程序的入口,只負(fù)責(zé)啟動爬蟲調(diào)度器。
這里我一般習(xí)慣在 main() 函數(shù)前后輸出一條語句,以此判斷爬蟲程序是否正常啟動和結(jié)束。
if __name__ == '__main__': print('爬蟲啟動成功!') main() print('爬蟲執(zhí)行完畢!')
三、程序運(yùn)行結(jié)果
運(yùn)行了兩個小時左右吧,終于爬完了 113 頁,共 3346 部動作片電影的數(shù)據(jù)(本來不止這些的,但是有一些電影沒有提供下載鏈接,我在 excel 中排序后直接手動剔除了)。
然后想看什么電影的話,直接復(fù)制這些電影下載的磁力鏈接,到迅雷里面下載就好啦。
四、爬蟲程序的一些小優(yōu)化
1. 在網(wǎng)站提供的下載鏈接中,我試了一下,發(fā)現(xiàn) magnet 開頭的這類鏈接放在迅雷中可以直接下載,而 ftp 開頭的鏈接在迅雷中總顯示資源獲取失?。ㄎ也恢朗遣皇俏掖蜷_的方式不對,反正就是下載不來),于是我對程序做了一些小的調(diào)整,使其只獲取 magnet 這類的鏈接。
修改的方式也很簡單,只需要調(diào)整 網(wǎng)頁解析函數(shù) 即可(爬蟲的五個部分是相對獨立的,修改時只需調(diào)整相應(yīng)的模塊即可,其余部分無需修改)。
def parse_data(html): ''' 功能:提取 html 頁面信息中的關(guān)鍵信息,并整合一個數(shù)組并返回 參數(shù):html 根據(jù) url 獲取到的網(wǎng)頁內(nèi)容 返回:存儲有 html 中提取出的關(guān)鍵信息的數(shù)組 ''' bsobj = bs4.BeautifulSoup(html,'html.parser') info = [] # 獲取表頭信息 tbList = bsobj.find_all('table', attrs = {'class': 'tbspan'}) for item in tbList: movie = [] link = item.b.find_all('a')[1] name = link["title"] url = 'https://www.dy2018.com' + link["href"] try: # 查找電影下載的磁力鏈接 temp = bs4.BeautifulSoup(get_data(url),'html.parser') tbody = temp.find_all('tbody') for i in tbody: download = i.a.text if 'magnet:?xt=urn:btih' in download: movie.append(name) movie.append(url) movie.append(download) #print(movie) info.append(movie) break except Exception as e: print(e) return info
注意代碼 26 行處,我加了一個 if 語句的判斷,如果下載鏈接中包含 magnet:?xt=urn:btih 字符串,則視為有效鏈接,下載下來,否則跳過。
2. 我一直在想能不能有個辦法讓迅雷一鍵批量下載我們爬到的電影。使用 python 操縱第三方的軟件,這其實挺難的。不過后來找到了一種方法,也算是解決了這個問題。
就是我們發(fā)現(xiàn)迅雷軟件啟動后,會自動檢測我們的剪切板,只要我們復(fù)制了下載鏈接,它便會自動彈出下載的提示框。借助這個思路,我們可以使用代碼,將下載的鏈接復(fù)制進(jìn)入剪切板,等下載框自動出現(xiàn)后,手動確認(rèn)開始下載(這是我目前想到的最好的辦法了,不知道各位大佬有沒有更好的思路,歡迎指導(dǎo)交流)。
import pyperclip import os import pandas as pd imageData = pd.read_csv("Data/電影天堂/動作片2.csv",names=['name','link','download'],encoding = 'gbk') # 獲取電影的下載鏈接,并用換行符分隔 a_link = imageData['download'] links = '\n'.join(a_link) # 復(fù)制到剪切板 pyperclip.copy(links); print('已粘貼'); # 打開迅雷 thunder_path = r'D:\Program Files (x86)\Thunder Network\Thunder9\Program\Thunder.exe' os.startfile(thunder_path)
親測可以實現(xiàn),但是。。。不建議嘗試(你能想象迅雷打開的一瞬間創(chuàng)建幾百個下載任務(wù)的場景嗎?反正我的電腦是緩了好久好久才反應(yīng)過來)。大家還是老老實實的,手動復(fù)制鏈接下載吧(csv文件可以用 excel 打開,豎著選中一列,然后復(fù)制,也能達(dá)到相同的效果) ,這種騷操作太蠢了還是不要試了。
寫在后面的話
啰啰嗦嗦的寫了好多,也不知道關(guān)鍵的問題講清楚了沒有。有哪里沒講清楚,或者哪里講的不合適的話,歡迎騷擾。
其實吧,寫文章,寫博客,寫教程,都是一個知識重新熔煉內(nèi)化的過程,在寫這篇博客的時候,我也一直在反復(fù)審視我學(xué)習(xí)爬蟲的過程,以及我爬蟲代碼一步步的變化,從一開始的所有代碼全部揉在主函數(shù)中,到后來把一些變動較少的功能提取出來,寫成單獨的函數(shù),再到后來形成基本穩(wěn)定的五大部分。
以至于在我后來學(xué)習(xí)使用 scrapy 框架時候,驚人的發(fā)現(xiàn) scrapy 框架的結(jié)構(gòu)跟我的爬蟲結(jié)構(gòu)有著異曲同工之妙,我的這個相當(dāng)于是一個簡易版的爬蟲框架了,純靠自己摸索達(dá)到這個效果,我感覺還是挺有成就感的。
以上所述是小編給大家介紹的Python爬取并下載《電影天堂》3千多部電影詳解整合,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
- Python爬蟲入門教程01之爬取豆瓣Top電影
- python使用re模塊爬取豆瓣Top250電影
- 用Python 爬取貓眼電影數(shù)據(jù)分析《無名之輩》
- Python利用Scrapy框架爬取豆瓣電影示例
- Python爬取愛奇藝電影信息代碼實例
- Python實現(xiàn)的爬取豆瓣電影信息功能案例
- python實現(xiàn)的爬取電影下載鏈接功能示例
- Python使用mongodb保存爬取豆瓣電影的數(shù)據(jù)過程解析
- Python爬蟲——爬取豆瓣電影Top250代碼實例
- python使用BeautifulSoup與正則表達(dá)式爬取時光網(wǎng)不同地區(qū)top100電影并對比
- python使用requests模塊實現(xiàn)爬取電影天堂最新電影信息
- 一個簡單的python爬蟲程序 爬取豆瓣熱度Top100以內(nèi)的電影信息
- python正則表達(dá)式爬取貓眼電影top100
- 教你怎么用python爬取愛奇藝熱門電影
相關(guān)文章
Python實現(xiàn)C#代碼生成器應(yīng)用服務(wù)于Unity示例解析
為了滿足項目需要,需要實現(xiàn)一個c#代碼生成器,為此設(shè)計了一個語法模板適用于Unity的代碼生成器。本次使用了Python的Template模板,使用python開發(fā)2021-10-10PyQt5結(jié)合QtDesigner實現(xiàn)文本框讀寫操作
本文將結(jié)合實例代碼,介紹PyQt5結(jié)合QtDesigner實現(xiàn)文本框讀寫操作,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-06-06Python可變參數(shù)會自動填充前面的默認(rèn)同名參數(shù)實例
今天小編就為大家分享一篇Python可變參數(shù)會自動填充前面的默認(rèn)同名參數(shù)實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-11-11Python函數(shù)遞歸調(diào)用實現(xiàn)原理實例解析
這篇文章主要介紹了Python函數(shù)遞歸調(diào)用實現(xiàn)原理過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-08-08利用python實現(xiàn)微信頭像加紅色數(shù)字功能
通過Python實現(xiàn)將你的 QQ 頭像(或者微博頭像)右上角加上紅色的數(shù)字,類似于微信未讀信息數(shù)量那種提示效果。下面通過本文給大家分享python實現(xiàn)微信頭像加紅色數(shù)字功能,感興趣的朋友一起看看吧2018-03-03