快捷導(dǎo)航

Python爬蟲抓取豆瓣TOP250數(shù)據(jù)從分析到實踐的全過程(詳細(xì)圖解)

更新時間：2025年10月25日 08:56:31 作者：蔣星熠Jaxonic

本文介紹了使用Python爬取豆瓣電影Top250數(shù)據(jù)的方法,首先驗證了目標(biāo)數(shù)據(jù)在頁面源代碼中,然后通過requests模塊獲取頁面內(nèi)容,添加請求頭繞過反爬機制,接著使用re模塊編寫正則表達(dá)式,采用惰性匹配模式提取信息,通過循環(huán)實現(xiàn)翻頁爬取,將10頁共250條數(shù)據(jù)保存為CSV文件

一、開門見山，探究網(wǎng)頁結(jié)構(gòu)

在爬取之前我們要確定需要的數(shù)據(jù)究竟是在頁面源代碼里，還是不在頁面源代碼里（是不是一次性全加載進(jìn)來的），如果頁面源代碼里沒有想要的數(shù)據(jù)，說明還有其它請求獲取的數(shù)據(jù)。

讓我們打開頁面：

右鍵查看頁面源代碼，Ctrl+/頁面搜索關(guān)鍵詞：肖申克

可以看到這時候我們需要的數(shù)據(jù)是都在頁面源代碼里的，驗證了我們的想法：該頁面數(shù)據(jù)是一次性全加載進(jìn)來的,因此得到以下思路。

二、確定思路

1.拿到頁面源代碼/響應(yīng)

2.編寫正則，提取頁面數(shù)據(jù)

3.保存數(shù)據(jù)

三、步驟詳解

1.初步爬取

1.1 確定請求方式

接下來按F12，進(jìn)入開發(fā)者工具看看怎么個事兒，發(fā)現(xiàn)有個Top250（這個就是第一頁的頁面url鏈接，即響應(yīng)就是頁面源代碼）

1.2 引入request模塊

發(fā)現(xiàn)這里的請求是Get,因此引入request模塊，導(dǎo)入request.get(頁面鏈接)

?

import requests

url="https://movie.douban.com/top250"

resp=requests.get(url)  #獲取對應(yīng)頁面url的請求響應(yīng)

pageSource=resp.text   #把頁面源代碼輸出

print(pageSource)  #打印

這時候運行發(fā)現(xiàn)結(jié)果是空的：
?

2.繞過反爬

2.1 加入請求頭

說明缺少一個反爬的驗證，瀏覽器自動攔截了，這時候需要加一個請求頭

import requests

url="https://movie.douban.com/top250"

headers={

"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"

}
resp=requests.get(url,headers=headers)

pageSource=resp.text

print(pageSource)

這樣就可以了：

?

3.編寫正則表達(dá)式與正則匹配

3.1 編寫正則表達(dá)式

接下來就需要進(jìn)行數(shù)據(jù)分離：

引入re模塊，編寫正則表達(dá)式：

首先從標(biāo)題開始提取，從<div class="item">為開頭，目標(biāo)是第二個框里的文字內(nèi)容，這時候需要用到惰性匹配：.*?

?

3.2 對比表格

特性 .* (貪婪) .*? (非貪婪/懶惰)
核心原則 匹配盡可能多的字符匹配盡可能少的字符
別名貪婪模式非貪婪模式、懶惰模式、最小匹配模式
回溯行為 先吃到尾，再往回找吃一個看一次，滿足就停
示例文本 Hello "World" and "Universe" Hello "World" and "Universe"
正則 ".*" ".*?"
匹配結(jié)果 一個結(jié)果："World" and "Universe" 兩個結(jié)果："World" 和 "Universe"
適用場景 匹配大塊的、從開始標(biāo)志到結(jié)束標(biāo)志之間的所有內(nèi)容匹配多個、成對標(biāo)簽/引號之間的單個內(nèi)容
這里樣例的惰性匹配的結(jié)果是兩個結(jié)果的額原因是開啟了全局模式

沒有 g 標(biāo)志：

引擎在找到第一個匹配項后就停止。

有 g 標(biāo)志：

引擎在找到第一個匹配項后，會從上次匹配結(jié)束的位置開始，繼續(xù)尋找下一個匹配項。

特性	`.*` (貪婪)	`.*?` (非貪婪/懶惰)
核心原則	匹配盡可能多的字符	匹配盡可能少的字符
別名	貪婪模式	非貪婪模式、懶惰模式、最小匹配模式
回溯行為	先吃到尾，再往回找	吃一個看一次，滿足就停
示例文本	`Hello "World" and "Universe"`	`Hello "World" and "Universe"`
正則	`".*"`	`".*?"`
匹配結(jié)果	一個結(jié)果：`"World" and "Universe"`	兩個結(jié)果：`"World"` 和 `"Universe"`
適用場景	匹配大塊的、從開始標(biāo)志到結(jié)束標(biāo)志之間的所有內(nèi)容	匹配多個、成對標(biāo)簽/引號之間的單個內(nèi)容

但是這里還有一個坑，那就是.在匹配的時候是跳過所有非換行符的內(nèi)容

而re.S可以讓正則表達(dá)式中的.匹配換行符

#編寫正則表達(dá)式
re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>',re.S)

3.3 進(jìn)行正則匹配

接下來進(jìn)行正則匹配：

#進(jìn)行正則匹配
result=obj.finditer(pageSource)
for item in result:
    print(item.group("name"))

?

然后根據(jù)上面的規(guī)則對源代碼進(jìn)行匹配：

#編寫正則表達(dá)式
obj=re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<div class="bd">'
               r'.*?<p>.*?導(dǎo)演: (?P<dao>.*?)&nbsp;'
               r'.*?<br>(?P<year>.*?)&nbsp;.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'
               r'.*?<span>(?P<num>.*?)人評價</span>',re.S)

#進(jìn)行正則匹配
result=obj.finditer(pageSource)
for item in result:
    name=item.group("name")
    dao=item.group("dao")
    year = item.group("year").strip()   #去掉字符串兩側(cè)的空白
    score = item.group("score")
    num = item.group("num")
    print(name,dao,year,score,num)

得到了結(jié)果：

3.4 保存文件

接下來保存為文件：

f=open("top250.csv",mode="w",encoding='utf-8')

導(dǎo)出數(shù)據(jù)：

f.write(f"{name}{dao}{year}{score}{num}\n")

爬取一頁的完整代碼：

# 思路：
#
# 1.拿到頁面源代碼
#
# 2.編寫正則，提取頁面數(shù)據(jù)
#
# 3.保存數(shù)據(jù)

import requests
import re

f=open("top250.csv",mode="w",encoding='utf-8')



url="https://movie.douban.com/top250"

headers={

"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"

}
resp=requests.get(url,headers=headers)
resp.encoding="utf-8"  #解決亂碼問題
pageSource=resp.text

#編寫正則表達(dá)式
obj=re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<div class="bd">'
               r'.*?<p>.*?導(dǎo)演: (?P<dao>.*?)&nbsp;'
               r'.*?<br>(?P<year>.*?)&nbsp;.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'
               r'.*?<span>(?P<num>.*?)人評價</span>',re.S)

#進(jìn)行正則匹配
result=obj.finditer(pageSource)
for item in result:
    name=item.group("name")
    dao=item.group("dao")
    year = item.group("year").strip()   #去掉字符串兩側(cè)的空白
    score = item.group("score")
    num = item.group("num")
    f.write(f"{name}{dao}{year}{score}{num}\n")
    print(name,dao,year,score,num)


f.close()
resp.close()

print("豆瓣Top250提取完畢")

這時候思考，現(xiàn)在的代碼只能爬取一頁的25條信息，如何爬取全部250條？

4.翻頁爬取

由于發(fā)現(xiàn)每跳轉(zhuǎn)一頁頁面url的start都會增加25，因此得出可以用while循環(huán)來爬取全部數(shù)據(jù)

start=（頁數(shù)-1）*25

四、完整代碼與注意點

1.完整代碼

# 思路：
#
# 1.拿到頁面源代碼
#
# 2.編寫正則，提取頁面數(shù)據(jù)
#
# 3.保存數(shù)據(jù)

import requests
import re

f=open("top250.csv",mode="w",encoding='utf-8')
#start=（頁數(shù)-1）*25
page=1

while page<=10:
    url=f"https://movie.douban.com/top250?start={(page - 1) * 25}&filter="

    headers={

    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"

    }
    resp=requests.get(url,headers=headers)
    resp.encoding="utf-8"  #解決亂碼問題
    pageSource=resp.text

    #編寫正則表達(dá)式
    obj=re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<div class="bd">'
                   r'.*?<p>.*?導(dǎo)演: (?P<dao>.*?)&nbsp;'
                   r'.*?<br>(?P<year>.*?)&nbsp;.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'
                   r'.*?<span>(?P<num>.*?)人評價</span>',re.S)

    #進(jìn)行正則匹配
    result=obj.finditer(pageSource)
    for item in result:
        name=item.group("name")
        dao=item.group("dao")
        year = item.group("year").strip()   #去掉字符串兩側(cè)的空白
        score = item.group("score")
        num = item.group("num")
        f.write(f"{name}{dao}{year}{score}{num}\n")
        print(name,dao,year,score,num)
    print(f"第{page}頁爬取完成")

    page = page + 1



f.close()
resp.close()

print("豆瓣Top250提取完畢")

2.注意點

解釋一下

url=f"https://movie.douban.com/top250?start={(page - 1) * 25}&filter="

這里的f必須要加

不加 f 的情況：

url="https://movie.douban.com/top250?start={(page - 1) * 25}&filter="

實際URL變成了：

https://movie.douban.com/top250?start={(page - 1) * 25}&filter=

注意：{(page - 1) * 25} 被當(dāng)作普通字符串，而不是要計算的表達(dá)式。無論 page 是多少，URL 始終是這個固定的字符串。

豆瓣服務(wù)器收到這個請求時，看到 start={(page - 1) * 25}，它不知道這是什么，通常會將其視為 start=0 或者忽略這個參數(shù)，所以每次都返回第一頁的數(shù)據(jù)。

五、結(jié)果展示

成功爬取250條數(shù)據(jù)~

到此這篇關(guān)于Python爬蟲抓取豆瓣TOP250數(shù)據(jù)從分析到實踐的全過程(詳細(xì)圖解)的文章就介紹到這了,更多相關(guān)Python爬取豆瓣TOP數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲抓取豆瓣TOP250數(shù)據(jù)從分析到實踐的全過程(詳細(xì)圖解)

目錄

一、開門見山，探究網(wǎng)頁結(jié)構(gòu)

二、確定思路

三、步驟詳解

1.初步爬取

1.1 確定請求方式

1.2 引入request模塊

2.繞過反爬

2.1 加入請求頭

3.編寫正則表達(dá)式與正則匹配

3.1 編寫正則表達(dá)式

3.2 對比表格

3.3 進(jìn)行正則匹配

3.4 保存文件

4.翻頁爬取

四、完整代碼與注意點

1.完整代碼

2.注意點

五、結(jié)果展示

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲抓取豆瓣TOP250數(shù)據(jù)從分析到實踐的全過程(詳細(xì)圖解)

目錄

一、開門見山，探究網(wǎng)頁結(jié)構(gòu)

二、確定思路

三、步驟詳解

1.初步爬取

1.1 確定請求方式

1.2 引入request模塊

2.繞過反爬

2.1 加入請求頭

3.編寫正則表達(dá)式與正則匹配

3.1 編寫正則表達(dá)式

3.2 對比表格

3.3 進(jìn)行正則匹配

3.4 保存文件

4.翻頁爬取

四、完整代碼與注意點

1.完整代碼

2.注意點

五、結(jié)果展示

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、開門見山，探究網(wǎng)頁結(jié)構(gòu)

四、完整代碼與注意點

五、結(jié)果展示