快捷導(dǎo)航

如何用六步教會(huì)你使用python爬蟲爬取數(shù)據(jù)

更新時(shí)間：2022年04月06日 10:17:49 作者：只曉得閑逛

網(wǎng)絡(luò)爬蟲就是按照一定規(guī)則自動(dòng)訪問互聯(lián)網(wǎng)上的信息并把內(nèi)容下載下來的程序或腳本,下面這篇文章主要給大家介紹了關(guān)于如何用六步教會(huì)你使用python爬蟲爬取數(shù)據(jù)的相關(guān)資料,需要的朋友可以參考下

前言：

用python的爬蟲爬取數(shù)據(jù)真的很簡單，只要掌握這六步就好，也不復(fù)雜。以前還以為爬蟲很難，結(jié)果一上手，從初學(xué)到把東西爬下來，一個(gè)小時(shí)都不到就解決了。

python爬出六部曲

第一步：安裝requests庫和BeautifulSoup庫：

在程序中兩個(gè)庫的書寫是這樣的：

import requests
from bs4 import BeautifulSoup

由于我使用的是pycharm進(jìn)行的python編程。所以我就講講在pycharm上安裝這兩個(gè)庫的方法。在主頁面文件選項(xiàng)下，找到設(shè)置。進(jìn)一步找到項(xiàng)目解釋器。之后在所選框中，點(diǎn)擊軟件包上的+號(hào)就可以進(jìn)行查詢插件安裝了。有過編譯器插件安裝的hxd估計(jì)會(huì)比較好入手。具體情況就如下圖所示。

第二步：獲取爬蟲所需的header和cookie：

我寫了一個(gè)爬取微博熱搜的爬蟲程序，這里就直接以它為例吧。獲取header和cookie是一個(gè)爬蟲程序必須的，它直接決定了爬蟲程序能不能準(zhǔn)確的找到網(wǎng)頁位置進(jìn)行爬取。

首先進(jìn)入微博熱搜的頁面，按下F12，就會(huì)出現(xiàn)網(wǎng)頁的js語言設(shè)計(jì)部分。如下圖所示。找到網(wǎng)頁上的Network部分。然后按下ctrl+R刷新頁面。如果，進(jìn)行就有文件信息，就不用刷新了，當(dāng)然刷新了也沒啥問題。然后，我們?yōu)g覽Name這部分，找到我們想要爬取的文件，鼠標(biāo)右鍵，選擇copy，復(fù)制下網(wǎng)頁的URL。就如下圖所示。

復(fù)制好URL后，我們就進(jìn)入一個(gè)網(wǎng)頁Convert curl commands to code。這個(gè)網(wǎng)頁可以根據(jù)你復(fù)制的URL，自動(dòng)生成header和cookie，如下圖。生成的header和cookie，直接復(fù)制走就行，粘貼到程序中。

#爬蟲頭數(shù)據(jù)
cookies = {
    'SINAGLOBAL': '6797875236621.702.1603159218040',
    'SUB': '_2AkMXbqMSf8NxqwJRmfkTzmnhboh1ygvEieKhMlLJJRMxHRl-yT9jqmg8tRB6PO6N_Rc_2FhPeZF2iThYO9DfkLUGpv4V',
    'SUBP': '0033WrSXqPxfM72-Ws9jqgMF55529P9D9Wh-nU-QNDs1Fu27p6nmwwiJ',
    '_s_tentry': 'www.baidu.com',
    'UOR': 'www.hfut.edu.cn,widget.weibo.com,www.baidu.com',
    'Apache': '7782025452543.054.1635925669528',
    'ULV': '1635925669554:15:1:1:7782025452543.054.1635925669528:1627316870256',
}
headers = {
    'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'cross-site',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}
params = (
    ('cate', 'realtimehot'),
)

復(fù)制到程序中就像這樣。這是微博熱搜的請求頭。

第三步：獲取網(wǎng)頁：

我們將header和cookie搞到手后，就可以將它復(fù)制到我們的程序里。之后，使用request請求，就可以獲取到網(wǎng)頁了。

#獲取網(wǎng)頁
response = requests.get('https://s.weibo.com/top/summary', headers=headers, params=params, cookies=cookies)

第四步：解析網(wǎng)頁：

這個(gè)時(shí)候，我們需要回到網(wǎng)頁。同樣按下F12，找到網(wǎng)頁的Elements部分。用左上角的小框帶箭頭的標(biāo)志，如下圖，點(diǎn)擊網(wǎng)頁內(nèi)容，這個(gè)時(shí)候網(wǎng)頁就會(huì)自動(dòng)在右邊顯示出你獲取網(wǎng)頁部分對(duì)應(yīng)的代碼。

如上圖所示，我們在找到想要爬取的頁面部分的網(wǎng)頁代碼后，將鼠標(biāo)放置于代碼上，右鍵，copy到selector部分。就如上圖所示。

第五步：分析得到的信息，簡化地址：

其實(shí)剛才復(fù)制的selector就相當(dāng)于網(wǎng)頁上對(duì)應(yīng)部分存放的地址。由于我們需要的是網(wǎng)頁上的一類信息，所以我們需要對(duì)獲取的地址進(jìn)行分析，提取。當(dāng)然，就用那個(gè)地址也不是不行，就是只能獲取到你選擇的網(wǎng)頁上的那部分內(nèi)容。

#pl_top_realtimehot > table > tbody > tr:nth-child(1) > td.td-02 > a
#pl_top_realtimehot > table > tbody > tr:nth-child(2) > td.td-02 > a
#pl_top_realtimehot > table > tbody > tr:nth-child(9) > td.td-02 > a

這是我獲取的三條地址，可以發(fā)現(xiàn)三個(gè)地址有很多相同的地方，唯一不同的地方就是tr部分。由于tr是網(wǎng)頁標(biāo)簽，后面的部分就是其補(bǔ)充的部分，也就是子類選擇器?？梢酝茢喑?，該類信息，就是存儲(chǔ)在tr的子類中，我們直接對(duì)tr進(jìn)行信息提取，就可以獲取到該部分對(duì)應(yīng)的所有信息。所以提煉后的地址為：

#pl_top_realtimehot > table > tbody > tr > td.td-02 > a

這個(gè)過程對(duì)js類語言有一定了解的hxd估計(jì)會(huì)更好處理。不過沒有js類語言基礎(chǔ)也沒關(guān)系，主要步驟就是，保留相同的部分就行，慢慢的試，總會(huì)對(duì)的。

第六步：爬取內(nèi)容，清洗數(shù)據(jù)

這一步完成后，我們就可以直接爬取數(shù)據(jù)了。用一個(gè)標(biāo)簽存儲(chǔ)上面提煉出的像地址一樣的東西。標(biāo)簽就會(huì)拉取到我們想獲得的網(wǎng)頁內(nèi)容。

#爬取內(nèi)容
content="#pl_top_realtimehot > table > tbody > tr > td.td-02 > a"

之后我們就要soup和text過濾掉不必要的信息，比如js類語言，排除這類語言對(duì)于信息受眾閱讀的干擾。這樣我們就成功的將信息，爬取下來了。

fo = open("./微博熱搜.txt",'a',encoding="utf-8")
a=soup.select(content)
for i in range(0,len(a)):
    a[i] = a[i].text
    fo.write(a[i]+'\n')
fo.close()

我是將數(shù)據(jù)存儲(chǔ)到了文件夾中，所以會(huì)有wirte帶來的寫的操作。想把數(shù)據(jù)保存在哪里，或者想怎么用，就看讀者自己了。

爬取微博熱搜的代碼實(shí)例以及結(jié)果展示：

import os
import requests
from bs4 import BeautifulSoup
#爬蟲頭數(shù)據(jù)
cookies = {
    'SINAGLOBAL': '6797875236621.702.1603159218040',
    'SUB': '_2AkMXbqMSf8NxqwJRmfkTzmnhboh1ygvEieKhMlLJJRMxHRl-yT9jqmg8tRB6PO6N_Rc_2FhPeZF2iThYO9DfkLUGpv4V',
    'SUBP': '0033WrSXqPxfM72-Ws9jqgMF55529P9D9Wh-nU-QNDs1Fu27p6nmwwiJ',
    '_s_tentry': 'www.baidu.com',
    'UOR': 'www.hfut.edu.cn,widget.weibo.com,www.baidu.com',
    'Apache': '7782025452543.054.1635925669528',
    'ULV': '1635925669554:15:1:1:7782025452543.054.1635925669528:1627316870256',
}
headers = {
    'Connection': 'keep-alive',
    'Cache-Control': 'max-age=0',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/25',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'cross-site',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Language': 'zh-CN,zh;q=0.9',
}
params = (
    ('cate', 'realtimehot'),
)
#數(shù)據(jù)存儲(chǔ)
fo = open("./微博熱搜.txt",'a',encoding="utf-8")
#獲取網(wǎng)頁
response = requests.get('https://s.weibo.com/top/summary', headers=headers, params=params, cookies=cookies)
#解析網(wǎng)頁
response.encoding='utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
#爬取內(nèi)容
content="#pl_top_realtimehot > table > tbody > tr > td.td-02 > a"
#清洗數(shù)據(jù)
a=soup.select(content)
for i in range(0,len(a)):
    a[i] = a[i].text
    fo.write(a[i]+'\n')
fo.close()

總結(jié)

到此這篇關(guān)于如何用六步教會(huì)你使用python爬蟲爬取數(shù)據(jù)的文章就介紹到這了,更多相關(guān)python爬蟲爬取數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

如何用六步教會(huì)你使用python爬蟲爬取數(shù)據(jù)

目錄

前言：

python爬出六部曲

第一步：安裝requests庫和BeautifulSoup庫：

第二步：獲取爬蟲所需的header和cookie：

第三步：獲取網(wǎng)頁：

第四步：解析網(wǎng)頁：

第五步：分析得到的信息，簡化地址：

第六步：爬取內(nèi)容，清洗數(shù)據(jù)

爬取微博熱搜的代碼實(shí)例以及結(jié)果展示：

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

如何用六步教會(huì)你使用python爬蟲爬取數(shù)據(jù)

目錄

前言：

python爬出六部曲

第一步：安裝requests庫和BeautifulSoup庫：

第二步：獲取爬蟲所需的header和cookie：

第三步：獲取網(wǎng)頁：

第四步：解析網(wǎng)頁：

第五步：分析得到的信息，簡化地址：

第六步：爬取內(nèi)容，清洗數(shù)據(jù)

爬取微博熱搜的代碼實(shí)例以及結(jié)果展示：

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

第五步：分析得到的信息，簡化地址：

第六步：爬取內(nèi)容，清洗數(shù)據(jù)