欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python采集C站高校信息實(shí)戰(zhàn)示例

 更新時(shí)間:2023年05月05日 11:41:47   作者:極客飛虎  
這篇文章主要為大家介紹了Python采集C站高校信息實(shí)戰(zhàn)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

前言

大家好,我們今天來爬取c站的高校名單,把其高校名單,成員和內(nèi)容數(shù)獲取下來,不過,我們發(fā)現(xiàn)這個(gè)網(wǎng)站比我們平時(shí)多了一個(gè)驗(yàn)證,下面看看我是怎么解決的。

功能實(shí)現(xiàn)

話不多說,我們和平時(shí)一樣,發(fā)送我們的請求,按照平時(shí),我們看看代碼怎么寫。

url = 'https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37'
headers = {  
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}  
response = requests.get(url=url,headers=headers)

我們在這里使用 requests 庫發(fā)送 GET 請求,并將 URL 和請求頭作為參數(shù)傳遞給 get 方法。請求的 URL 是 https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37,表示查詢社區(qū)根據(jù)標(biāo)簽分類的數(shù)據(jù)。請求頭包含了 User-Agent 和 Accept 字段,分別表示客戶端的 User-Agent 和 Accept 協(xié)議類型。

不過我們會(huì)發(fā)現(xiàn),我們得不到數(shù)據(jù),就說明我們被反爬了,我嘗試了很多次,我們發(fā)現(xiàn)它做了一個(gè)驗(yàn)證。

headers = {  
'accept': 'application/json, text/plain, */*',  
'origin': 'https://bbs.csdn.net',  
'referer': 'https://bbs.csdn.net/college?utm_source=csdn_bbs_toolbar&spm=1035.2022.3001.8850&category=37',  
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',  
'x-ca-key': '203899271',  
'x-ca-nonce': '13b10c23-6a9b-423e-92a7-b114bc2c7f48',  
'x-ca-signature': 'Hhnf/RUARDM2jddNAkl2tJ6hpXfweWbY1U4/yh6FCZM=',  
'x-ca-signature-headers': 'x-ca-key,x-ca-nonce',  
}

我們這里科普一下,x-ca-signature 是對請求內(nèi)容的簽名,用于驗(yàn)證請求的完整性和可信性。 簽名通常是通過使用私鑰和一種哈希算法(如 SHA256)對請求內(nèi)容進(jìn)行計(jì)算得到的。 如果請求頭中出現(xiàn)這三個(gè)參數(shù),放心,是為了反爬用的,當(dāng)然也可以用于限制請求頻率,防止惡意攻擊。

在解決該反爬問題時(shí),第一步就是要找到他們的加密點(diǎn)。尋找 x-ca-key、x-ca-nonce、x-ca-signature 加密位置這一步主要看你對開發(fā)者工具的使用熟練程度了,尋找任意一個(gè)攜帶該請求頭參數(shù)的請求,然后添加相應(yīng)斷點(diǎn)。通過請求地址中的部分關(guān)鍵字,即可添加 XHR 斷點(diǎn)。再次刷新頁面,可進(jìn)入斷點(diǎn)中,一般會(huì)停留在send()函數(shù)位置。 下面的步驟就是比較枯燥的了,需要一點(diǎn)點(diǎn)的解密,例如在本函數(shù)頭部找到headers,發(fā)現(xiàn)其參數(shù) x-ca-key、x-ca-nonce、x-ca-signature 已經(jīng)被賦值。

這里我們沒有做多頁爬蟲,就沒有去解密了,感興趣的朋友自己去嘗試。

內(nèi)容獲取

我們拿到了數(shù)據(jù),接下來就可以提取內(nèi)容了,我們看看代碼怎么寫,這里就很簡單了。

data =responses.json()['data']  
for list in data:   
    tagName = list['tagName']  
    list_url= list['url']  
    res = requests.get(list_url)  
    num = re.findall('<div title="(\d+)"',res.text)  
    print(tagName,list_url,num)

我們這里使用 responses.json()['data'] 讀取 API 響應(yīng) JSON 數(shù)據(jù),并在一個(gè)數(shù)組中提取數(shù)據(jù)。然后,它使用一個(gè) for 循環(huán)遍歷數(shù)組中的每個(gè)元素,提取 tagName 和 url 兩個(gè)字段,并使用 requests.get() 發(fā)送 GET 請求獲取數(shù)據(jù)。最后,它使用正則表達(dá)式從響應(yīng)文本中提取 num 數(shù)據(jù),并將其打印到控制臺(tái)上。

總結(jié)

我們這樣就獲取到了內(nèi)容,本文僅供學(xué)習(xí),更多關(guān)于Python采集C站高校信息的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

最新評論