Python采集C站高校信息實(shí)戰(zhàn)示例
前言
大家好,我們今天來爬取c站的高校名單,把其高校名單,成員和內(nèi)容數(shù)獲取下來,不過,我們發(fā)現(xiàn)這個(gè)網(wǎng)站比我們平時(shí)多了一個(gè)驗(yàn)證,下面看看我是怎么解決的。
功能實(shí)現(xiàn)
話不多說,我們和平時(shí)一樣,發(fā)送我們的請求,按照平時(shí),我們看看代碼怎么寫。
url = 'https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'} response = requests.get(url=url,headers=headers)
我們在這里使用 requests
庫發(fā)送 GET 請求,并將 URL 和請求頭作為參數(shù)傳遞給 get
方法。請求的 URL 是 https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37
,表示查詢社區(qū)根據(jù)標(biāo)簽分類的數(shù)據(jù)。請求頭包含了 User-Agent
和 Accept
字段,分別表示客戶端的 User-Agent 和 Accept 協(xié)議類型。
不過我們會(huì)發(fā)現(xiàn),我們得不到數(shù)據(jù),就說明我們被反爬了,我嘗試了很多次,我們發(fā)現(xiàn)它做了一個(gè)驗(yàn)證。
headers = { 'accept': 'application/json, text/plain, */*', 'origin': 'https://bbs.csdn.net', 'referer': 'https://bbs.csdn.net/college?utm_source=csdn_bbs_toolbar&spm=1035.2022.3001.8850&category=37', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36', 'x-ca-key': '203899271', 'x-ca-nonce': '13b10c23-6a9b-423e-92a7-b114bc2c7f48', 'x-ca-signature': 'Hhnf/RUARDM2jddNAkl2tJ6hpXfweWbY1U4/yh6FCZM=', 'x-ca-signature-headers': 'x-ca-key,x-ca-nonce', }
我們這里科普一下,x-ca-signature 是對請求內(nèi)容的簽名,用于驗(yàn)證請求的完整性和可信性。 簽名通常是通過使用私鑰和一種哈希算法(如 SHA256)對請求內(nèi)容進(jìn)行計(jì)算得到的。 如果請求頭中出現(xiàn)這三個(gè)參數(shù),放心,是為了反爬用的,當(dāng)然也可以用于限制請求頻率,防止惡意攻擊。
在解決該反爬問題時(shí),第一步就是要找到他們的加密點(diǎn)。尋找 x-ca-key、x-ca-nonce、x-ca-signature 加密位置這一步主要看你對開發(fā)者工具的使用熟練程度了,尋找任意一個(gè)攜帶該請求頭參數(shù)的請求,然后添加相應(yīng)斷點(diǎn)。通過請求地址中的部分關(guān)鍵字,即可添加 XHR 斷點(diǎn)。再次刷新頁面,可進(jìn)入斷點(diǎn)中,一般會(huì)停留在send()函數(shù)位置。 下面的步驟就是比較枯燥的了,需要一點(diǎn)點(diǎn)的解密,例如在本函數(shù)頭部找到headers,發(fā)現(xiàn)其參數(shù) x-ca-key、x-ca-nonce、x-ca-signature 已經(jīng)被賦值。
這里我們沒有做多頁爬蟲,就沒有去解密了,感興趣的朋友自己去嘗試。
內(nèi)容獲取
我們拿到了數(shù)據(jù),接下來就可以提取內(nèi)容了,我們看看代碼怎么寫,這里就很簡單了。
data =responses.json()['data'] for list in data: tagName = list['tagName'] list_url= list['url'] res = requests.get(list_url) num = re.findall('<div title="(\d+)"',res.text) print(tagName,list_url,num)
我們這里使用 responses.json()['data']
讀取 API 響應(yīng) JSON 數(shù)據(jù),并在一個(gè)數(shù)組中提取數(shù)據(jù)。然后,它使用一個(gè) for 循環(huán)遍歷數(shù)組中的每個(gè)元素,提取 tagName
和 url
兩個(gè)字段,并使用 requests.get()
發(fā)送 GET 請求獲取數(shù)據(jù)。最后,它使用正則表達(dá)式從響應(yīng)文本中提取 num
數(shù)據(jù),并將其打印到控制臺(tái)上。
總結(jié)
我們這樣就獲取到了內(nèi)容,本文僅供學(xué)習(xí),更多關(guān)于Python采集C站高校信息的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python實(shí)現(xiàn)PDF文字識(shí)別提取并寫入CSV文件
這篇文章主要是和大家分享一個(gè)Python實(shí)現(xiàn)PDF文字識(shí)別與提取并寫入?CSV文件的腳本。文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-03-03Python機(jī)器學(xué)習(xí)實(shí)戰(zhàn)之k-近鄰算法的實(shí)現(xiàn)
k-近鄰算法采用測量不同特征值之間的距離方法進(jìn)行分類。這篇文章主要為大家介紹了如何通過python實(shí)現(xiàn)K近鄰算法,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-11-11Python .py生成.pyd文件并打包.exe 的注意事項(xiàng)說明
這篇文章主要介紹了Python .py生成.pyd文件并打包.exe 的注意事項(xiàng)說明,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03Python for Informatics 第11章之正則表達(dá)式(四)
這篇文章主要介紹了Python for Informatics 第11章之正則表達(dá)式(四) 的相關(guān)資料,需要的朋友可以參考下2016-04-04Python實(shí)現(xiàn)視頻下載與合成的示例代碼
這篇文章主要為大家詳細(xì)介紹了Python是如何實(shí)現(xiàn)視頻的下載以及合成的,文中的實(shí)現(xiàn)步驟講解詳細(xì),感興趣的小伙伴快跟隨小編一起學(xué)習(xí)一下吧2022-04-04