python簡(jiǎn)單爬蟲(chóng)--get方式詳解
簡(jiǎn)單爬蟲(chóng)可以劃分為get、post格式。其中,get是單方面的獲取資源,而post存在交互,如翻譯中需要文字輸入。本文主要描述簡(jiǎn)單的get爬蟲(chóng)。
環(huán)境準(zhǔn)備
安裝第三方庫(kù)
pip install requests pip install bs4 pip install lxml
進(jìn)行爬蟲(chóng)
1.獲取網(wǎng)頁(yè)數(shù)據(jù)。
import requests from bs4 import BeautifulSoup url = "https://cn.bing.com/search?q=爬蟲(chóng)CSDN&qs=n&form=QBRE&sp=-1&pq=爬蟲(chóng)csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/" response = requests.get(self.url)
2.解析網(wǎng)頁(yè)數(shù)據(jù)
soup = BeautifulSoup(response.text, 'lxml')
3.選取目標(biāo)數(shù)據(jù)。此處key 依據(jù)源代碼目標(biāo)標(biāo)題的位置確定。首先進(jìn)入開(kāi)發(fā)者模式,后查看目標(biāo)在html中的位置,右擊選擇“復(fù)制selector”,見(jiàn)下圖。
key = "#b_results > li > div.b_title > h2 > a" soup.select(key)
4.清洗數(shù)據(jù)
result = {} for i, item in enumerate(data): result.update({ f'title_{i}': item.get_text(), f'url_{i}': item.get('href') }) print(result)
參考
鏈接:http://www.dbjr.com.cn/article/152560.htm
總結(jié)
本篇文章就到這里了,希望能夠給你帶來(lái)幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!
相關(guān)文章
詳解Python中while無(wú)限迭代循環(huán)方法
Python 有 while 語(yǔ)句和 for 語(yǔ)句作為循環(huán)處理。雖然 for 語(yǔ)句具有一定數(shù)量的進(jìn)程,但 while 語(yǔ)句是直到滿(mǎn)足條件類(lèi)型的循環(huán)進(jìn)程。本文將詳解while無(wú)限迭代循環(huán)方法,需要的可以了解一下2022-04-04Python通過(guò)TensorFLow進(jìn)行線(xiàn)性模型訓(xùn)練原理與實(shí)現(xiàn)方法詳解
這篇文章主要介紹了Python通過(guò)TensorFLow進(jìn)行線(xiàn)性模型訓(xùn)練原理與實(shí)現(xiàn)方法,結(jié)合實(shí)例形式詳細(xì)分析了Python通過(guò)TensorFLow進(jìn)行線(xiàn)性模型訓(xùn)練相關(guān)概念、算法設(shè)計(jì)與訓(xùn)練操作技巧,需要的朋友可以參考下2020-01-01Python unittest單元測(cè)試框架及斷言方法
這篇文章主要介紹了Python unittest單元測(cè)試框架及斷言方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04python3應(yīng)用windows api對(duì)后臺(tái)程序窗口及桌面截圖并保存的方法
今天小編就為大家分享一篇python3應(yīng)用windows api對(duì)后臺(tái)程序窗口及桌面截圖并保存的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08Cpython3.9源碼解析python中的大小整數(shù)
這篇文章主要介紹了Cpython3.9源碼解析python中的大小整數(shù),在CPython中,小整數(shù)對(duì)象池是一種優(yōu)化機(jī)制,用于減少對(duì)常用小整數(shù)的內(nèi)存分配和銷(xiāo)毀開(kāi)銷(xiāo),需要的朋友可以參考下2023-04-04Python中struct模塊對(duì)字節(jié)流/二進(jìn)制流的操作教程
最近在學(xué)習(xí)python網(wǎng)絡(luò)編程這一塊,在寫(xiě)簡(jiǎn)單的socket通信代碼時(shí),遇到了struct這個(gè)模塊的使用,當(dāng)時(shí)不太清楚這到底有和作用,后來(lái)查閱了相關(guān)資料大概了解了,這篇文章就主要介紹了Python中struct模塊對(duì)字節(jié)流/二進(jìn)制流的操作,需要的朋友可以參考借鑒。2017-01-01使用實(shí)現(xiàn)XlsxWriter創(chuàng)建Excel文件并編輯
今天小編就為大家分享一篇使用實(shí)現(xiàn)XlsxWriter創(chuàng)建Excel文件并編輯,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-05-05Python利用Diagrams繪制漂亮的系統(tǒng)架構(gòu)圖
Diagrams 是一個(gè)基于Python繪制云系統(tǒng)架構(gòu)的模塊,它能夠通過(guò)非常簡(jiǎn)單的描述就能可視化架構(gòu)。本文將利用它繪制漂亮的系統(tǒng)架構(gòu)圖,感興趣的可以了解一下2023-01-01