Python爬蟲基礎(chǔ)之requestes模塊
一、爬蟲的流程
開始學(xué)習(xí)爬蟲,我們必須了解爬蟲的流程框架。在我看來爬蟲的流程大概就是三步,即不論我們爬取的是什么數(shù)據(jù),總是可以把爬蟲的流程歸納總結(jié)為這三步:
1.指定 url,可以簡單的理解為指定要爬取的網(wǎng)址
2.發(fā)送請(qǐng)求。requests 模塊的請(qǐng)求一般為 get 和 post
3.將爬取的數(shù)據(jù)存儲(chǔ)
二、requests模塊的導(dǎo)入
因?yàn)?requests 模塊屬于外部庫,所以需要我們自己導(dǎo)入庫
導(dǎo)入的步驟:
1.右鍵Windows圖標(biāo)
2.點(diǎn)擊“運(yùn)行”
3.輸入“cmd”打開命令面板
4.輸入“pip install requests”,等待下載完成
如圖:
如果還是下載失敗,我的建議是百度一下,你就知道(我也是邊學(xué)邊寫,是在是水平有限)
歐克,既然導(dǎo)入成功后我們就簡單的來爬取一下搜狗的首頁吧!
三、完整代碼
import requests if __name__ == "__main__": # 指定url url = "https://www.sougou.com/" # 發(fā)起請(qǐng)求 # get方法會(huì)返回一個(gè)響應(yīng)數(shù)據(jù) response = requests.get(url) # 獲取響應(yīng)數(shù)據(jù) page_txt = response.text # text返回一個(gè)字符串的響應(yīng)數(shù)據(jù) # print(page_txt) # 存儲(chǔ) with open("./sougou.html", "w", encoding = "utf-8") as fp: fp.write(page_txt) print("爬取數(shù)據(jù)結(jié)束?。?!")
我們打開保存的文件,如圖
歐克,這就是最基本的爬取,如果學(xué)會(huì)了,那就試一試爬取 B站 的首頁吧。
到此這篇關(guān)于Python爬蟲基礎(chǔ)之requestes模塊的文章就介紹到這了,更多相關(guān)Python requestes模塊內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python自動(dòng)結(jié)束mysql慢查詢會(huì)話的實(shí)例代碼
這篇文章主要介紹了python自動(dòng)結(jié)束mysql慢查詢會(huì)話,主要涉及到了mysql慢查詢會(huì)話查詢,定時(shí)任務(wù)的相關(guān)知識(shí),本文通過實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2019-10-10tensorflow中的數(shù)據(jù)類型dtype用法說明
這篇文章主要介紹了tensorflow中的數(shù)據(jù)類型dtype用法說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05使用Python?matplotlib繪制簡單的柱形圖、折線圖和直線圖
Matplotlib是Python的繪圖庫, 它可與NumPy一起使用,提供了一種有效的MatLab開源替代方案,下面這篇文章主要給大家介紹了關(guān)于使用Python?matplotlib繪制簡單的柱形圖、折線圖和直線圖的相關(guān)資料,需要的朋友可以參考下2022-08-08Python實(shí)現(xiàn)定時(shí)執(zhí)行任務(wù)的三種方式簡單示例
這篇文章主要介紹了Python實(shí)現(xiàn)定時(shí)執(zhí)行任務(wù)的三種方式,結(jié)合簡單實(shí)例形式分析了Python使用time,os,sched等模塊定時(shí)執(zhí)行任務(wù)的相關(guān)操作技巧,需要的朋友可以參考下2019-03-03python去除列表中的空值元素實(shí)戰(zhàn)技巧
這篇文章主要介紹了python實(shí)戰(zhàn)技巧之去除列表中的空值元素,搜集針對(duì)python高效處理數(shù)據(jù)的核心代碼,今天是實(shí)現(xiàn)去除列表中的空值元素,需要的朋友可以參考下2023-02-02