快捷導(dǎo)航

Python爬蟲Requests庫的使用詳情

更新時間：2022年08月16日 15:31:48 作者：阿呆小記???????

這篇文章主要介紹了Python爬蟲Requests庫的使用詳情，文章圍繞主題展開詳細(xì)的內(nèi)容介紹，具有一定的參考價值，需要的小伙伴可以參考一下

一、Requests庫的7個主要的方法

1.request（）	構(gòu)造請求，支撐以下的基礎(chǔ)方法
2.get（）	獲取HTML頁面的主要方法，對應(yīng)于http的get
3.head（）	獲取HTML頁面的頭部信息的主要方法，對應(yīng)于http的head
	-?`?以很少的流量獲取索要信息的概要內(nèi)容?`?
4.post（）	向HTML提交post請求的方法，對應(yīng)于http的post
	-?`?向URLpost一個字典將自動編碼為form（表單）?`?
	-?`?向URLpost一個字符串自動編碼為data?`?
5.put（）	向HTML提交put請求的方法，對應(yīng)于http的put
6.patch（）	向HTML提交局部修改的請求，對應(yīng)于http的patch
7.delete（）	向HTML提交刪除請求，對應(yīng)于http的delete

以下代碼是描述的request方法中的13個控制訪問參數(shù)：

import requests

# **kwargs:控制訪問的參數(shù)，均為可選項，不僅僅是針對request，其他六中方法依舊適用

# params：字典或字節(jié)序列，作為參數(shù)增加到URL中，可以通過該參數(shù)篩選數(shù)據(jù)
kv = {"key1":"value1","key2":"value2"}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
# https://python123.io//ws?key1=value1&key2=value2

# data：字典、字節(jié)序列或文件對象，作為Request的內(nèi)容;提交時，作為數(shù)據(jù)內(nèi)容添加到當(dāng)前的連接下
kv = {"key1":"value1","key2":"value2"}
r = requests.request('POST','http://python123.io/ws',params=kv)
body = '主體內(nèi)容'
r = requests.request('POST','http://python123.io/ws',params=body)

# json：JSON格式的數(shù)據(jù)，作為Request的內(nèi)容
kv = {"key1":"value1"}
r = requests.request('POST','http://python123.io/ws',json=kv)

# headers：字典，HTTP定制頭,模擬需要的瀏覽器來進行訪問
hd = {"user-agent":"Chrome/10"}
r = requests.request('POST','http://python123.io/ws',headers=hd)

# cookies：字典或CookieJar，Request中的cookie
# auth：元組，支持HTTP認(rèn)證功能
# files：字典類型，傳輸文件;將某個文件提交到連接上
fs = {"file":open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',file=fs)

# timeout：設(shè)定超時時間，秒為單位;在規(guī)定的時間內(nèi)沒有接收到響應(yīng)將會顯示timeout異常
r = requests.request('POST','http://www.baidu.com',timeout=10)

# proxies：字典類型，設(shè)定訪問代理服務(wù)器，可以增加登錄認(rèn)證
pxs = {'http':'http://user:pass@10.10.10.1:1234', #當(dāng)我們進入HTTP協(xié)議的網(wǎng)站時增加登錄認(rèn)證
'https':'https://10.10.10.1.4321' } #當(dāng)我們進入HTTPS協(xié)議的網(wǎng)站時，直接使用代理服務(wù)器的IP地址；可以有效掩蓋爬蟲的原IP地址
r = requests.request('GET','http://python123.io/ws',proxies=pxs)

# allow_redirects：True/False，默認(rèn)為True，重定向開關(guān)
# stream：True/False，默認(rèn)為True，獲取內(nèi)容立刻下載的開關(guān)
# verify：True/False，默認(rèn)為True，認(rèn)證SSL證書開關(guān)
# cert：本地SSL證書路徑

二、Response對象的屬性

status_code	HTTP請求的返回狀態(tài)碼，200表示成功，400表示失敗
text	HTTP響應(yīng)內(nèi)容的字符串形式，即URL對應(yīng)的頁面內(nèi)容
encoding	從HTTPheader中猜測的響應(yīng)內(nèi)容編碼方式
	-?`?如果header中不存在charset，則認(rèn)為編碼是ISO-8859-1?`?
apparent_encoding	從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼方式（備選編碼方式）
	-?`?從內(nèi)容中分析出可能的編碼形式?`?
content	HTTP響應(yīng)內(nèi)容的二進制形式

import requests

#構(gòu)造一個向服務(wù)器請求資源的Response對象
r = requests.get(url="http://www.baidu.com")

print(r.status_code) #打印請求狀態(tài)碼
#200
print(type(r)) #打印請求對象類型
#<class 'requests.models.Response'>
print(r.headers) #打印請求對象的頭部信息
#{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 27 Jun 2020 09:03:41 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:32 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

print(r.text)
print(r.encoding) #ISO-8859-1
print(r.apparent_encoding) #備用編碼utf-8
r.encoding = "utf-8"
print(r.text)

直接解析會出現(xiàn)亂碼，將字符設(shè)為apparent_encoding時會結(jié)局問題。

三、爬取網(wǎng)頁通用代碼

try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "產(chǎn)生異常！"

作用：??r.raise_for_status()函數(shù)??判斷當(dāng)前請求返回狀態(tài)碼，當(dāng)返回狀態(tài)碼不為200時，產(chǎn)生異常并能夠被except捕獲

import requests

# （定義方法）封裝函數(shù)
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代碼錯誤，產(chǎn)生異常！"

if __name__ =="__main__":
url = "http://www.baidu.com"
print(getHTMLText(url)) #正常顯示爬取的頁面信息

if __name__ =="__main__":
url = "www.baidu.com" #缺失了
print(getHTMLText(url)) #代碼錯誤，產(chǎn)生異常！

四、Resquests庫的常見異常

requests.ConnectionError	網(wǎng)絡(luò)連接錯誤異常，如DNS查詢失敗、拒絕連接等
requests.HTTPError	HTTP錯誤異常
requests.URLRequired	URL缺失異常
requests.TooManyRedirects	超過最大重定向次數(shù)，產(chǎn)生重定向異常
requests.ConnectTimeout	連接遠(yuǎn)程服務(wù)器超時異常
requests.Timeout	請求URL超時，產(chǎn)生超時異常

五、Robots協(xié)議展示

import requests
# （定義方法）封裝函數(shù)
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代碼錯誤，產(chǎn)生異常！"

if __name__ =="__main__":
url = "http://www.baidu.com/robots.txt"
print(getHTMLText(url)) #正常顯示爬取的頁面信息,顯示出robots協(xié)議對于不同類型爬蟲的限制

六、案例展示

1.爬取京東商品信息

在爬取后，我們發(fā)現(xiàn)在控制臺中返回了帶有??login？??的一個href，并沒有具體的信息內(nèi)容。但是在爬取主頁時，可以直接獲取主頁具體信息。個人認(rèn)為是由于無法識別是否已經(jīng)登陸而導(dǎo)致的，后續(xù)學(xué)習(xí)中會跟進知識點及解決方法。（若有大佬會的，感謝評論?。?/strong>

2.爬取網(wǎng)上圖片并保存

import requests import os url = "http://image.ngchina.com.cn/2019/0523/20190523103156143.jpg" root = "F:/圖片/" #根目錄 path = root + url.split('/')[-1] #以最后一個/后的文字命名 try: if not os.path.exists(root): #如果不存在根目錄文件，則創(chuàng)建根目錄文件夾 os.mkdir(root) #該方法只能創(chuàng)建一級目錄，如要創(chuàng)建多層，可以遍歷循環(huán)創(chuàng)建 if not os.path.exists(path): r = requests.get(url) with open(path,'wb') as f: f.write(r.content) #r.content返回的是2進制編碼，將其寫入 f.close() print("文件已成功保存！") else: print("文件已存在~") except: print("爬取失?。。?！")

到此這篇關(guān)于Python爬蟲Requests庫的使用詳情的文章就介紹到這了,更多相關(guān)Python Requests庫內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:
Python7個爬蟲小案例詳解(附源碼)中篇
Python7個爬蟲小案例詳解(附源碼)上篇
Python爬蟲程序中使用生產(chǎn)者與消費者模式時進程過早退出的問題
Python爬蟲庫urllib的使用教程詳解
Python利用yield?form實現(xiàn)異步協(xié)程爬蟲
python爬蟲之requests庫使用代理方式
python?基于aiohttp的異步爬蟲實戰(zhàn)詳解
Python爬蟲框架NewSpaper使用詳解
通過python爬蟲mechanize庫爬取本機ip地址的方法
Python爬蟲學(xué)習(xí)之requests的使用教程
python爬蟲beautiful?soup的使用方式
Python爬蟲之超級鷹驗證碼應(yīng)用
python爬蟲模擬登錄之圖片驗證碼實現(xiàn)詳解
Python爬蟲eval實現(xiàn)看漫畫漫畫柜mhgui實戰(zhàn)分析
python爬蟲實戰(zhàn)項目之爬取pixiv圖片
使用python爬蟲實現(xiàn)子域名探測問題
python爬蟲之代理ip正確使用方法實例
Python7個爬蟲小案例詳解(附源碼)下篇

Python

Requests

庫

相關(guān)文章

python實現(xiàn)套接字創(chuàng)建
這篇文章主要為大家介紹了python套接字創(chuàng)建實現(xiàn)，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2022-05-05

使用python3批量下載rbsp數(shù)據(jù)的示例代碼
這篇文章主要介紹了使用python3批量下載rbsp數(shù)據(jù)的示例代碼,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-12-12

python 使用get_argument獲取url query參數(shù)
這篇文章主要介紹了python 使用get_argument獲取url query參數(shù)的相關(guān)資料,需要的朋友可以參考下
2017-04-04

本文將針對類進行一個綜合練習(xí)，利用所學(xué)的面向?qū)ο缶幊獭㈩惖闹R將我們之前做的面向函數(shù)編寫的學(xué)生信息庫重構(gòu)為面向?qū)ο蟮姆绞?，感興趣的可以了解一下
2022-03-03

常見的在Python中實現(xiàn)單例模式的三種方法
這篇文章主要介紹了常見的在Python中實現(xiàn)單例模式的三種方法,單例模式在各個編程語言的學(xué)習(xí)中都是需要掌握的基礎(chǔ)知識,需要的朋友可以參考下
2015-04-04

Python使用正則實現(xiàn)計算字符串算式
這篇文章主要介紹了Python使用正則實現(xiàn)計算字符串算式的方法,本文通過實例代碼給大家介紹的非常詳細(xì)，具有一定的參考借鑒價值，需要的朋友可以參考下
2019-12-12

在pandas中遍歷DataFrame行的實現(xiàn)方法
這篇文章主要介紹了在pandas中遍歷DataFrame行的實現(xiàn)方法，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-10-10

python獲取外網(wǎng)ip地址的方法總結(jié)
這篇文章主要介紹了python獲取外網(wǎng)ip地址的方法,實例總結(jié)了四種常用的獲取外網(wǎng)IP地址的技巧,需要的朋友可以參考下
2015-07-07

Python標(biāo)準(zhǔn)庫uuid模塊(生成唯一標(biāo)識)詳解
uuid通過Python標(biāo)準(zhǔn)庫的uuid模塊生成通用唯一ID（或“UUID”）的一種快速簡便的方法,下面這篇文章主要給大家介紹了關(guān)于Python標(biāo)準(zhǔn)庫uuid模塊(生成唯一標(biāo)識)?的相關(guān)資料,需要的朋友可以參考下
2022-05-05

解決tensorflow訓(xùn)練時內(nèi)存持續(xù)增加并占滿的問題
今天小編就為大家分享一篇解決tensorflow訓(xùn)練時內(nèi)存持續(xù)增加并占滿的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01

最新評論

大家感興趣的內(nèi)容

1Python入門教程超詳細(xì)1小時學(xué)會Python
2Pycharm?2020最新永久激活碼（附最新激活碼和插件
3Python 元組(Tuple)操作詳解
4Python 列表(List)操作方法詳解
5Python 字典(Dictionary)操作詳解
6Pycharm 2020年最新激活碼（親測有效）
7python strip()函數(shù) 介紹
8pycharm 使用心得（一）安裝和首次使用
9python中使用xlrd、xlwt操作excel表格詳解
10python 中文亂碼問題深入分析

最近更新的內(nèi)容

快速進修Python指南之簡易跳表
淺談Python 中的復(fù)數(shù)問題
一文教你利用Python畫花樣圖
python Django中models進行模糊查詢的示例
詳解Python中魔法方法的使用
mac安裝python3后使用pip和pip3的區(qū)別說明
Python基礎(chǔ)入門之seed()方法的使用
在Python中使用CasperJS獲取JS渲染生成的HTML內(nèi)容的教程
Django項目創(chuàng)建到啟動詳解（最全最詳細(xì)）
Python3去除頭尾指定字符的函數(shù)strip()、lstrip()、rst

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python爬蟲Requests庫的使用詳情

目錄

一、Requests庫的7個主要的方法

二、Response對象的屬性

三、爬取網(wǎng)頁通用代碼

四、Resquests庫的常見異常

五、Robots協(xié)議展示

六、案例展示

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python爬蟲Requests庫的使用詳情

目錄

一、Requests庫的7個主要的方法

二、Response對象的屬性

三、爬取網(wǎng)頁通用代碼

四、Resquests庫的常見異常

五、Robots協(xié)議展示

六、案例展示

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

二、Response對象的屬性

三、爬取網(wǎng)頁通用代碼

五、Robots協(xié)議展示

六、案例展示