Python爬蟲之requests基礎用法詳解

更新時間：2023年10月23日 10:36:20 作者：ZhiHuaWei

這篇文章主要介紹了Python爬蟲之requests基礎用法詳解,雖然Python的標準庫中urllib模塊已經包含了平常我們使用的大多數功能,但是它的API使用起來讓人感覺不太友好,而requests庫使用更簡潔方便,需要的朋友可以參考下

requests庫介紹

雖然Python的標準庫中urllib模塊已經包含了平常我們使用的大多數功能，但是它的API使用起來讓人感覺不太友好，而requests庫宣傳是“HTTP for Human”，說明使用更簡潔方便。由于requests庫不是標準庫，所以我們首先需要安裝這個requests庫。

requests的安裝和文檔地址

利用 pip 命令可以非常方便您的安裝：

    pip install requests

中文文檔：https://2.python-requests.org//zh_CN/latest/index.html

發(fā)送get請求

發(fā)送GET請求，直接調用requests.get()就可以了，想要發(fā)送什么類型的請求，就調用什么方法。

代碼示例：

    # 引入requests庫
    import requests
    
    # 向指定的url發(fā)送請求，并返回
    url = 'https://www.baidu.com/'
    # 發(fā)送get請求
    req = requests.get(url=url)
    # 響應內容
    print('狀態(tài)碼：', req.status_code)
    print('請求地址：', req.url)
    print('當前編碼：', req.encoding)
    # req.encoding = 'utf-8'  # 設置編碼
    # 以encoding解析返回內容。字符串方式的響應體，會自動根據響應頭部的字符編碼進行解碼
    print('內容1：', req.text)
    # 以字節(jié)形式（二進制）返回。字節(jié)方式的響應體，會自動為你解碼 gzip 和deflate 壓縮。
    print('內容2：', req.content)
    # print('內容2：', req.content.decode())
    # 以字典對象存儲服務器響應頭，但是這個字典比較特殊，字典鍵不區(qū)分大小寫，若鍵不存在則返回None
    print('headers：', req.headers)
    # 返回原始響應體，也就是 urllib 的 response 對象，使用 使用 r.raw.read()
    print('原始響應體：', req.raw)
    # print(req.raw.read())

發(fā)送post請求

發(fā)送POST請求也是非常簡單，直接調用requests.post()就可以了；如果返回的是json數據，那么可以使用response.json()來將json字符串轉換為字典或者列表。

代碼示例：

    # 引入requests庫
    import requests
    
    # 聲明定義請求頭
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
    }
    # 請求地址
    post_url = 'https://fanyi.baidu.com/sug'
    # 參數
    form_data = {
        'kw': 'honey'
    }
    # 進行post請求
    req = requests.post(url=post_url, data=form_data, headers=headers)
    # 響應內容
    print('狀態(tài)碼：', req.status_code)
    print('請求地址：', req.url)
    print('當前編碼：', req.encoding)
    # req.encoding = 'utf-8'  # 設置編碼
    # 以encoding解析返回內容。字符串方式的響應體，會自動根據響應頭部的字符編碼進行解碼
    print('內容1：', req.text)
    # 以字節(jié)形式（二進制）返回。字節(jié)方式的響應體，會自動為你解碼 gzip 和deflate 壓縮。
    print('內容2：', req.content)
    # print('內容2：', req.content.decode())
    # 以字典對象存儲服務器響應頭，但是這個字典比較特殊，字典鍵不區(qū)分大小寫，若鍵不存在則返回None
    print('headers：', req.headers)
    # 返回原始響應體，也就是 urllib 的 response 對象，使用 使用 r.raw.read()
    print('原始響應體：', req.raw)
    # print(req.raw.read())
    # 返回json對象
    print('json：', req.json())

requests異常處理

我們在實際使用過程中，可能會遇到網絡的各種變化會導致請求過程發(fā)生各種未知的錯誤導致程序中斷，這就使我們的程序不能很好的去處理錯誤。所以為了使我們的程序在請求時遇到錯誤，可以捕獲這種錯誤，就要用到try…except方法，以及了解requests可能發(fā)生的各種錯誤。

    import requests

    url = 'http://www.b.com'
    try:
        req = requests.get(url=url)
        print(req.text)
    except requests.exceptions.ConnectionError as e:
        print(e)
    except requests.exceptions.ChunkedEncodingError as e:
        print(e)
    except requests.exceptions.HTTPError as e:
        print(e)

response的一些屬性

上面的代碼例子中已經有說明，在此再列舉一遍。

    # 響應內容
    print('狀態(tài)碼：', req.status_code)
    print('請求地址：', req.url)
    print('當前編碼：', req.encoding)
    # req.encoding = 'utf-8'  # 設置編碼
    # 以encoding解析返回內容。字符串方式的響應體，會自動根據響應頭部的字符編碼進行解碼
    print('內容1：', req.text)
    # 以字節(jié)形式（二進制）返回。字節(jié)方式的響應體，會自動為你解碼 gzip 和deflate 壓縮。
    print('內容2：', req.content)
    # print('內容2：', req.content.decode())
    # 以字典對象存儲服務器響應頭，但是這個字典比較特殊，字典鍵不區(qū)分大小寫，若鍵不存在則返回None
    print('headers：', req.headers)
    # 返回原始響應體，也就是 urllib 的 response 對象，使用 使用 r.raw.read()
    print('原始響應體：', req.raw)
    # print(req.raw.read())
    # 獲取返回的json數據
    print('json：', req.json())

response.content：這個是直接從網絡上面抓取的數據，沒有經過任何解碼，所以是一個butes類型，其實在硬盤上和網絡上傳輸的字符串都是bytes類型。
response.text：這個是string的數據類型，是requests庫將response.content進行解碼的字符串，解碼需要指定一個編碼方式，requests回根據自己的請求來判斷解碼方式，所以有時候可能會由于解碼方式不同產生亂碼，這時候就應該使用response.content.decode('utf-8')繼續(xù)手動解碼。

到此這篇關于Python爬蟲之requests基礎用法詳解的文章就介紹到這了,更多相關Python的requests基礎用法內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: