腳本之家服務器常用軟件

快捷導航

Python打開指定網(wǎng)頁使用requests模塊爬蟲示例詳解

更新時間：2024年02月11日 11:19:55 作者：碼銀

這篇文章主要介紹了Python打開指定網(wǎng)頁使用requests模塊爬蟲的示例,Python?requests是一個常用的HTTP請求庫,可以方便地向網(wǎng)站發(fā)送HTTP請求,并獲取響應結果,requests模塊比urllib模塊更簡潔,感興趣的朋友可以參考下

前言

1.什么是爬蟲

爬蟲是一種自動化工具，用于從互聯(lián)網(wǎng)或其他計算機網(wǎng)絡上獲取數(shù)據(jù)。它可以模擬人的行為，自動訪問網(wǎng)頁，提取感興趣的數(shù)據(jù)，并將其存儲到本地計算機或數(shù)據(jù)庫中。爬蟲通常用于搜索引擎、數(shù)據(jù)分析、信息聚合等領域，也被許多企業(yè)用于市場調(diào)研、競爭分析、用戶行為分析等。一些爬蟲可能會被用于惡意用途，如掃描漏洞、盜取信息等，因此使用爬蟲時應遵守相關法律法規(guī)和倫理規(guī)范。

2.爬蟲工作的流程圖

正文

1.認識requests模塊

urllib是python中請求URL連接的官方標準庫，在python2中分為urllib and urllib2，在python3中整合成urllib。requests模塊是在urllib3模塊基礎上進行高度封裝，使用更方便，更加人性化。

2.安裝requests模塊

win+R后輸入cmd，之后輸入以下的命令即可。

pip install requests

使用pychram的用戶：File->Settings->Progect，此界面有加號，可以自行安裝

使用anaconda的用戶：默認就有了

import requests

3.發(fā)起GET請求

GET請求方法

發(fā)送網(wǎng)絡請求指的是向一個特定的網(wǎng)絡地址或URL，向服務器發(fā)送請求，以獲取數(shù)據(jù)或執(zhí)行操作。網(wǎng)絡請求可以包含各種數(shù)據(jù)和參數(shù)，例如用戶輸入、查詢條件、身份驗證令牌等。發(fā)送網(wǎng)絡請求是Web應用程序和移動應用程序等客戶端應用程序與服務器端應用程序之間通信的關鍵步驟。常見的網(wǎng)絡請求方法包括GET、POST、PUT、DELETE等。

import requests	# 導入requests模塊
response = requests.get('http://www.baidu.com')

發(fā)送帶參數(shù)的請求

發(fā)送帶參數(shù)的請求的意義是可以將需要發(fā)送的數(shù)據(jù)以參數(shù)的形式傳遞給服務器，服務器可以根據(jù)不同的參數(shù)值做出不同的響應。對于不同的業(yè)務場景，可以使用不同的參數(shù)來控制服務器的行為，例如：

在搜索引擎中，可以通過參數(shù)來指定搜索關鍵詞、排序方式、分頁等信息，以得到不同的搜索結果。
在電商網(wǎng)站中，可以通過參數(shù)來指定商品類別、價格區(qū)間、品牌等信息，以篩選出符合條件的商品。
在社交網(wǎng)絡中，可以通過參數(shù)來指定用戶ID、關注列表、粉絲列表等信息，以獲取相應的用戶信息和社交關系。

import requests	# 導入requests模塊
payload = {'key1': 'value1', 'key2': 'value2'}	# 字符串字典
r = requests.get("http://www.baidu.com/", params=payload)
print(r.url)
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}	# 將一個列表作為值傳入
r = requests.get('http://www.baidu.com/', params=payload)
print(r.url)
r = requests.get("https://www.baidu.com/s?wd=長春&ie=utf-8&tn=06136131_11_oem_dg")
#百度搜索關鍵字與“長春”有關的信息
print(r.url)
r = requests.get("https://www.baidu.com/s?wd=北京&ie=utf-8&tn=06136131_11_oem_dg")
print(r.url)

運行結果：

定制請求頭headers

請求頭是HTTP協(xié)議中用于傳輸請求信息的一部分，它包含了一些關于請求的元數(shù)據(jù)，如請求類型、請求資源地址、請求參數(shù)、請求的來源等。常見的請求頭字段包括： User-Agent （瀏覽器或客戶端的身份標識）、Accept（客戶端能夠接收的MIME類型）、Cookie（請求攜帶的cookie數(shù)據(jù)）、Referer（請求前一個頁面的地址）、Authorization（身份認證信息）、Content-Type（請求參數(shù)的MIME類型）、Content-Length（請求參數(shù)的長度）等。

如：User-Agent= 'Mozilla/5.0 (Windows NT 10.0; WOW64)

import requests	# 導入requests模塊
url = 'http://www.baidu.com/s?wd=你是我的神'
headers = {
        'Content-Type': 'text/html;charset=utf-8',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
    }
r = requests.get(url,headers=headers)
print(r.headers)

4.打開指定網(wǎng)站webbrowser

import webbrowser
webbrowser.open('http://www.dbjr.com.cn/')

運行一下，就會跳轉到對應的網(wǎng)頁

?

到此這篇關于Python打開指定網(wǎng)頁使用requests模塊爬蟲示例詳解的文章就介紹到這了,更多相關Python requests模塊內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python打開指定網(wǎng)頁使用requests模塊爬蟲示例詳解

目錄

前言

1.什么是爬蟲

2.爬蟲工作的流程圖

正文

1.認識requests模塊

2.安裝requests模塊

3.發(fā)起GET請求

GET請求方法

發(fā)送帶參數(shù)的請求

定制請求頭headers

4.打開指定網(wǎng)站webbrowser

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具