Python打開指定網頁使用requests模塊爬蟲示例詳解
前言
1.什么是爬蟲
爬蟲是一種自動化工具,用于從互聯(lián)網或其他計算機網絡上獲取數(shù)據。它可以模擬人的行為,自動訪問網頁,提取感興趣的數(shù)據,并將其存儲到本地計算機或數(shù)據庫中。爬蟲通常用于搜索引擎、數(shù)據分析、信息聚合等領域,也被許多企業(yè)用于市場調研、競爭分析、用戶行為分析等。一些爬蟲可能會被用于惡意用途,如掃描漏洞、盜取信息等,因此使用爬蟲時應遵守相關法律法規(guī)和倫理規(guī)范。
2.爬蟲工作的流程圖
正文
1.認識requests模塊
urllib是python中請求URL連接的官方標準庫,在python2中分為urllib and urllib2,在python3中整合成urllib。requests模塊是在urllib3模塊基礎上進行高度封裝,使用更方便,更加人性化。
2.安裝requests模塊
win+R后輸入cmd,之后輸入以下的命令即可。
pip install requests
使用pychram的用戶:File->Settings->Progect,此界面有加號,可以自行安裝
使用anaconda的用戶:默認就有了
import requests
3.發(fā)起GET請求
GET請求方法
發(fā)送網絡請求指的是向一個特定的網絡地址或URL,向服務器發(fā)送請求,以獲取數(shù)據或執(zhí)行操作。網絡請求可以包含各種數(shù)據和參數(shù),例如用戶輸入、查詢條件、身份驗證令牌等。發(fā)送網絡請求是Web應用程序和移動應用程序等客戶端應用程序與服務器端應用程序之間通信的關鍵步驟。常見的網絡請求方法包括GET、POST、PUT、DELETE等。
import requests # 導入requests模塊 response = requests.get('http://www.baidu.com')
發(fā)送帶參數(shù)的請求
發(fā)送帶參數(shù)的請求的意義是可以將需要發(fā)送的數(shù)據以參數(shù)的形式傳遞給服務器,服務器可以根據不同的參數(shù)值做出不同的響應。對于不同的業(yè)務場景,可以使用不同的參數(shù)來控制服務器的行為,例如:
- 在搜索引擎中,可以通過參數(shù)來指定搜索關鍵詞、排序方式、分頁等信息,以得到不同的搜索結果。
- 在電商網站中,可以通過參數(shù)來指定商品類別、價格區(qū)間、品牌等信息,以篩選出符合條件的商品。
- 在社交網絡中,可以通過參數(shù)來指定用戶ID、關注列表、粉絲列表等信息,以獲取相應的用戶信息和社交關系。
import requests # 導入requests模塊 payload = {'key1': 'value1', 'key2': 'value2'} # 字符串字典 r = requests.get("http://www.baidu.com/", params=payload) print(r.url) payload = {'key1': 'value1', 'key2': ['value2', 'value3']} # 將一個列表作為值傳入 r = requests.get('http://www.baidu.com/', params=payload) print(r.url) r = requests.get("https://www.baidu.com/s?wd=長春&ie=utf-8&tn=06136131_11_oem_dg") #百度搜索關鍵字與“長春”有關的信息 print(r.url) r = requests.get("https://www.baidu.com/s?wd=北京&ie=utf-8&tn=06136131_11_oem_dg") print(r.url)
運行結果:
定制請求頭headers
請求頭是HTTP協(xié)議中用于傳輸請求信息的一部分,它包含了一些關于請求的元數(shù)據,如請求類型、請求資源地址、請求參數(shù)、請求的來源等。常見的請求頭字段包括: User-Agent (瀏覽器或客戶端的身份標識)、Accept(客戶端能夠接收的MIME類型)、Cookie(請求攜帶的cookie數(shù)據)、Referer(請求前一個頁面的地址)、Authorization(身份認證信息)、Content-Type(請求參數(shù)的MIME類型)、Content-Length(請求參數(shù)的長度)等。
如:User-Agent= 'Mozilla/5.0 (Windows NT 10.0; WOW64)
import requests # 導入requests模塊 url = 'http://www.baidu.com/s?wd=你是我的神' headers = { 'Content-Type': 'text/html;charset=utf-8', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36' } r = requests.get(url,headers=headers) print(r.headers)
4.打開指定網站webbrowser
import webbrowser webbrowser.open('http://www.dbjr.com.cn/')
運行一下,就會跳轉到對應的網頁
?
到此這篇關于Python打開指定網頁使用requests模塊爬蟲示例詳解的文章就介紹到這了,更多相關Python requests模塊內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python中dtype、type()和astype()的區(qū)別詳解
這篇文章主要介紹了Python中dtype、type()和astype()的區(qū)別詳解,type()是python內置的函數(shù),type()返回數(shù)據結構類型(list、dict、numpy.ndarray 等),需要的朋友可以參考下2023-08-08