欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python網(wǎng)絡(luò)爬蟲之HTTP原理

 更新時(shí)間:2023年04月10日 11:10:54   作者:愛吃餅干的小白鼠  
在寫爬蟲之前,我們還需要了解一些基礎(chǔ)知識(shí),如HTTP原理、網(wǎng)頁的基礎(chǔ)知識(shí)、爬蟲的基本原理、Cookies的基本原理等。本文中,我們就對(duì)這些基礎(chǔ)知識(shí)做一個(gè)簡單的總結(jié),需要的朋友參考一下

??爬蟲基礎(chǔ)

在寫爬蟲之前,我們還需要了解一些基礎(chǔ)知識(shí),如HTTP原理、網(wǎng)頁的基礎(chǔ)知識(shí)、爬蟲的基本原理、Cookies的基本原理等。本文中,我們就對(duì)這些基礎(chǔ)知識(shí)做一個(gè)簡單的總結(jié)。

??HTTP 基本原理

在本文中,我們會(huì)詳細(xì)了解 HTTP的基本原理,了解在瀏覽器中敲入U(xiǎn)RL 到獲取網(wǎng)頁內(nèi)容之間發(fā)生了什么。了解了這些內(nèi)容,有助于我們進(jìn)一步了解爬蟲的基本原理。

?URI和 URL

這里我們先了解一下URI和URL,URI的全稱為Uniform Resource Identifier,即統(tǒng)―資源標(biāo)志符,URL的全稱為Universal Resource Locator,即統(tǒng)一資源定位符。

URL是URI的子集,也就是說每個(gè)URL都是URI,但不是每個(gè)URI都是 URL。那么,怎樣的URI不是URL呢?URI還包括一個(gè)子類叫作 URN,它的全稱為Universal Resource Name,即統(tǒng)―資源名稱。URN 只命名資源而不指定如何定位資源,比如urn:isbn:0451450523指定了一本書的ISBN,可以唯一標(biāo)識(shí)這本書,但是沒有指定到哪里定位這本書,這就是URN。URL、URN和URI的關(guān)系。

但是在目前的互聯(lián)網(wǎng)中,URN用得非常少,所以幾乎所有的URI都是URL,一般的網(wǎng)頁鏈接我們既可以稱為URL,也可以稱為URI,我個(gè)人習(xí)慣稱為URL。

?超文本

接下來,我們?cè)倭私庖灰粋€(gè)概念——超文本, 其英文名稱叫作hypertext,我們?cè)跒g覽器里看到的網(wǎng)
頁就是超文本解析而成的,其網(wǎng)頁源代碼是一系列HTML代碼,里面包含了-系列標(biāo)簽,比如img顯
示圖片,p指定顯示段落等。瀏覽器解析這些標(biāo)簽后,便形成了我們平常看到的網(wǎng)頁,而網(wǎng)頁的源代碼HTML就可以稱作超文本。

例如,我們?cè)贑hrome瀏覽器里面打開任意一一個(gè)頁面,如淘寶首頁,右擊任一地方并選擇 “檢查”
項(xiàng)(或者直接按快捷鍵F12),即可打開瀏覽器的開發(fā)者工具,這時(shí)在Elements 選項(xiàng)卡即可看到當(dāng)前
網(wǎng)頁的源代碼,這些源代碼都是超文本,如圖所示。

?HTTP 和HTTPS

在百度的首頁, URL的開頭會(huì)有http 或https,這就是訪問資源需要的協(xié)議類型。有時(shí),我們還會(huì)看到ftp、sftp、 smb 開頭的URL,它們都是協(xié)議類型。在爬蟲中,我們抓取的頁面通常就是http或https協(xié)議的,這里首先了解一下這兩 個(gè)協(xié)議的含義。

HTTP的全稱是Hyper Text Transfer Protocol, 中文名叫作超文本傳輸協(xié)議。HTTP協(xié)議是用于從網(wǎng)絡(luò)傳輸超文本數(shù)據(jù)到本地瀏覽器的傳送協(xié)議,它能保證高效而準(zhǔn)確地傳送超文本文檔。HTTP由萬維網(wǎng)協(xié)會(huì)( World Wide Web Consortium )和Internet工作小組IETF ( Internet Engineering Task Force )共同合作制定的規(guī)范,目前廣泛使用的是HTTP1.1版本。

HTTPS的全稱是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全為目標(biāo)的HTTP
通道,簡單講是HTTP的安全版,即HTTP下加入SSL層,簡稱為HTTPS。

HTTPS的安全基礎(chǔ)是SSL,因此通過它傳輸?shù)膬?nèi)容都是經(jīng)過SSL加密的,它的主要作用可以分
為兩種。

  • 建立一個(gè)信息安全通道來保證數(shù)據(jù)傳輸?shù)陌踩?/li>
  • 確認(rèn)網(wǎng)站的真實(shí)性,凡是使用了HTTPS的網(wǎng)站,都可以通過點(diǎn)擊瀏覽器地址欄的鎖頭標(biāo)志來查看網(wǎng)站認(rèn)證之后的真實(shí)信息,也可以通過CA機(jī)構(gòu)頒發(fā)的安全簽章來查詢。

 現(xiàn)在越來越多的網(wǎng)站和App都已經(jīng)向HTTPS方向發(fā)展,例如:

  • 蘋果公司強(qiáng)制所有ioS App在2017年1月1日前全部改為使用HTTPS加密,否則App就無法在應(yīng)用商店上架。
  • 谷歌從2017年1月推出的Chrome 56開始,對(duì)未進(jìn)行HTTPS加密的網(wǎng)址鏈接亮出風(fēng)險(xiǎn)提示,即在地址欄的顯著位置提醒用戶“此網(wǎng)頁不安全" 。
  • 騰訊微信小程序的官方需求文檔要求后臺(tái)使用HTTPS請(qǐng)求進(jìn)行網(wǎng)絡(luò)通信,不滿足條件的域名和協(xié)議無法請(qǐng)求。

 ?HTTP 請(qǐng)求過程

我們?cè)跒g覽器中輸人一一個(gè)URL,回車之后便會(huì)在瀏覽器中觀察到頁面內(nèi)容。實(shí)際上,這個(gè)過程是

瀏覽器向網(wǎng)站所在的服務(wù)器發(fā)送了一個(gè)請(qǐng)求,網(wǎng)站服務(wù)器接收到這個(gè)請(qǐng)求后進(jìn)行處理和解析,然后返回對(duì)應(yīng)的響應(yīng),接著傳回給瀏覽器。響應(yīng)里包含了頁面的源代碼等內(nèi)容,瀏覽器再對(duì)其進(jìn)行解析,便將網(wǎng)頁呈現(xiàn)了出來。

 此處客戶端即代表我們自己的PC或手機(jī)瀏覽器,服務(wù)器即要訪問的網(wǎng)站所在的服務(wù)器。

?請(qǐng)求

請(qǐng)求,由客戶端向服務(wù)端發(fā)出,可以分為4部分內(nèi)容:請(qǐng)求方法( Request Method)、請(qǐng)求的網(wǎng)址
( Request URL )、請(qǐng)求頭( Request Headers )、請(qǐng)求體( Request Body )。

  • 請(qǐng)求方法

常見的請(qǐng)求方法有兩種: GET和POST。

在瀏覽器中直接輸入U(xiǎn)RL并回車,這便發(fā)起了一個(gè)GET請(qǐng)求,請(qǐng)求的參數(shù)會(huì)直接包含到URL里。例如,在百度中搜索Python,這就是一一個(gè)GET請(qǐng)求,鏈接為htps://www baidu. com/,其中URL中包含了請(qǐng)求的參數(shù)信息,這里參數(shù)wd表示要搜尋的關(guān)鍵字。POST 請(qǐng)求大多在表單提交時(shí)發(fā)起。比如,對(duì)于一個(gè)登錄表單,輸人用戶名和密碼后,點(diǎn)擊“登錄”按鈕,這通常會(huì)發(fā)起一個(gè) POST請(qǐng)求,其數(shù)據(jù)通常以表單的形式傳輸,而不會(huì)體現(xiàn)在URL中。

GET和POST請(qǐng)求方法有如下區(qū)別:

  • GET請(qǐng)求中的參數(shù)包含在URL里面,數(shù)據(jù)可以在URL中看到,而POST請(qǐng)求的URL不會(huì)包含這些數(shù)據(jù),數(shù)據(jù)都是通過表單形式傳輸?shù)模瑫?huì)包含在請(qǐng)求體中。
  • GET請(qǐng)求提交的數(shù)據(jù)最多只有1024字節(jié),而POST方式?jīng)]有限制。

一般來說,登錄時(shí),需要提交用戶名和密碼,其中包含了敏感信息,使用GET方式請(qǐng)求的話,密碼就會(huì)暴露在URL里面,造成密碼泄露,所以這里最好以POST方式發(fā)送。上傳文件時(shí),由于文件內(nèi)容比較大,也會(huì)選用POST方式。

我們平常遇到的絕大部分請(qǐng)求都是GET或POST請(qǐng)求,另外還有一些請(qǐng)求方法, 如GET、HEAD、
POST、PUT、 DELETE、OPTIONS、CONNECT、TRACE等。

  • 請(qǐng)求的網(wǎng)址
請(qǐng)求的網(wǎng)址,即統(tǒng)一資源定 位符URL,它可以唯一確定 我們想請(qǐng)求的資源。
  • 請(qǐng)求頭
請(qǐng)求頭,用來說明服務(wù)器要使用的附加信息,比較重要的信息有Cookie . Referer. User-Agent等。
  • 請(qǐng)求體
請(qǐng)求體一般承載的內(nèi)容是 POST請(qǐng)求中的表單數(shù)據(jù),而對(duì)于GET請(qǐng)求,請(qǐng)求體則為空。

?響應(yīng)

響應(yīng),由服務(wù)端返回給客戶端,可以分為三部分:響應(yīng)狀態(tài)碼( Response Status Code).響應(yīng)頭( Response Headers )和響應(yīng)體( Response Body )。

  •  響應(yīng)狀態(tài)碼
響應(yīng)狀態(tài)碼表示服務(wù)器的響應(yīng)狀態(tài),如200代表服務(wù)器正常響應(yīng),404代表頁面未找到,500代表
服務(wù)器內(nèi)部發(fā)生錯(cuò)誤。在爬蟲中,我們可以根據(jù)狀態(tài)碼來判斷服務(wù)器響應(yīng)狀態(tài),如狀態(tài)碼為200,則
證明成功返回?cái)?shù)據(jù),再進(jìn)行進(jìn)一步的處理, 否則直接忽略。
 
  • 響應(yīng)頭
響應(yīng)頭包含了服務(wù)器對(duì)請(qǐng)求的應(yīng)答信息,如Content-Type、Server、 Set-Cookie 等。
  • 響應(yīng)體
最重要的當(dāng)屬響應(yīng)體的內(nèi)容了。響應(yīng)的正文數(shù)據(jù)都在響應(yīng)體中,比如請(qǐng)求網(wǎng)頁時(shí),它的響應(yīng)體
就是網(wǎng)頁的HTML代碼;請(qǐng)求- -張圖片時(shí) ,它的響應(yīng)體就是圖片的二進(jìn)制數(shù)據(jù)。我們做爬蟲請(qǐng)
求網(wǎng)頁后,要解析的內(nèi)容就是響應(yīng)體.

到此這篇關(guān)于Python網(wǎng)絡(luò)爬蟲之HTTP原理的文章就介紹到這了,更多相關(guān)Python網(wǎng)絡(luò)HTTP原理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python3利用smtplib通過qq郵箱發(fā)送郵件方法示例

    python3利用smtplib通過qq郵箱發(fā)送郵件方法示例

    python實(shí)現(xiàn)郵件發(fā)送較為簡單,主要用到smtplib這個(gè)模塊,所以下面這篇文章主要給大家介紹了關(guān)于python3利用smtplib通過qq郵箱發(fā)送郵件的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來一起看看吧。
    2017-12-12
  • 對(duì)Python捕獲控制臺(tái)輸出流的方法詳解

    對(duì)Python捕獲控制臺(tái)輸出流的方法詳解

    今天小編就為大家分享一篇對(duì)Python捕獲控制臺(tái)輸出流的方法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • python實(shí)現(xiàn)下載文件的三種方法

    python實(shí)現(xiàn)下載文件的三種方法

    本篇文章主要介紹了python實(shí)現(xiàn)下載文件的三種方法,最常用的方法就是通過Http利用urllib或者urllib2模塊還有requests,有興趣的可以了解一下。
    2017-02-02
  • Python基于OpenCV實(shí)現(xiàn)視頻的人臉檢測(cè)

    Python基于OpenCV實(shí)現(xiàn)視頻的人臉檢測(cè)

    這篇文章主要為大家詳細(xì)介紹了Python基于OpenCV實(shí)現(xiàn)視頻的人臉檢測(cè),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-01-01
  • Pygame實(shí)現(xiàn)監(jiān)聽鼠標(biāo)示例詳解

    Pygame實(shí)現(xiàn)監(jiān)聽鼠標(biāo)示例詳解

    這篇文章主要介紹了通過Pygame模塊實(shí)現(xiàn)監(jiān)聽鼠標(biāo)的功能,文章的示例代碼講解詳細(xì),對(duì)我們的學(xué)習(xí)或工作有一定的價(jià)值,感興趣的小伙伴可以了解一下
    2021-12-12
  • python中關(guān)于CIFAR10數(shù)據(jù)集的使用

    python中關(guān)于CIFAR10數(shù)據(jù)集的使用

    這篇文章主要介紹了python中關(guān)于CIFAR10數(shù)據(jù)集的使用方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • python opencv檢測(cè)目標(biāo)顏色的實(shí)例講解

    python opencv檢測(cè)目標(biāo)顏色的實(shí)例講解

    下面小編就為大家分享一篇python opencv檢測(cè)目標(biāo)顏色的實(shí)例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • 詳解Python 最短匹配模式

    詳解Python 最短匹配模式

    這篇文章主要介紹了如何實(shí)現(xiàn)Python 最短匹配模式,文中講解非常細(xì)致,代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下
    2020-07-07
  • Python3中str、bytes、bytearray轉(zhuǎn)化

    Python3中str、bytes、bytearray轉(zhuǎn)化

    本文主要介紹了Python3中str、bytes、bytearray轉(zhuǎn)化,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-04-04
  • 解決Python pip 自動(dòng)更新升級(jí)失敗的問題

    解決Python pip 自動(dòng)更新升級(jí)失敗的問題

    今天小編就為大家分享一篇解決Python pip 自動(dòng)更新升級(jí)失敗的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02

最新評(píng)論