快捷導(dǎo)航

python爬蟲(chóng)入門(mén)教程--快速理解HTTP協(xié)議（一）

更新時(shí)間：2017年05月25日 09:15:32 作者：FOOFISH

http協(xié)議是互聯(lián)網(wǎng)里面最重要，最基礎(chǔ)的協(xié)議之一，我們的爬蟲(chóng)需要經(jīng)常和http協(xié)議打交道。下面這篇文章主要給大家介紹了關(guān)于python爬蟲(chóng)入門(mén)之快速理解HTTP協(xié)議的相關(guān)資料，文中介紹的非常詳細(xì)，需要的朋友可以參考借鑒，下面來(lái)一起看看吧。

前言

爬蟲(chóng)的基本原理是模擬瀏覽器進(jìn)行 HTTP 請(qǐng)求，理解 HTTP 協(xié)議是寫(xiě)爬蟲(chóng)的必備基礎(chǔ)，招聘網(wǎng)站的爬蟲(chóng)崗位也赫然寫(xiě)著熟練掌握HTTP協(xié)議規(guī)范，寫(xiě)爬蟲(chóng)還不得不先從HTTP協(xié)議開(kāi)始講起

HTTP協(xié)議是什么？

你瀏覽的每一個(gè)網(wǎng)頁(yè)都是基于 HTTP 協(xié)議呈現(xiàn)的，HTTP 協(xié)議是互聯(lián)網(wǎng)應(yīng)用中，客戶(hù)端（瀏覽器）與服務(wù)器之間進(jìn)行數(shù)據(jù)通信的一種協(xié)議。協(xié)議中規(guī)定了客戶(hù)端應(yīng)該按照什么格式給服務(wù)器發(fā)送請(qǐng)求，同時(shí)也約定了服務(wù)端返回的響應(yīng)結(jié)果應(yīng)該是什么格式。

只要大家都按照協(xié)議規(guī)定方式發(fā)起請(qǐng)求和返回響應(yīng)結(jié)果，任何人都可以基于HTTP協(xié)議實(shí)現(xiàn)自己的Web客戶(hù)端（瀏覽器、爬蟲(chóng)）和Web服務(wù)器（Nginx、Apache等）。

HTTP 協(xié)議本身是非常簡(jiǎn)單的。它規(guī)定，只能由客戶(hù)端主動(dòng)發(fā)起請(qǐng)求，服務(wù)器接收請(qǐng)求處理后返回響應(yīng)結(jié)果，同時(shí) HTTP 是一種無(wú)狀態(tài)的協(xié)議，協(xié)議本身不記錄客戶(hù)端的歷史請(qǐng)求記錄。

HTTP 協(xié)議是如何規(guī)定請(qǐng)求格式和響應(yīng)格式的呢？換言之，客戶(hù)端按照什么格式才能正確發(fā)起 HTTP 請(qǐng)求呢？服務(wù)端按照什么格式返回響應(yīng)結(jié)果客戶(hù)端才能正確解析？

HTTP 請(qǐng)求

HTTP 請(qǐng)求由3部分組成，分別是請(qǐng)求行、請(qǐng)求首部、請(qǐng)求體，首部和請(qǐng)求體是可選的，并不是每個(gè)請(qǐng)求都需要的。

請(qǐng)求行

請(qǐng)求行是每個(gè)請(qǐng)求必不可少的部分，它由3部分組成，分別是請(qǐng)求方法（method)、請(qǐng)求URL（URI）、HTTP協(xié)議版本，以空格隔開(kāi)。

HTTP協(xié)議中最常用的請(qǐng)求方法有：GET、POST、PUT、DELETE。GET 方法用于從服務(wù)器獲取資源，90%的爬蟲(chóng)都是基于GET請(qǐng)求抓取數(shù)據(jù)。

請(qǐng)求 URL 是指資源所在服務(wù)器的路徑地址，比如上圖的例子表示客戶(hù)端想獲取 index.html 這個(gè)資源，它的路徑在服務(wù)器 foofish.net 的根目錄（/）下面。

請(qǐng)求首部

因?yàn)檎?qǐng)求行所攜帶的信息量非常有限，以至于客戶(hù)端還有很多想向服務(wù)器要說(shuō)的事情不得不放在請(qǐng)求首部（Header），請(qǐng)求首部用于給服務(wù)器提供一些額外的信息，比如 User-Agent 用來(lái)表明客戶(hù)端的身份，讓服務(wù)器知道你是來(lái)自瀏覽器的請(qǐng)求還是爬蟲(chóng)，是來(lái)自 Chrome 瀏覽器還是 FireFox。HTTP/1.1 規(guī)定了47種首部字段類(lèi)型。HTTP首部字段的格式很像 Python 中的字典類(lèi)型，由鍵值對(duì)組成，中間用冒號(hào)隔開(kāi)。比如：

User-Agent: Mozilla/5.0

因?yàn)榭蛻?hù)端發(fā)送請(qǐng)求時(shí)，發(fā)送的數(shù)據(jù)（報(bào)文）是由字符串構(gòu)成的，為了區(qū)分請(qǐng)求首部的結(jié)尾和請(qǐng)求體的開(kāi)始，用一個(gè)空行來(lái)表示，遇到空行時(shí)，就表示這是首部的結(jié)尾，請(qǐng)求體的開(kāi)始。

請(qǐng)求體

請(qǐng)求體是客戶(hù)端提交給服務(wù)器的真正內(nèi)容，比如用戶(hù)登錄時(shí)的需要用的用戶(hù)名和密碼，比如文件上傳的數(shù)據(jù)，比如注冊(cè)用戶(hù)信息時(shí)提交的表單信息。

現(xiàn)在我們用 Python 提供的最原始API socket 模塊來(lái)模擬向服務(wù)器發(fā)起一個(gè) HTTP 請(qǐng)求

with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
 # 1. 與服務(wù)器建立連接
 s.connect(("www.seriot.ch", 80))
 # 2. 構(gòu)建請(qǐng)求行，請(qǐng)求資源是 index.php
 request_line = b"GET /index.php HTTP/1.1"
 # 3. 構(gòu)建請(qǐng)求首部，指定主機(jī)名
 headers = b"Host: seriot.ch"
 # 4. 用空行標(biāo)記請(qǐng)求首部的結(jié)束位置
 blank_line = b"\r\n"

 # 請(qǐng)求行、首部、空行這3部分內(nèi)容用換行符分隔，組成一個(gè)請(qǐng)求報(bào)文字符串
 # 發(fā)送給服務(wù)器
 message = b"\r\n".join([request_line, headers, blank_line])
 s.send(message)

 # 服務(wù)器返回的響應(yīng)內(nèi)容稍后進(jìn)行分析
 response = s.recv(1024)
 print(response)

HTTP 響應(yīng)

服務(wù)端接收請(qǐng)求并處理后，返回響應(yīng)內(nèi)容給客戶(hù)端，同樣地，響應(yīng)內(nèi)容也必須遵循固定的格式瀏覽器才能正確解析。HTTP 響應(yīng)也由3部分組成，分別是：響應(yīng)行、響應(yīng)首部、響應(yīng)體，與 HTTP 的請(qǐng)求格式是相對(duì)應(yīng)的。

響應(yīng)行

響應(yīng)行同樣也是3部分組成，由服務(wù)端支持的 HTTP 協(xié)議版本號(hào)、狀態(tài)碼、以及對(duì)狀態(tài)碼的簡(jiǎn)短原因描述組成。

狀態(tài)碼是響應(yīng)行中很重要的一個(gè)字段。通過(guò)狀態(tài)碼，客戶(hù)端可以知道服務(wù)器是否正常處理的請(qǐng)求。如果狀態(tài)碼是200，說(shuō)明客戶(hù)端的請(qǐng)求處理成功，如果是500，說(shuō)明服務(wù)器處理請(qǐng)求的時(shí)候出現(xiàn)了異常。404 表示請(qǐng)求的資源在服務(wù)器找不到。除此之外，HTTP 協(xié)議還很定義了很多其他的狀態(tài)碼，不過(guò)它不是本文的討論范圍。

響應(yīng)首部

響應(yīng)首部和請(qǐng)求首部類(lèi)似，用于對(duì)響應(yīng)內(nèi)容的補(bǔ)充，在首部里面可以告知客戶(hù)端響應(yīng)體的數(shù)據(jù)類(lèi)型是什么？響應(yīng)內(nèi)容返回的時(shí)間是什么時(shí)候，響應(yīng)體是否壓縮了，響應(yīng)體最后一次修改的時(shí)間。

響應(yīng)體

響應(yīng)體（body）是服務(wù)器返回的真正內(nèi)容，它可以是一個(gè)HTML頁(yè)面，或者是一張圖片、一段視頻等等。

我們繼續(xù)沿用前面那個(gè)例子來(lái)看看服務(wù)器返回的響應(yīng)結(jié)果是什么？因?yàn)槲抑唤邮樟饲?024個(gè)字節(jié)，所以有一部分響應(yīng)內(nèi)容是看不到的。

b'HTTP/1.1 200 OK\r\n
Date: Tue, 04 Apr 2017 16:22:35 GMT\r\n
Server: Apache\r\n
Expires: Thu, 19 Nov 1981 08:52:00 GMT\r\n
Set-Cookie: PHPSESSID=66bea0a1f7cb572584745f9ce6984b7e; path=/\r\n
Transfer-Encoding: chunked\r\n
Content-Type: text/html; charset=UTF-8\r\n\r\n118d\r\n

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\n\n
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n
<head>\n\t
 <meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1" /> \n\t
 <meta http-equiv="content-language" content="en" />\n\t
...
</html>

從結(jié)果來(lái)看，它與協(xié)議中規(guī)范的格式是一樣的，第一行是響應(yīng)行，狀態(tài)碼是200，表明請(qǐng)求成功。第二部分是響應(yīng)首部信息，由多個(gè)首部組成，有服務(wù)器返回響應(yīng)的時(shí)間，Cookie信息等等。第三部分就是真正的響應(yīng)體 HTML 文本。

至此，你應(yīng)該對(duì) HTTP 協(xié)議有一個(gè)總體的認(rèn)識(shí)了，爬蟲(chóng)的行為本質(zhì)上就是模擬瀏覽器發(fā)送HTTP請(qǐng)求，所以要想在爬蟲(chóng)領(lǐng)域深耕細(xì)作，理解 HTTP 協(xié)議是必須的。

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助，如果有疑問(wèn)大家可以留言交流，謝謝大家對(duì)腳本之家的支持。

您可能感興趣的文章: