Python 爬蟲的原理

更新時(shí)間：2020年07月30日 09:38:49 作者：syncd

這篇文章主要介紹了Python 爬蟲的原理,文中講解非常細(xì)致，幫助大家更好的學(xué)習(xí)和認(rèn)識(shí)爬蟲，感興趣的朋友可以了解下

爬蟲就是請(qǐng)求網(wǎng)站并提取數(shù)據(jù)的自動(dòng)化程序。其中請(qǐng)求，提取，自動(dòng)化是爬蟲的關(guān)鍵！下面我們分析爬蟲的基本流程

爬蟲的基本流程

發(fā)起請(qǐng)求

通過HTTP庫(kù)向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求，也就是發(fā)送一個(gè)Request，請(qǐng)求可以包含額外的header等信息，等待服務(wù)器響應(yīng)

獲取響應(yīng)內(nèi)容

如果服務(wù)器能正常響應(yīng)，會(huì)得到一個(gè)Response，Response的內(nèi)容便是所要獲取的頁(yè)面內(nèi)容，類型可能是HTML,Json字符串，二進(jìn)制數(shù)據(jù)（圖片或者視頻）等類型

解析內(nèi)容

得到的內(nèi)容可能是HTML,可以用正則表達(dá)式，頁(yè)面解析庫(kù)進(jìn)行解析，可能是Json,可以直接轉(zhuǎn)換為Json對(duì)象解析，可能是二進(jìn)制數(shù)據(jù)，可以做保存或者進(jìn)一步的處理

保存數(shù)據(jù)

保存形式多樣，可以存為文本，也可以保存到數(shù)據(jù)庫(kù)，或者保存特定格式的文件

什么是Request,Response

瀏覽器發(fā)送消息給網(wǎng)址所在的服務(wù)器，這個(gè)過程就叫做HTPP Request

服務(wù)器收到瀏覽器發(fā)送的消息后，能夠根據(jù)瀏覽器發(fā)送消息的內(nèi)容，做相應(yīng)的處理，然后把消息回傳給瀏覽器，這個(gè)過程就是HTTP Response

瀏覽器收到服務(wù)器的Response信息后，會(huì)對(duì)信息進(jìn)行相應(yīng)的處理，然后展示

Request中包含什么？
請(qǐng)求方式

主要有：GET/POST兩種類型常用，另外還有HEAD/PUT/DELETE/OPTIONS
GET和POST的區(qū)別就是：請(qǐng)求的數(shù)據(jù)GET是在url中，POST則是存放在頭部

GET:向指定的資源發(fā)出“顯示”請(qǐng)求。使用GET方法應(yīng)該只用在讀取數(shù)據(jù)，而不應(yīng)當(dāng)被用于產(chǎn)生“副作用”的操作中，例如在Web Application中。其中一個(gè)原因是GET可能會(huì)被網(wǎng)絡(luò)蜘蛛等隨意訪問

POST:向指定資源提交數(shù)據(jù)，請(qǐng)求服務(wù)器進(jìn)行處理（例如提交表單或者上傳文件）。數(shù)據(jù)被包含在請(qǐng)求本文中。這個(gè)請(qǐng)求可能會(huì)創(chuàng)建新的資源或修改現(xiàn)有資源，或二者皆有。

HEAD：與GET方法一樣，都是向服務(wù)器發(fā)出指定資源的請(qǐng)求。只不過服務(wù)器將不傳回資源的本文部分。它的好處在于，使用這個(gè)方法可以在不必傳輸全部?jī)?nèi)容的情況下，就可以獲取其中“關(guān)于該資源的信息”（元信息或稱元數(shù)據(jù)）。

PUT：向指定資源位置上傳其最新內(nèi)容。

OPTIONS：這個(gè)方法可使服務(wù)器傳回該資源所支持的所有HTTP請(qǐng)求方法。用'*'來(lái)代替資源名稱，向Web服務(wù)器發(fā)送OPTIONS請(qǐng)求，可以測(cè)試服務(wù)器功能是否正常運(yùn)作。

DELETE：請(qǐng)求服務(wù)器刪除Request-URI所標(biāo)識(shí)的資源。

請(qǐng)求URL

URL，即統(tǒng)一資源定位符，也就是我們說的網(wǎng)址，統(tǒng)一資源定位符是對(duì)可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡(jiǎn)潔的表示，是互聯(lián)網(wǎng)上標(biāo)準(zhǔn)資源的地址。互聯(lián)網(wǎng)上的每個(gè)文件都有一個(gè)唯一的URL，它包含的信息指出文件的位置以及瀏覽器應(yīng)該怎么處理它。

URL的格式由三個(gè)部分組成：

第一部分是協(xié)議(或稱為服務(wù)方式)。
第二部分是存有該資源的主機(jī)IP地址(有時(shí)也包括端口號(hào))。
第三部分是主機(jī)資源的具體地址，如目錄和文件名等。

爬蟲爬取數(shù)據(jù)時(shí)必須要有一個(gè)目標(biāo)的URL才可以獲取數(shù)據(jù)，因此，它是爬蟲獲取數(shù)據(jù)的基本依據(jù)。

請(qǐng)求頭

包含請(qǐng)求時(shí)的頭部信息，如User-Agent,Host,Cookies等信息，下圖是請(qǐng)求請(qǐng)求百度時(shí)，所有的請(qǐng)求頭部信息參數(shù)

請(qǐng)求體

請(qǐng)求是攜帶的數(shù)據(jù)，如提交表單數(shù)據(jù)時(shí)候的表單數(shù)據(jù)（POST）

Response中包含了什么

所有HTTP響應(yīng)的第一行都是狀態(tài)行，依次是當(dāng)前HTTP版本號(hào)，3位數(shù)字組成的狀態(tài)代碼，以及描述狀態(tài)的短語(yǔ)，彼此由空格分隔。

響應(yīng)狀態(tài)

有多種響應(yīng)狀態(tài)，如：200代表成功，301跳轉(zhuǎn)，404找不到頁(yè)面，502服務(wù)器錯(cuò)誤

1xx消息——請(qǐng)求已被服務(wù)器接收，繼續(xù)處理
2xx成功——請(qǐng)求已成功被服務(wù)器接收、理解、并接受
3xx重定向——需要后續(xù)操作才能完成這一請(qǐng)求
4xx請(qǐng)求錯(cuò)誤——請(qǐng)求含有詞法錯(cuò)誤或者無(wú)法被執(zhí)行
5xx服務(wù)器錯(cuò)誤——服務(wù)器在處理某個(gè)正確請(qǐng)求時(shí)發(fā)生錯(cuò)誤常見代碼： 200 OK 請(qǐng)求成功 400 Bad Request 客戶端請(qǐng)求有語(yǔ)法錯(cuò)誤，不能被服務(wù)器所理解 401 Unauthorized 請(qǐng)求未經(jīng)授權(quán)，這個(gè)狀態(tài)代碼必須和WWW-Authenticate報(bào)頭域一起使用 403 Forbidden 服務(wù)器收到請(qǐng)求，但是拒絕提供服務(wù) 404 Not Found 請(qǐng)求資源不存在，eg：輸入了錯(cuò)誤的URL 500 Internal Server Error 服務(wù)器發(fā)生不可預(yù)期的錯(cuò)誤 503 Server Unavailable 服務(wù)器當(dāng)前不能處理客戶端的請(qǐng)求，一段時(shí)間后可能恢復(fù)正常 301 目標(biāo)永久性轉(zhuǎn)移 302 目標(biāo)暫時(shí)性轉(zhuǎn)移

響應(yīng)頭

如內(nèi)容類型，類型的長(zhǎng)度，服務(wù)器信息，設(shè)置Cookie,如下圖