欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

學(xué)習(xí)Python爬蟲前必掌握知識(shí)點(diǎn)

 更新時(shí)間:2021年04月08日 11:27:45   作者:互聯(lián)網(wǎng)老辛  
這篇文章主要介紹了學(xué)習(xí)Python爬蟲前,我們需要了解涉及爬蟲的知識(shí)點(diǎn),學(xué)習(xí)爬蟲的知識(shí)點(diǎn)比較多,我們一起學(xué)習(xí)爬蟲吧

常見的協(xié)議

http和https
http協(xié)議:
超文本傳輸協(xié)議,是一個(gè)發(fā)布和接受HTML頁面的方法,端口是80

https 協(xié)議:http協(xié)議的加密版本,在HTTP下加上了ssl層,端口是443

下面訪問的是美團(tuán)的官網(wǎng):
可以看到端口是443

在這里插入圖片描述

URL和RUI

常見的請求方式

http協(xié)議規(guī)定了瀏覽器與服務(wù)器進(jìn)行數(shù)據(jù)交互過程中必須要選擇一種交互方式
在http協(xié)議中定義了8中請求方式,常見的是get和post請求

get請求: 一般只從服務(wù)器獲取數(shù)據(jù)下來,并不會(huì)對服務(wù)器資源產(chǎn)生任何的影響。

在這里插入圖片描述
請求的時(shí)候關(guān)注:

url請求方式請求頭

post請求: 向服務(wù)器發(fā)送數(shù)據(jù)(登陸),上傳文件等,會(huì)對服務(wù)器資源產(chǎn)生影響的時(shí)候,會(huì)使用post請求。

不過有些網(wǎng)站做了反爬蟲機(jī)制,你去查看信息,也是使用post請求,所以我們寫爬蟲的時(shí)候,一定要分析網(wǎng)站。

常見的請求頭參數(shù):

http協(xié)議中,向服務(wù)器發(fā)送一個(gè)請求,數(shù)據(jù)分為三部分:

  • 把數(shù)據(jù)放在url中
  • 數(shù)據(jù)放在body中,(post請求)
  • 數(shù)據(jù)放在head中

常見的請求頭參數(shù):

  • user-agent :瀏覽器名稱
  • referer: 當(dāng)前這個(gè)請求從哪個(gè)url過來的
  • cookie:http 協(xié)議是無狀態(tài)的,也就是一個(gè)人發(fā)送了兩次請求,服務(wù)器沒有能力知道這兩個(gè)請求是否來自同一個(gè)人。

在這里插入圖片描述

常見的相應(yīng)狀態(tài)碼

  •  200 請求正常,服務(wù)器正常返回?cái)?shù)據(jù)
  • 301 永久重定向
  • 404 請求的url在服務(wù)器上找不到
  • 418 發(fā)送請求遇到服務(wù)器端的反爬蟲,服務(wù)器拒絕相應(yīng)數(shù)據(jù)
  • 500 服務(wù)器內(nèi)部錯(cuò)誤,可能是服務(wù)器出現(xiàn)了bug

HTTP的請求相應(yīng)過程

在這里插入圖片描述

使用瀏覽器進(jìn)行網(wǎng)站分析

我們要分析的網(wǎng)站為: movie.douban.com

在這里插入圖片描述

  • Elements: 用于分析網(wǎng)站的結(jié)構(gòu)

在頁面上的呈現(xiàn)的內(nèi)容,在Elements都會(huì)有相應(yīng)的元素。

在這里插入圖片描述

  • Console: 這里會(huì)打印招聘信息,警告等等。

在這里插入圖片描述

  • Sources
  • Network : 在顯示頁面的時(shí)候,產(chǎn)生的所有請求

headers 頭部信息

 session 與cookie

session代表的是服務(wù)器和瀏覽器的一次會(huì)話過程
session 是一種服務(wù)器端的機(jī)制,用來存儲(chǔ)特定用戶的會(huì)話所需要的信息,保存在內(nèi)存,緩存,或者數(shù)據(jù)庫中。

cookie
cooke是由服務(wù)器端生成后發(fā)送給客戶端,cookie是保存在客戶端的

cookie原理:
1) 創(chuàng)建cookie
2) 設(shè)置存儲(chǔ)cookie
3) 發(fā)送cookie
4) 讀取cookie

到此這篇關(guān)于學(xué)習(xí)Python爬蟲前,需要先掌握哪些知識(shí)內(nèi)容的文章就介紹到這了,更多相關(guān)學(xué)習(xí)Python爬蟲掌握知識(shí)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 超簡單的Matplotlib安裝與配置教程

    超簡單的Matplotlib安裝與配置教程

    Matplotlib是Python的第三方繪圖庫,它非常類似于MATLAB,在使用Matplotlib軟件包之前需要對其進(jìn)行安裝,這篇文章主要給大家介紹了關(guān)于Matplotlib安裝與配置的相關(guān)資料,需要的朋友可以參考下
    2023-09-09
  • 關(guān)于pymysql模塊的使用以及代碼詳解

    關(guān)于pymysql模塊的使用以及代碼詳解

    在本篇文章里小編給大家整理的是關(guān)于關(guān)于pymysql模塊的使用以及代碼詳解,有興趣的朋友們學(xué)習(xí)下。
    2019-09-09
  • 基于python實(shí)現(xiàn)藍(lán)牙通信代碼實(shí)例

    基于python實(shí)現(xiàn)藍(lán)牙通信代碼實(shí)例

    這篇文章主要介紹了基于python實(shí)現(xiàn)藍(lán)牙通信代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-11-11
  • Python requests亂碼的五種解決辦法

    Python requests亂碼的五種解決辦法

    在Python中使用requests庫發(fā)送HTTP請求時(shí),有時(shí)會(huì)遇到亂碼的問題,亂碼通常是由于編碼不一致或解碼錯(cuò)誤導(dǎo)致的,這篇文章給大家介紹了Python requests亂碼的五種解決辦法,并通過代碼示例講解的非常詳細(xì),需要的朋友可以參考下
    2024-04-04
  • 淺談對python中if、elif、else的誤解

    淺談對python中if、elif、else的誤解

    這篇文章主要介紹了淺談對python中if、elif、else的誤解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-08-08
  • pandas數(shù)據(jù)處理清洗實(shí)現(xiàn)中文地址拆分案例

    pandas數(shù)據(jù)處理清洗實(shí)現(xiàn)中文地址拆分案例

    因?yàn)楹罄m(xù)數(shù)據(jù)分析工作需要用到地理維度進(jìn)行分析,所以需要把login_place字段進(jìn)行拆分成:國家、省份、地區(qū)。感興趣的可以了解一下
    2021-06-06
  • Python實(shí)現(xiàn)網(wǎng)站注冊驗(yàn)證碼生成類

    Python實(shí)現(xiàn)網(wǎng)站注冊驗(yàn)證碼生成類

    這篇文章主要為大家詳細(xì)介紹了Python實(shí)現(xiàn)網(wǎng)站注冊驗(yàn)證碼生成類,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-06-06
  • python制作定時(shí)發(fā)送信息腳本的實(shí)現(xiàn)思路

    python制作定時(shí)發(fā)送信息腳本的實(shí)現(xiàn)思路

    這篇文章主要介紹了python實(shí)現(xiàn)企業(yè)微信定時(shí)發(fā)送文本消息的實(shí)例代碼,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-11-11
  • Appium Python自動(dòng)化測試之環(huán)境搭建的步驟

    Appium Python自動(dòng)化測試之環(huán)境搭建的步驟

    這篇文章主要介紹了Appium Python自動(dòng)化測試之環(huán)境搭建的步驟,以32位的Windows 7操作系統(tǒng)為例介紹Appium+Python的環(huán)境搭建步驟,感興趣的小伙伴們可以參考一下
    2019-01-01
  • Python sklearn對文本數(shù)據(jù)進(jìn)行特征化提取

    Python sklearn對文本數(shù)據(jù)進(jìn)行特征化提取

    這篇文章主要介紹了Python sklearn對文本數(shù)據(jù)進(jìn)行特征化提取,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧
    2023-04-04

最新評論