欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲基礎(chǔ)之爬蟲的分類知識總結(jié)

 更新時間:2021年05月13日 14:47:17   作者:松鼠愛吃餅干  
來給大家講python爬蟲的基礎(chǔ)啦,首先我們從爬蟲的分類開始講起,下文有非常詳細的知識總結(jié),對正在學(xué)習(xí)python的小伙伴們很有幫助,需要的朋友可以參考下

一、通用爬蟲

通用網(wǎng)絡(luò)爬蟲是搜索引擎抓取系統(tǒng)(Baidu、Google、Sogou等)的一個重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地,形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。為搜索引擎提供搜索支持。

第一步

搜索引擎去成千上萬個網(wǎng)站抓取數(shù)據(jù)。

第二步

搜索引擎通過爬蟲爬取到的網(wǎng)頁,將數(shù)據(jù)存入原始頁面數(shù)據(jù)庫(也就是文檔庫)。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全—樣的。

第三步

搜索引擎將爬蟲抓取回來的頁面,進行各種步驟的預(yù)處理:中文分詞,消除噪音,索引處理。。。
搜索引擎在對信息進行組織和處理后,為用戶提供關(guān)鍵字檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶。展示的時候會進行排名。

二、搜索引擎的局限性

  • 搜索引擎抓取的是整個網(wǎng)頁,不是具體詳細的信息。
  • 搜索引擎無法提供針對具體某個客戶需求的搜索結(jié)果。

聚焦爬蟲

針對通用爬蟲的這些情況,聚焦爬蟲技術(shù)得以廣泛使用。聚焦爬蟲,是"面向特定主題需求"的一種網(wǎng)絡(luò)爬蟲程序,它與通用搜索引擎爬蟲的區(qū)別在于:聚焦爬蟲在實施網(wǎng)頁抓取時會對內(nèi)容進行處理篩選,盡量保證只抓取與需求相關(guān)的網(wǎng)頁數(shù)據(jù)。

三、Robots協(xié)議

robots是網(wǎng)站跟爬蟲間的協(xié)議,用簡單直接的txt格式文本方式告訴對應(yīng)的爬蟲被允許的權(quán)限,也就是說robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。當(dāng)一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。——百度百科

Robots協(xié)議也叫爬蟲協(xié)議、機器人協(xié)議等,全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots ExclusionProtocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,例如:

淘寶: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、請求與相應(yīng)

網(wǎng)絡(luò)通信由兩部分組成:客戶端請求消息服務(wù)器響應(yīng)消息

瀏覽器發(fā)送HTTP請求的過程:

1.當(dāng)我們在瀏覽器輸入URL https://www.baidu.com的時候,瀏覽器發(fā)送一個Request請求去
獲取 https://www.baidu.com 的html文件,服務(wù)器把Response文件對象發(fā)送回給瀏覽器。

2.瀏覽器分析Response中的HTML,發(fā)現(xiàn)其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。瀏覽器會自動再次發(fā)送Request去獲取圖片,CSS文件,或者JS文件。

3.當(dāng)所有的文件都下載成功后,網(wǎng)頁會根據(jù)HTML語法結(jié)構(gòu),完整的顯示出來了。

實際上我們通過學(xué)習(xí)爬蟲技術(shù)爬取數(shù)據(jù),也是向服務(wù)器請求數(shù)據(jù),獲取服務(wù)器響應(yīng)數(shù)據(jù)的過程。

到此這篇關(guān)于Python爬蟲基礎(chǔ)之爬蟲的分類知識總結(jié)的文章就介紹到這了,更多相關(guān)Python爬蟲的分類內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 關(guān)于Python的Thread線程模塊詳解

    關(guān)于Python的Thread線程模塊詳解

    這篇文章主要介紹了關(guān)于Python的Thread線程模塊詳解,進程是程序的一次執(zhí)行,每個進程都有自己的地址空間、內(nèi)存、數(shù)據(jù)棧以及其他記錄其運行的輔助數(shù)據(jù),需要的朋友可以參考下
    2023-05-05
  • 探究Python的Tornado框架對子域名和泛域名的支持

    探究Python的Tornado框架對子域名和泛域名的支持

    這篇文章主要介紹了探究Python的Tornado框架對子域名和泛域名的支持,Tornado作為一個典型的異步框架、在Python開發(fā)者中的人氣相當(dāng)高,需要的朋友可以參考下
    2015-05-05
  • 使用jupyter notebook將文件保存為Markdown,HTML等文件格式

    使用jupyter notebook將文件保存為Markdown,HTML等文件格式

    這篇文章主要介紹了使用jupyter notebook將文件保存為Markdown,HTML等文件格式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • Python常用特殊方法實例總結(jié)

    Python常用特殊方法實例總結(jié)

    這篇文章主要介紹了Python常用特殊方法,結(jié)合實例形式總結(jié)分析了Python常見的__init__、__new__、__del__、__str__、__repr__等特殊方法與描述符相關(guān)功能及使用技巧,需要的朋友可以參考下
    2019-03-03
  • python單元測試框架pytest介紹

    python單元測試框架pytest介紹

    這篇文章介紹了python的單元測試框架pytest,文中通過示例代碼介紹的非常詳細。對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-06-06
  • python通過索引遍歷列表的方法

    python通過索引遍歷列表的方法

    這篇文章主要介紹了python通過索引遍歷列表的方法,實例分析了Python遍歷列表的相關(guān)技巧,非常具有實用價值,需要的朋友可以參考下
    2015-05-05
  • 使用Python編寫一個簡單的tic-tac-toe游戲的教程

    使用Python編寫一個簡單的tic-tac-toe游戲的教程

    這篇文章主要介紹了使用Python編寫一個簡單的tic-tac-toe游戲的教程,有利于Python初學(xué)者進行上手實踐,需要的朋友可以參考下
    2015-04-04
  • 對python For 循環(huán)的三種遍歷方式解析

    對python For 循環(huán)的三種遍歷方式解析

    今天小編就為大家分享一篇對python For 循環(huán)的三種遍歷方式解析,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-02-02
  • Python如何腳本過濾文件中的注釋

    Python如何腳本過濾文件中的注釋

    在本篇文章里小編給大家分享的是關(guān)于Python腳本過濾文件中的注釋方法以及實例,需要的朋友們可以學(xué)習(xí)下。
    2020-05-05
  • Pycharm2017版本設(shè)置啟動時默認自動打開項目的方法

    Pycharm2017版本設(shè)置啟動時默認自動打開項目的方法

    今天小編就為大家分享一篇Pycharm2017版本設(shè)置啟動時默認自動打開項目的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10

最新評論