欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲基礎(chǔ)知識(shí)點(diǎn)整理

 更新時(shí)間:2020年06月02日 08:11:33   作者:愛喝馬黛茶的安東尼  
在本篇文章里小編給大家整理的是一篇關(guān)于python爬蟲基礎(chǔ)知識(shí)點(diǎn)整理內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。

首先爬蟲是什么?

網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。

根據(jù)我的經(jīng)驗(yàn),要學(xué)習(xí)Python爬蟲,我們要學(xué)習(xí)的共有以下幾點(diǎn):

  • Python基礎(chǔ)知識(shí)
  • Python中urllib和urllib2庫(kù)的用法
  • Python正則表達(dá)式
  • Python爬蟲框架Scrapy
  • Python爬蟲更高級(jí)的功能

1.Python基礎(chǔ)學(xué)習(xí)

首先,我們要用Python寫爬蟲,肯定要了解Python的基礎(chǔ)吧,萬(wàn)丈高樓平地起,不能忘啦那地基,哈哈,那么我就分享一下自己曾經(jīng)看過(guò)的一些Python教程,小伙伴們可以作為參考。

1) Python學(xué)習(xí)網(wǎng)

Python學(xué)習(xí)網(wǎng)上有大量免費(fèi)的Python入門教程,以便大家學(xué)習(xí)。不僅有視頻教程,還有相應(yīng)的問(wèn)答版塊,幫你解決學(xué)習(xí)過(guò)程中的問(wèn)題,效果還是蠻不錯(cuò)的,內(nèi)容基本上都是最基礎(chǔ)的,入門開始的話,就這個(gè)吧

2) 廖雪峰Python教程

后來(lái),我發(fā)現(xiàn)了廖老師的Python教程,講的那是非常通俗易懂哪,感覺也是非常不錯(cuò),大家如果想進(jìn)一步了解Python就看一下這個(gè)吧。

3) 簡(jiǎn)明Python教程

還有一個(gè)我看過(guò)的,簡(jiǎn)明Python教程,感覺講的也不錯(cuò)

學(xué)習(xí)網(wǎng)址:簡(jiǎn)明Python教程(https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01)

4) 汪海的實(shí)驗(yàn)室

這是我的本科實(shí)驗(yàn)室學(xué)長(zhǎng),入門的時(shí)候參考的他的文章,自己重新做了總結(jié),后來(lái)這些系列文章又在他的基礎(chǔ)上增加了一些內(nèi)容。

學(xué)習(xí)網(wǎng)址:汪海的實(shí)驗(yàn)室(https://blog.csdn.net/wxg694175346/category_1418998_1.html)

2.Python urllib和urllib2 庫(kù)的用法

urllib和urllib2庫(kù)是學(xué)習(xí)Python爬蟲最基本的庫(kù),利用這個(gè)庫(kù)我們可以得到網(wǎng)頁(yè)的內(nèi)容,并對(duì)內(nèi)容用正則表達(dá)式提取分析,得到我們想要的結(jié)果。這個(gè)在學(xué)習(xí)過(guò)程中我會(huì)和大家分享的。

3.Python 正則表達(dá)式

Python正則表達(dá)式是一種用來(lái)匹配字符串的強(qiáng)有力的武器。它的設(shè)計(jì)思想是用一種描述性的語(yǔ)言來(lái)給字符串定義一個(gè)規(guī)則,凡是符合規(guī)則的字符串,我們就認(rèn)為它“匹配”了,否則,該字符串就是不合法的。這個(gè)在后面的博文會(huì)分享的。

4.爬蟲框架Scrapy

如果你是一個(gè)Python高手,基本的爬蟲知識(shí)都已經(jīng)掌握了,那么就尋覓一下Python框架吧,我選擇的框架是Scrapy框架。這個(gè)框架有什么強(qiáng)大的功能呢?下面是它的官方介紹:

HTML, XML源數(shù)據(jù) 選擇及提取 的內(nèi)置支持
提供了一系列在spider之間共享的可復(fù)用的過(guò)濾器(即 Item Loaders),對(duì)智能處理爬取數(shù)據(jù)提供了內(nèi)置支持。
通過(guò) feed導(dǎo)出 提供了多格式(JSON、CSV、XML),多存儲(chǔ)后端(FTP、S3、本地文件系統(tǒng))的內(nèi)置支持
提供了media pipeline,可以 自動(dòng)下載 爬取到的數(shù)據(jù)中的圖片(或者其他資源)。
高擴(kuò)展性。您可以通過(guò)使用 signals ,設(shè)計(jì)好的API(中間件, extensions, pipelines)來(lái)定制實(shí)現(xiàn)您的功能。
內(nèi)置的中間件及擴(kuò)展為下列功能提供了支持:
cookies and session 處理
HTTP 壓縮
HTTP 認(rèn)證
HTTP 緩存
user-agent模擬
robots.txt
爬取深度限制
針對(duì)非英語(yǔ)語(yǔ)系中不標(biāo)準(zhǔn)或者錯(cuò)誤的編碼聲明, 提供了自動(dòng)檢測(cè)以及健壯的編碼支持。
支持根據(jù)模板生成爬蟲。在加速爬蟲創(chuàng)建的同時(shí),保持在大型項(xiàng)目中的代碼更為一致。詳細(xì)內(nèi)容請(qǐng)參閱 genspider 命令。
針對(duì)多爬蟲下性能評(píng)估、失敗檢測(cè),提供了可擴(kuò)展的 狀態(tài)收集工具 。
提供 交互式shell終端 , 為您測(cè)試XPath表達(dá)式,編寫和調(diào)試爬蟲提供了極大的方便
提供 System service, 簡(jiǎn)化在生產(chǎn)環(huán)境的部署及運(yùn)行
內(nèi)置 Web service, 使您可以監(jiān)視及控制您的機(jī)器
內(nèi)置 Telnet終端 ,通過(guò)在Scrapy進(jìn)程中鉤入Python終端,使您可以查看并且調(diào)試爬蟲
Logging 為您在爬取過(guò)程中捕捉錯(cuò)誤提供了方便
支持 Sitemaps 爬取
具有緩存的DNS解析器

官方文檔:http://doc.scrapy.org/en/latest/

等我們掌握了基礎(chǔ)的知識(shí),再用這個(gè) Scrapy 框架吧!

扯了這么多,好像沒(méi)多少有用的東西額,那就不扯啦!

知識(shí)點(diǎn)擴(kuò)展:

爬蟲基本原理

爬蟲是 模擬用戶在瀏覽器或者App應(yīng)用上的操作,把操作的過(guò)程、實(shí)現(xiàn)自動(dòng)化的程序

當(dāng)我們?cè)跒g覽器中輸入一個(gè)url后回車,后臺(tái)會(huì)發(fā)生什么?比如說(shuō)你輸入https://www.baidu.com

簡(jiǎn)單來(lái)說(shuō)這段過(guò)程發(fā)生了以下四個(gè)步驟:

  1. 查找域名對(duì)應(yīng)的IP地址。
  2. 瀏覽器首先訪問(wèn)的是DNS(Domain Name System,域名系統(tǒng)),dns的主要工作就是把域名轉(zhuǎn)換成相應(yīng)的IP地址向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。
  3. 服務(wù)器響應(yīng)請(qǐng)求,發(fā)回網(wǎng)頁(yè)內(nèi)容。
  4. 瀏覽器顯示網(wǎng)頁(yè)內(nèi)容。

網(wǎng)絡(luò)爬蟲要做的,簡(jiǎn)單來(lái)說(shuō),就是實(shí)現(xiàn)瀏覽器的功能。通過(guò)指定url,直接返回給用戶所需要的數(shù)據(jù), 而不需要一步步人工去操縱瀏覽器獲取。

到此這篇關(guān)于python爬蟲基礎(chǔ)知識(shí)點(diǎn)整理的文章就介紹到這了,更多相關(guān)Python2爬蟲入門內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 分割python多空格字符串的兩種方法小結(jié)

    分割python多空格字符串的兩種方法小結(jié)

    這篇文章主要介紹了分割python多空格字符串的兩種方法小結(jié),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • windows系統(tǒng)IIS部署Django項(xiàng)目的實(shí)踐

    windows系統(tǒng)IIS部署Django項(xiàng)目的實(shí)踐

    采用IIS服務(wù)器部署相比django提供的開發(fā)者服務(wù)器具有更好的并發(fā)訪問(wèn)能力,性能更加穩(wěn)定,本文主要介紹了windows系統(tǒng)IIS部署Django項(xiàng)目的實(shí)踐,具有一定的參考價(jià)值,感興趣的可以了解一下
    2022-03-03
  • Python提取網(wǎng)頁(yè)中超鏈接的方法

    Python提取網(wǎng)頁(yè)中超鏈接的方法

    很多人在一開始學(xué)習(xí)Python,會(huì)打算用作爬蟲開發(fā)。既然要做爬蟲,首先就要抓取網(wǎng)頁(yè),并且從網(wǎng)頁(yè)中提取出超鏈接地址。這篇文章給大家分享一個(gè)簡(jiǎn)單的方法,有需要的可以參考借鑒。
    2016-09-09
  • Python詳細(xì)講解圖像處理的而兩種庫(kù)OpenCV和Pillow

    Python詳細(xì)講解圖像處理的而兩種庫(kù)OpenCV和Pillow

    這篇文章介紹了Python使用OpenCV與Pillow分別進(jìn)行圖像處理的方法,文中通過(guò)示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2022-06-06
  • Python實(shí)現(xiàn)將n個(gè)點(diǎn)均勻地分布在球面上的方法

    Python實(shí)現(xiàn)將n個(gè)點(diǎn)均勻地分布在球面上的方法

    這篇文章主要介紹了Python實(shí)現(xiàn)將n個(gè)點(diǎn)均勻地分布在球面上的方法,涉及Python繪圖的技巧與相關(guān)數(shù)學(xué)函數(shù)的調(diào)用,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
    2015-03-03
  • 在Python中表示一個(gè)對(duì)象的方法

    在Python中表示一個(gè)對(duì)象的方法

    這篇文章主要介紹了在Python中表示一個(gè)對(duì)象的方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-06-06
  • pandas中的數(shù)據(jù)去重處理的實(shí)現(xiàn)方法

    pandas中的數(shù)據(jù)去重處理的實(shí)現(xiàn)方法

    這篇文章主要介紹了pandas中的數(shù)據(jù)去重處理的實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-02-02
  • 淺談python中的getattr函數(shù) hasattr函數(shù)

    淺談python中的getattr函數(shù) hasattr函數(shù)

    下面小編就為大家?guī)?lái)一篇淺談python中的getattr函數(shù) hasattr函數(shù)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2016-06-06
  • Python實(shí)現(xiàn)將橫表和縱表任意轉(zhuǎn)換的兩種方法

    Python實(shí)現(xiàn)將橫表和縱表任意轉(zhuǎn)換的兩種方法

    在日常做數(shù)據(jù)分析,接收到最多的表格是縱表,每個(gè)字段變量都有很長(zhǎng)數(shù)據(jù)的長(zhǎng)表,我們稱之為縱向數(shù)據(jù),但是,有時(shí)候,我們也會(huì)遇到橫表,對(duì)于橫向數(shù)據(jù),我們會(huì)數(shù)據(jù)轉(zhuǎn)化,將其轉(zhuǎn)化為縱向數(shù)據(jù),感興趣的同學(xué)跟著小編一起來(lái)學(xué)習(xí)吧
    2023-12-12
  • 基于opencv對(duì)高空拍攝視頻消抖處理方法

    基于opencv對(duì)高空拍攝視頻消抖處理方法

    這篇文章主要介紹了基于opencv對(duì)高空拍攝視頻消抖處理,首先對(duì)視頻進(jìn)行抽第一幀與最后一幀,為什么抽取兩幀?這樣做的主要目的是,我們?cè)谧鰩瑢?duì)齊時(shí),使用幀中靜態(tài)物的關(guān)鍵點(diǎn)做對(duì)齊,需要的朋友可以參考下
    2022-10-10

最新評(píng)論