python爬蟲要用到的庫總結(jié)

更新時間：2020年07月28日 14:45:30 作者：yang

在本篇內(nèi)容中小編給大家整理的是關(guān)于python爬蟲要用到的庫總結(jié)內(nèi)容，需要的朋友們可以學(xué)習(xí)下。

python爬蟲要用到的庫：

請求庫：實現(xiàn) HTTP 請求操作

urllib：一系列用于操作URL的功能。
requests：基于 urllib 編寫的，阻塞式 HTTP 請求庫，發(fā)出一個請求，一直等待服務(wù)器響應(yīng)后，程序才能進(jìn)行下一步處理。
selenium：自動化測試工具。一個調(diào)用瀏覽器的 driver，通過這個庫你可以直接調(diào)用瀏覽器完成某些操作，比如輸入驗證碼。
aiohttp：基于 asyncio 實現(xiàn)的 HTTP 框架。異步操作借助于 async/await 關(guān)鍵字，使用異步庫進(jìn)行數(shù)據(jù)抓取，可以大大提高效率。
解析庫：從網(wǎng)頁中提取信息
beautifulsoup：html 和 XML 的解析,從網(wǎng)頁中提取信息，同時擁有強大的API和多樣解析方式。
pyquery：jQuery 的 Python 實現(xiàn)，能夠以 jQuery 的語法來操作解析 HTML 文檔，易用性和解析速度都很好。
lxml：支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。
tesserocr：一個 OCR 庫，在遇到驗證碼（圖形驗證碼為主）的時候，可直接用 OCR 進(jìn)行識別。
存儲庫：Python 與數(shù)據(jù)庫交互
pymysql：一個純 Python 實現(xiàn)的 MySQL 客戶端操作庫。
pymongo：一個用于直接連接 mongodb 數(shù)據(jù)庫進(jìn)行查詢操作的庫。
redisdump：一個用于 redis 數(shù)據(jù)導(dǎo)入/導(dǎo)出的工具?；?ruby 實現(xiàn)的，因此使用它，需要先安裝 Ruby。
爬蟲框架
Scrapy：很強大的爬蟲框架，可以滿足簡單的頁面爬?。ū热缈梢悦鞔_獲知url pattern的情況）。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復(fù)雜一點的頁面，如 weibo 的頁面信息，這個框架就滿足不了需求了。
Crawley：高速爬取對應(yīng)網(wǎng)站的內(nèi)容，支持關(guān)系和非關(guān)系數(shù)據(jù)庫，數(shù)據(jù)可以導(dǎo)出為 JSON、XML 等。
Portia：可視化爬取網(wǎng)頁內(nèi)容。
newspaper：提取新聞、文章以及內(nèi)容分析。
python-goose：java 寫的文章提取工具。
cola：一個分布式爬蟲框架。項目整體設(shè)計有點糟，模塊間耦合度較高。
Web框架庫
flask：輕量級的 web 服務(wù)程序，簡單，易用，靈活，主要來做一些 API 服務(wù)。做代理時可能會用到。
django：一個 web 服務(wù)器框架，提供了一個完整的后臺管理，引擎、接口等，使用它可做一個完整網(wǎng)站。

觀點擴展：

學(xué)習(xí)爬蟲，最初的操作便是模擬瀏覽器向服務(wù)器發(fā)出請求，那么我們需要從哪個地方開始做起呢？請求需要我們自己來構(gòu)造嗎？需要關(guān)心請求這個數(shù)據(jù)結(jié)構(gòu)的實現(xiàn)嘛？需要了解HTTP、TCP、IP層的網(wǎng)絡(luò)傳輸通信嗎？需要直到服務(wù)器的響應(yīng)和應(yīng)答原理嗎？

可能你對這些根本不了解，也沒辦法下手。但是沒關(guān)系，python為我們提供了功能齊全的類庫來幫助我們完成這些請求。最基礎(chǔ)的HTTP庫有urllib、requests、treq等。

以urllib為例，有了它，我們只需要關(guān)心請求的連接是什么。需要傳的參數(shù)是什么，以及如何設(shè)置可選的請求頭就好了，不用深入到底層去了解它到底是怎樣傳輸和通信的。有了它，兩行代碼就可以完成一個請求和相應(yīng)的處理過程，得到網(wǎng)頁內(nèi)容，是不是感覺方便極了？

以上就是python爬蟲要用到的庫總結(jié)的詳細(xì)內(nèi)容，更多關(guān)于python爬蟲要用到哪些庫的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: