欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲要用到的庫總結(jié)

 更新時間:2020年07月28日 14:45:30   作者:yang  
在本篇內(nèi)容中小編給大家整理的是關(guān)于python爬蟲要用到的庫總結(jié)內(nèi)容,需要的朋友們可以學(xué)習(xí)下。

python爬蟲要用到的庫:

請求庫:實現(xiàn) HTTP 請求操作

  • urllib:一系列用于操作URL的功能。
  • requests:基于 urllib 編寫的,阻塞式 HTTP 請求庫,發(fā)出一個請求,一直等待服務(wù)器響應(yīng)后,程序才能進(jìn)行下一步處理。
  • selenium:自動化測試工具。一個調(diào)用瀏覽器的 driver,通過這個庫你可以直接調(diào)用瀏覽器完成某些操作,比如輸入驗證碼。
  • aiohttp:基于 asyncio 實現(xiàn)的 HTTP 框架。異步操作借助于 async/await 關(guān)鍵字,使用異步庫進(jìn)行數(shù)據(jù)抓取,可以大大提高效率。
  • 解析庫:從網(wǎng)頁中提取信息
  • beautifulsoup:html 和 XML 的解析,從網(wǎng)頁中提取信息,同時擁有強(qiáng)大的API和多樣解析方式。
  • pyquery:jQuery 的 Python 實現(xiàn),能夠以 jQuery 的語法來操作解析 HTML 文檔,易用性和解析速度都很好。
  • lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
  • tesserocr:一個 OCR 庫,在遇到驗證碼(圖形驗證碼為主)的時候,可直接用 OCR 進(jìn)行識別。
  • 存儲庫:Python 與數(shù)據(jù)庫交互
  • pymysql:一個純 Python 實現(xiàn)的 MySQL 客戶端操作庫。
  • pymongo:一個用于直接連接 mongodb 數(shù)據(jù)庫進(jìn)行查詢操作的庫。
  • redisdump:一個用于 redis 數(shù)據(jù)導(dǎo)入/導(dǎo)出的工具?;?ruby 實現(xiàn)的,因此使用它,需要先安裝 Ruby。
  • 爬蟲框架
  • Scrapy:很強(qiáng)大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復(fù)雜一點(diǎn)的頁面,如 weibo 的頁面信息,這個框架就滿足不了需求了。
  • Crawley:高速爬取對應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)可以導(dǎo)出為 JSON、XML 等。
  • Portia:可視化爬取網(wǎng)頁內(nèi)容。
  • newspaper:提取新聞、文章以及內(nèi)容分析。
  • python-goose:java 寫的文章提取工具。
  • cola:一個分布式爬蟲框架。項目整體設(shè)計有點(diǎn)糟,模塊間耦合度較高。
  • Web框架庫
  • flask:輕量級的 web 服務(wù)程序,簡單,易用,靈活,主要來做一些 API 服務(wù)。做代理時可能會用到。
  • django:一個 web 服務(wù)器框架,提供了一個完整的后臺管理,引擎、接口等,使用它可做一個完整網(wǎng)站。

觀點(diǎn)擴(kuò)展:

學(xué)習(xí)爬蟲,最初的操作便是模擬瀏覽器向服務(wù)器發(fā)出請求,那么我們需要從哪個地方開始做起呢?請求需要我們自己來構(gòu)造嗎?需要關(guān)心請求這個數(shù)據(jù)結(jié)構(gòu)的實現(xiàn)嘛?需要了解HTTP、TCP、IP層的網(wǎng)絡(luò)傳輸通信嗎?需要直到服務(wù)器的響應(yīng)和應(yīng)答原理嗎?

可能你對這些根本不了解,也沒辦法下手。但是沒關(guān)系,python為我們提供了功能齊全的類庫來幫助我們完成這些請求。最基礎(chǔ)的HTTP庫有urllib、requests、treq等。

以urllib為例,有了它,我們只需要關(guān)心請求的連接是什么。需要傳的參數(shù)是什么,以及如何設(shè)置可選的請求頭就好了,不用深入到底層去了解它到底是怎樣傳輸和通信的。有了它,兩行代碼就可以完成一個請求和相應(yīng)的處理過程,得到網(wǎng)頁內(nèi)容,是不是感覺方便極了?

以上就是python爬蟲要用到的庫總結(jié)的詳細(xì)內(nèi)容,更多關(guān)于python爬蟲要用到哪些庫的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python break和continue用法對比

    python break和continue用法對比

    在本篇文章里小編給大家整理的是一篇關(guān)于python break和continue用法對比內(nèi)容,有需要的朋友們可以學(xué)習(xí)參考下。
    2021-06-06
  • python爬蟲獲取新浪新聞教學(xué)

    python爬蟲獲取新浪新聞教學(xué)

    在本篇內(nèi)容中小編給大家分享的是關(guān)于python爬蟲獲取新浪新聞的相關(guān)步驟和知識點(diǎn),需要的可以跟著學(xué)習(xí)下。
    2018-12-12
  • Python-apply(lambda x: )的使用及說明

    Python-apply(lambda x: )的使用及說明

    這篇文章主要介紹了Python-apply(lambda x: )的使用及說明,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • Python2.7+pytesser實現(xiàn)簡單驗證碼的識別方法

    Python2.7+pytesser實現(xiàn)簡單驗證碼的識別方法

    這篇文章主要介紹了Python2.7+pytesser實現(xiàn)簡單驗證碼的識別方法,簡單分析了pytesser的安裝及Python2.7環(huán)境下實現(xiàn)驗證碼識別的相關(guān)操作技巧,需要的朋友可以參考下
    2017-12-12
  • python+selenium實現(xiàn)自動化百度搜索關(guān)鍵詞

    python+selenium實現(xiàn)自動化百度搜索關(guān)鍵詞

    在本篇文章里我們給大家分享了一篇關(guān)于python+selenium實現(xiàn)自動化百度搜索關(guān)鍵詞的實例文章,需要的朋友們可以跟著操作下。
    2019-06-06
  • 通過示例學(xué)習(xí)python中os模塊的使用

    通過示例學(xué)習(xí)python中os模塊的使用

    os模塊是Python中處理文件和文件夾的重要模塊,其中了解模塊的一些基本功能對于使用Python對excel進(jìn)行數(shù)據(jù)分析具有很大的幫助,這篇文章主要介紹了python os模塊使用,感興趣的朋友跟隨小編一起看看吧
    2022-12-12
  • python操作mysql數(shù)據(jù)庫

    python操作mysql數(shù)據(jù)庫

    本篇文章主要介紹了python操作mysql數(shù)據(jù)庫的相關(guān)知識,具有很好的參考價值。下面跟著小編一起來看下吧
    2017-03-03
  • python通過openpyxl生成Excel文件的方法

    python通過openpyxl生成Excel文件的方法

    這篇文章主要介紹了python通過openpyxl生成Excel文件的方法,實例分析了openpyxl的安裝與使用技巧,非常具有實用價值,需要的朋友可以參考下
    2015-05-05
  • python3使用SMTP發(fā)送HTML格式郵件

    python3使用SMTP發(fā)送HTML格式郵件

    這篇文章主要為大家詳細(xì)介紹了python3使用SMTP發(fā)送HTML格式的郵件,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-06-06
  • Python中常用的內(nèi)置函數(shù)

    Python中常用的內(nèi)置函數(shù)

    這篇文章主要介紹了Python中常用的內(nèi)置函數(shù),主要介紹內(nèi)容有map()、filter()、all()、int()等更多相關(guān)函數(shù),需要的小伙伴可以參考一下
    2022-04-04

最新評論