欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

 更新時間:2016年05月16日 18:53:56   作者:Kenneth Reitz  
用Pyhton自帶的urllib或urllib2模塊抓取網(wǎng)頁或許有些陳詞濫調了,今天我們就來玩兒些新鮮的,來看Python使用lxml模塊和Requests模塊抓取HTML頁面的教程:

Web抓取
Web站點使用HTML描述,這意味著每個web頁面是一個結構化的文檔。有時從中 獲取數(shù)據(jù)同時保持它的結構是有用的。web站點不總是以容易處理的格式, 如 csv 或者 json 提供它們的數(shù)據(jù)。

這正是web抓取出場的時機。Web抓取是使用計算機程序將web頁面數(shù)據(jù)進行收集 并整理成所需格式,同時保存其結構的實踐。

lxml和Requests
lxml(http://lxml.de/)是一個優(yōu)美的擴展庫,用來快速解析XML以及HTML文檔 即使所處理的標簽非?;靵y。我們也將使用 Requests (http://docs.python-requests.org/en/latest/#)模塊取代內(nèi)建的urllib2模塊,因為其速度更快而且可讀性更好。你可以通過使用 pip install lxml 與 pip install requests 命令來安裝這兩個模塊。

讓我們以下面的導入開始:

from lxml import html
import requests

下一步我們將使用 requests.get 來從web頁面中取得我們的數(shù)據(jù), 通過使用 html 模塊解析它,并將結果保存到 tree 中。

page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')
tree = html.fromstring(page.text)

tree 現(xiàn)在包含了整個HTML文件到一個優(yōu)雅的樹結構中,我們可以使用兩種 方法訪問:XPath以及CSS選擇器。在這個例子中,我們將選擇前者。

XPath是一種在結構化文檔(如HTML或XML)中定位信息的方式。一個關于XPath的 不錯的介紹參見 W3Schools 。

有很多工具可以獲取元素的XPath,如Firefox的FireBug或者Chrome的Inspector。 如果你使用Chrome,你可以右鍵元素,選擇 ‘Inspect element',高亮這段代碼, 再次右擊,并選擇 ‘Copy XPath'。

在進行一次快速分析后,我們看到在頁面中的數(shù)據(jù)保存在兩個元素中,一個是title是 ‘buyer-name' 的div,另一個class是 ‘item-price' 的span:

<div title="buyer-name">Carson Busses</div>
<span class="item-price">$29.95</span>

知道這個后,我們可以創(chuàng)建正確的XPath查詢并且使用lxml的 xpath 函數(shù), 像下面這樣:

#這將創(chuàng)建buyers的列表:
buyers = tree.xpath('//div[@title="buyer-name"]/text()')
#這將創(chuàng)建prices的列表:
prices = tree.xpath('//span[@class="item-price"]/text()')

讓我們看看我們得到了什么:

print 'Buyers: ', buyers
print 'Prices: ', prices
Buyers: ['Carson Busses', 'Earl E. Byrd', 'Patty Cakes',
'Derri Anne Connecticut', 'Moe Dess', 'Leda Doggslife', 'Dan Druff',
'Al Fresco', 'Ido Hoe', 'Howie Kisses', 'Len Lease', 'Phil Meup',
'Ira Pent', 'Ben D. Rules', 'Ave Sectomy', 'Gary Shattire',
'Bobbi Soks', 'Sheila Takya', 'Rose Tattoo', 'Moe Tell']

Prices: ['$29.95', '$8.37', '$15.26', '$19.25', '$19.25',
'$13.99', '$31.57', '$8.49', '$14.47', '$15.86', '$11.11',
'$15.98', '$16.27', '$7.50', '$50.85', '$14.26', '$5.68',
'$15.00', '$114.07', '$10.09']

恭喜!我們已經(jīng)成功地通過lxml與Request,從一個web頁面中抓取了所有我們想要的 數(shù)據(jù)。我們將它們以列表的形式存在內(nèi)存中。現(xiàn)在我們可以對它做各種很酷的事情了: 我們可以使用Python分析它,或者我們可以將之保存為一個文件并向世界分享。

我們可以考慮一些更酷的想法:修改這個腳本來遍歷該例數(shù)據(jù)集中剩余的頁面,或者 使用多線程重寫這個應用從而提升它的速度。

相關文章

  • 如何使用Django默認的Auth權限管理系統(tǒng)

    如何使用Django默認的Auth權限管理系統(tǒng)

    本文主要介紹了如何使用Django默認的Auth權限管理系統(tǒng),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2023-02-02
  • 基于Python實現(xiàn)股票數(shù)據(jù)分析的可視化

    基于Python實現(xiàn)股票數(shù)據(jù)分析的可視化

    在購買股票的時候,可以使用歷史數(shù)據(jù)來對當前的股票的走勢進行預測,這就需要對股票的數(shù)據(jù)進行獲取并且進行一定的分析。本文將介紹如何通過Python實現(xiàn)股票數(shù)據(jù)分析的可視化,需要的可以參考一下
    2021-12-12
  • 如何利用PyQt5美化你的GUI界面

    如何利用PyQt5美化你的GUI界面

    python的腳本開發(fā)簡單,有時候只需幾行代碼就能實現(xiàn)豐富的功能,而且python本身是跨平臺的,所以深受程序員的喜愛,下面這篇文章主要給大家介紹了關于如何利用PyQt5美化你的GUI界面的相關資料,需要的朋友可以參考下
    2022-01-01
  • 詳解Python結合Genetic?Algorithm算法破解網(wǎng)易易盾拼圖驗證

    詳解Python結合Genetic?Algorithm算法破解網(wǎng)易易盾拼圖驗證

    很多網(wǎng)站在登錄或者注冊時都會遇到拼圖驗證碼,這種拼圖驗證碼實際上是多個小碎片經(jīng)過重新組合成的一張整體。本文將和大家分享一個基于Python?Genetic?Algorithm的破解拼圖驗證碼的辦法,需要的可以參考一下
    2022-02-02
  • 基于python tornado實現(xiàn)圖床功能

    基于python tornado實現(xiàn)圖床功能

    因為買了阿里/騰訊的云服務器,但是使用云存儲還需要收費,又加上家里正好有一臺nas,又加上閑的沒事,所以搞了一個小腳本,這個項目主要功能是為typora增加一個自定義圖床,本文給大家介紹基于python tornado實現(xiàn)圖床功能,感興趣的朋友一起看看吧
    2023-08-08
  • 如何使用Python?繪制瀑布圖

    如何使用Python?繪制瀑布圖

    這篇文章主要介紹了如何使用Python?繪制瀑布圖,我們一起了解瀑布圖的重要性,以及如何使用不同的繪圖庫繪制瀑布圖。瀑布圖是一種二維圖表,專門用于了解隨著時間或多個步驟或變量的增量正負變化的影響,下文更多詳細內(nèi)容需要的小伙伴可以參考一下
    2022-05-05
  • python分析nignx訪問日志腳本分享

    python分析nignx訪問日志腳本分享

    這篇文章主要介紹了python分析nignx訪問日志腳本分享,本文直接給出實現(xiàn)代碼,需要的朋友可以參考下
    2015-02-02
  • Python DataFrame Rank詳解

    Python DataFrame Rank詳解

    在數(shù)據(jù)分析中,pandas庫的DataFrame對象的rank()方法可用于計算數(shù)據(jù)排名,處理重復值并支持多種參數(shù)定制排名規(guī)則,如ascending、axis、numeric_only等,是數(shù)據(jù)分析和競賽中的有力工具
    2024-09-09
  • Python模塊文件結構代碼詳解

    Python模塊文件結構代碼詳解

    這篇文章主要介紹了Python模塊文件結構代碼詳解,分享了相關代碼示例,小編覺得還是挺不錯的,具有一定借鑒價值,需要的朋友可以參考下
    2018-02-02
  • Python中空格的轉義字符方式

    Python中空格的轉義字符方式

    這篇文章主要介紹了Python中空格的轉義字符方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03

最新評論