python抓取多種類型的頁面方法實例

更新時間：2019年11月20日 15:18:48 投稿：laozhang

在本篇文章里小編給大家整理的是關(guān)于python抓取多種類型的頁面方法實例內(nèi)容，有需要的朋友們可以學(xué)習(xí)下。

與抓取預(yù)定義好的頁面集合不同，抓取一個網(wǎng)站的所有內(nèi)鏈會帶來一個挑戰(zhàn)，即你不知道會獲得什么。好在有幾種基本的方法可以識別頁面類型。

通過URL

一個網(wǎng)站中所有的博客文章可能都會包含一個 URL（例如 http://example.com/blog/title-of-post）。

通過網(wǎng)站中存在或者缺失的特定字段

如果一個頁面包含日期，但是不包含作者名字，那你可以將其歸類為新聞稿。如果它有標(biāo)題、主圖片、價格，但是沒有主要內(nèi)容，那么它可能是一個產(chǎn)品頁面。

通過頁面中出現(xiàn)的特定標(biāo)簽識別頁面

即使不抓取某個標(biāo)簽內(nèi)的數(shù)據(jù)，你仍然可以利用這個標(biāo)簽。你的爬蟲可以尋找類似于 <div id="related-products"> 這樣的元素來識別產(chǎn)品頁面，即便是爬蟲對相關(guān)產(chǎn)品的內(nèi)容并不感興趣。

為了跟蹤多個頁面類型，你需要在 Python 中有多個類型的頁面對象。這通過兩種方式來實現(xiàn)。

如果頁面都是相似的（它們基本上都是相同類型的內(nèi)容），你可能需要在現(xiàn)有的網(wǎng)頁對象中加入一個 pageType 屬性：

class Website:
"""所有文章/網(wǎng)頁的共同基類"""
def __init__(self, type, name, url, searchUrl, resultListing,
resultUrl, absoluteUrl, titleTag, bodyTag):
self.name = name
self.url = url
self.titleTag = titleTag
self.bodyTag = bodyTag
self.pageType = pageType

如果你在一個類 SQL 的數(shù)據(jù)庫中對這些頁面進(jìn)行排序，這種模式類型意味著這些頁面應(yīng)該被存放在同一張表中，并且加入一個額外的 pageType 列。

如果你抓取的頁面或內(nèi)容各不相同（它們包含不同類型的字段），就需要為每個頁面類型創(chuàng)建一個新的對象。當(dāng)然，有些東西是所有網(wǎng)頁共有的——它們都有一個 URL，也可能都有一個名稱或者頁面標(biāo)題。這種情況非常適合用子類：

class Website:
"""所有文章/網(wǎng)頁的共同基類"""

def __init__(self, name, url, titleTag):
self.name = name
self.url = url
self.titleTag = titleTag

這不是一個由你的爬蟲直接使用的對象，而是將被你的頁面類型引用的對象：

class Product(Website):
"""產(chǎn)品頁面要抓取的信息"""
def __init__(self, name, url, titleTag, productNumber, price):    
Website.__init__(self, name, url, TitleTag)
self.productNumberTag = productNumberTag
self.priceTag = priceTag
class Article(Website):
"""文章頁面要抓取的信息"""
def __init__(self, name, url, titleTag, bodyTag, dateTag):
Website.__init__(self, name, url, titleTag)
self.bodyTag = bodyTag
self.dateTag = dateTag

這個產(chǎn)品頁面擴展了Website基類，并且加入了僅適用于產(chǎn)品的productNumber和price屬性，而Article類加入了body和date屬性，這兩個屬性是不適用于產(chǎn)品的。

你可以用這兩個類去抓取一個商店網(wǎng)站，該網(wǎng)站除了產(chǎn)品，可能還包含博客文章或新聞稿。

希望以上知識點能夠幫助到大家，感謝大家對腳本之家的支持。

您可能感興趣的文章: