欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python抓取多種類型的頁面方法實(shí)例

 更新時(shí)間:2019年11月20日 15:18:48   投稿:laozhang  
在本篇文章里小編給大家整理的是關(guān)于python抓取多種類型的頁面方法實(shí)例內(nèi)容,有需要的朋友們可以學(xué)習(xí)下。

與抓取預(yù)定義好的頁面集合不同,抓取一個(gè)網(wǎng)站的所有內(nèi)鏈會(huì)帶來一個(gè) 挑戰(zhàn),即你不知道會(huì)獲得什么。好在有幾種基本的方法可以識(shí)別頁面類型。

通過URL

一個(gè)網(wǎng)站中所有的博客文章可能都會(huì)包含一個(gè) URL(例如 http://example.com/blog/title-of-post)。

通過網(wǎng)站中存在或者缺失的特定字段

如果一個(gè)頁面包含日期,但是不包含作者名字,那你可以將其歸類 為新聞稿。如果它有標(biāo)題、主圖片、價(jià)格,但是沒有主要內(nèi)容,那么它 可能是一個(gè)產(chǎn)品頁面。

通過頁面中出現(xiàn)的特定標(biāo)簽識(shí)別頁面

即使不抓取某個(gè)標(biāo)簽內(nèi)的數(shù)據(jù),你仍然可以利用這個(gè)標(biāo)簽。你的爬 蟲可以尋找類似于 <div id="related-products"> 這樣的元素來識(shí) 別產(chǎn)品頁面,即便是爬蟲對(duì)相關(guān)產(chǎn)品的內(nèi)容并不感興趣。

為了跟蹤多個(gè)頁面類型,你需要在 Python 中有多個(gè)類型的頁面對(duì)象。 這通過兩種方式來實(shí)現(xiàn)。

如果頁面都是相似的(它們基本上都是相同類型的內(nèi)容),你可能需要 在現(xiàn)有的網(wǎng)頁對(duì)象中加入一個(gè) pageType 屬性:

class Website:
"""所有文章/網(wǎng)頁的共同基類"""
def __init__(self, type, name, url, searchUrl, resultListing,
resultUrl, absoluteUrl, titleTag, bodyTag):
self.name = name
self.url = url
self.titleTag = titleTag
self.bodyTag = bodyTag
self.pageType = pageType

如果你在一個(gè)類 SQL 的數(shù)據(jù)庫中對(duì)這些頁面進(jìn)行排序,這種模式類型 意味著這些頁面應(yīng)該被存放在同一張表中,并且加入一個(gè)額外的 pageType 列。

如果你抓取的頁面或內(nèi)容各不相同(它們包含不同類型的字段),就需 要為每個(gè)頁面類型創(chuàng)建一個(gè)新的對(duì)象。當(dāng)然,有些東西是所有網(wǎng)頁共有 的——它們都有一個(gè) URL,也可能都有一個(gè)名稱或者頁面標(biāo)題。這種 情況非常適合用子類:

class Website:
"""所有文章/網(wǎng)頁的共同基類"""

def __init__(self, name, url, titleTag):
self.name = name
self.url = url
self.titleTag = titleTag

這不是一個(gè)由你的爬蟲直接使用的對(duì)象,而是將被你的頁面類型引用的 對(duì)象:

class Product(Website):
"""產(chǎn)品頁面要抓取的信息"""
def __init__(self, name, url, titleTag, productNumber, price):    
Website.__init__(self, name, url, TitleTag)
self.productNumberTag = productNumberTag
self.priceTag = priceTag
class Article(Website):
"""文章頁面要抓取的信息"""
def __init__(self, name, url, titleTag, bodyTag, dateTag):
Website.__init__(self, name, url, titleTag)
self.bodyTag = bodyTag
self.dateTag = dateTag

這個(gè)產(chǎn)品頁面擴(kuò)展了Website基類,并且加入了僅適用于產(chǎn)品的productNumber和price屬性,而Article類加入了body和date屬性,這兩個(gè)屬性是不適用于產(chǎn)品的。

你可以用這兩個(gè)類去抓取一個(gè)商店網(wǎng)站,該網(wǎng)站除了產(chǎn)品,可能還包含博客文章或新聞稿。

希望以上知識(shí)點(diǎn)能夠幫助到大家,感謝大家對(duì)腳本之家的支持。

相關(guān)文章

最新評(píng)論