python抓取多種類型的頁面方法實(shí)例
與抓取預(yù)定義好的頁面集合不同,抓取一個(gè)網(wǎng)站的所有內(nèi)鏈會(huì)帶來一個(gè) 挑戰(zhàn),即你不知道會(huì)獲得什么。好在有幾種基本的方法可以識(shí)別頁面類型。
通過URL
一個(gè)網(wǎng)站中所有的博客文章可能都會(huì)包含一個(gè) URL(例如 http://example.com/blog/title-of-post)。
通過網(wǎng)站中存在或者缺失的特定字段
如果一個(gè)頁面包含日期,但是不包含作者名字,那你可以將其歸類 為新聞稿。如果它有標(biāo)題、主圖片、價(jià)格,但是沒有主要內(nèi)容,那么它 可能是一個(gè)產(chǎn)品頁面。
通過頁面中出現(xiàn)的特定標(biāo)簽識(shí)別頁面
即使不抓取某個(gè)標(biāo)簽內(nèi)的數(shù)據(jù),你仍然可以利用這個(gè)標(biāo)簽。你的爬 蟲可以尋找類似于 <div id="related-products"> 這樣的元素來識(shí) 別產(chǎn)品頁面,即便是爬蟲對(duì)相關(guān)產(chǎn)品的內(nèi)容并不感興趣。
為了跟蹤多個(gè)頁面類型,你需要在 Python 中有多個(gè)類型的頁面對(duì)象。 這通過兩種方式來實(shí)現(xiàn)。
如果頁面都是相似的(它們基本上都是相同類型的內(nèi)容),你可能需要 在現(xiàn)有的網(wǎng)頁對(duì)象中加入一個(gè) pageType 屬性:
class Website: """所有文章/網(wǎng)頁的共同基類""" def __init__(self, type, name, url, searchUrl, resultListing, resultUrl, absoluteUrl, titleTag, bodyTag): self.name = name self.url = url self.titleTag = titleTag self.bodyTag = bodyTag self.pageType = pageType
如果你在一個(gè)類 SQL 的數(shù)據(jù)庫中對(duì)這些頁面進(jìn)行排序,這種模式類型 意味著這些頁面應(yīng)該被存放在同一張表中,并且加入一個(gè)額外的 pageType 列。
如果你抓取的頁面或內(nèi)容各不相同(它們包含不同類型的字段),就需 要為每個(gè)頁面類型創(chuàng)建一個(gè)新的對(duì)象。當(dāng)然,有些東西是所有網(wǎng)頁共有 的——它們都有一個(gè) URL,也可能都有一個(gè)名稱或者頁面標(biāo)題。這種 情況非常適合用子類:
class Website: """所有文章/網(wǎng)頁的共同基類""" def __init__(self, name, url, titleTag): self.name = name self.url = url self.titleTag = titleTag
這不是一個(gè)由你的爬蟲直接使用的對(duì)象,而是將被你的頁面類型引用的 對(duì)象:
class Product(Website): """產(chǎn)品頁面要抓取的信息""" def __init__(self, name, url, titleTag, productNumber, price): Website.__init__(self, name, url, TitleTag) self.productNumberTag = productNumberTag self.priceTag = priceTag class Article(Website): """文章頁面要抓取的信息""" def __init__(self, name, url, titleTag, bodyTag, dateTag): Website.__init__(self, name, url, titleTag) self.bodyTag = bodyTag self.dateTag = dateTag
這個(gè)產(chǎn)品頁面擴(kuò)展了Website基類,并且加入了僅適用于產(chǎn)品的productNumber和price屬性,而Article類加入了body和date屬性,這兩個(gè)屬性是不適用于產(chǎn)品的。
你可以用這兩個(gè)類去抓取一個(gè)商店網(wǎng)站,該網(wǎng)站除了產(chǎn)品,可能還包含博客文章或新聞稿。
希望以上知識(shí)點(diǎn)能夠幫助到大家,感謝大家對(duì)腳本之家的支持。
相關(guān)文章
利用python實(shí)現(xiàn)詞頻統(tǒng)計(jì)分析的代碼示例
詞頻統(tǒng)計(jì)是指在文本或語音數(shù)據(jù)中,統(tǒng)計(jì)每個(gè)單詞或符號(hào)出現(xiàn)的次數(shù),以便對(duì)文本或語音數(shù)據(jù)進(jìn),這篇文章將詳細(xì)介紹分詞后如何進(jìn)行詞頻統(tǒng)計(jì)分析2023-06-06在Lighttpd服務(wù)器中運(yùn)行Django應(yīng)用的方法
這篇文章主要介紹了在Lighttpd服務(wù)器中運(yùn)行Django應(yīng)用的方法,本文所采用的是最流行的FastCGI模塊,包括同時(shí)運(yùn)行多個(gè)Django應(yīng)用的方法,需要的朋友可以參考下2015-07-07Python 實(shí)現(xiàn)RSA加解密文本文件
這篇文章主要介紹了Python 實(shí)現(xiàn)RSA加解密文本文件的方法,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-12-12Python中如何優(yōu)雅的合并兩個(gè)字典(dict)方法示例
字典是Python語言中唯一的映射類型,在我們?nèi)粘9ぷ髦薪?jīng)常會(huì)遇到,下面這篇文章主要給大家介紹了關(guān)于Python中如何優(yōu)雅的合并兩個(gè)字典(dict)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面來一起看看吧。2017-08-08Gradio機(jī)器學(xué)習(xí)模型快速部署工具接口狀態(tài)
這篇文章主要為大家介紹了Gradio機(jī)器學(xué)習(xí)模型快速部署工具接口狀態(tài)的原文翻譯,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04使用Python的Twisted框架編寫簡單的網(wǎng)絡(luò)客戶端
這篇文章主要介紹了使用Python的Twisted框架編寫簡單的網(wǎng)絡(luò)客戶端,翻譯自Twisted文檔,包括一個(gè)簡單的IRC客戶端的實(shí)現(xiàn),需要的朋友可以參考下2015-04-04