Python使用scrapy抓取網(wǎng)站sitemap信息的方法
更新時間:2015年04月08日 09:46:40 作者:pythoner
這篇文章主要介紹了Python使用scrapy抓取網(wǎng)站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定參考借鑒價值,需要的朋友可以參考下
本文實例講述了Python使用scrapy抓取網(wǎng)站sitemap信息的方法。分享給大家供大家參考。具體如下:
import re from scrapy.spider import BaseSpider from scrapy import log from scrapy.utils.response import body_or_str from scrapy.http import Request from scrapy.selector import HtmlXPathSelector class SitemapSpider(BaseSpider): name = "SitemapSpider" start_urls = ["http://www.domain.com/sitemap.xml"] def parse(self, response): nodename = 'loc' text = body_or_str(response) r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL) for match in r.finditer(text): url = match.group(2) yield Request(url, callback=self.parse_page) def parse_page(self, response): hxs = HtmlXPathSelector(response) #Mock Item blah = Item() #Do all your page parsing and selecting the elemtents you want blash.divText = hxs.select('//div/text()').extract()[0] yield blah
希望本文所述對大家的Python程序設計有所幫助。
您可能感興趣的文章:
- python爬蟲框架scrapy實現(xiàn)模擬登錄操作示例
- 使用scrapy實現(xiàn)爬網(wǎng)站例子和實現(xiàn)網(wǎng)絡爬蟲(蜘蛛)的步驟
- Scrapy框架基本命令與settings.py設置
- Python Scrapy框架第一個入門程序示例
- python3 Scrapy爬蟲框架ip代理配置的方法
- Python利用Scrapy框架爬取豆瓣電影示例
- pycharm運行scrapy過程圖解
- 基于python框架Scrapy爬取自己的博客內(nèi)容過程詳解
- Python3環(huán)境安裝Scrapy爬蟲框架過程及常見錯誤
- 圖文詳解python安裝Scrapy框架步驟
- Scrapy框架實現(xiàn)的登錄網(wǎng)站操作示例
相關文章
PyInstaller將Python腳本打包為.exe可執(zhí)行文件的步驟詳解
Python是一門強大而靈活的編程語言,為了方便共享和部署,我們可以將 Python 腳本打包為可執(zhí)行文件(.exe),這樣其他用戶就無需安裝 Python環(huán)境,直接運行可執(zhí)行文件即可,本文將介紹如何使用PyInstaller 工具實現(xiàn)這一目標,需要的朋友可以參考下2023-12-12Python實現(xiàn)圖片裁剪的兩種方式(Pillow和OpenCV)
這篇文章主要介紹了Python實現(xiàn)圖片裁剪的兩種方式(Pillow和OpenCV),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-10-10Python實現(xiàn)網(wǎng)頁文件轉PDF文件和PNG圖片的示例代碼
這篇文章主要介紹了如何利用Python分別實現(xiàn)網(wǎng)頁文件轉為PDF文件和網(wǎng)頁文件轉PNG圖片的示例代碼,文中的代碼簡潔易懂,感興趣的可以動手試試2022-01-01pytorch1.0中torch.nn.Conv2d用法詳解
今天小編就為大家分享一篇pytorch1.0中torch.nn.Conv2d用法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01