# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem
 
 
class MeizituSpider(scrapy.Spider):
  name = "meizitu"
  allowed_domains = ["meizitu.com"]
  start_urls = (
    'http://www.meizitu.com/',
  )
 
  def parse(self, response):
    sel = Selector(response)
    for link in sel.xpath('//h2/a/@href').extract():
      request = scrapy.Request(link, callback=self.parse_item)
      yield request
 
    pages = sel.xpath("http://div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
    print('pages: %s' % pages)
    if len(pages) > 2:
      page_link = pages[-2]
      page_link = page_link.replace('/a/', '')  
      request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
      yield request
 
  def parse_item(self, response):
    l = ItemLoader(item=MeizituItem(), response=response)
    l.add_xpath('name', '//h2/a/text()')
    l.add_xpath('tags', "http://div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
    l.add_xpath('image_urls', "http://div[@id='picture']/p/img/@src", Identity())
 
    l.add_value('url', response.url)
    return l.load_item()

項目地址：https://github.com/ZhangBohan/fun_crawler

以上所述就是本文的全部內(nèi)容了，希望大家能夠喜歡。

您可能感興趣的文章:

相關(guān)文章

如何在python開發(fā)工具PyCharm中搭建QtPy環(huán)境(教程詳解)
這篇文章主要介紹了在python開發(fā)工具PyCharm中搭建QtPy環(huán)境,本文通過圖文并茂的形式給大家介紹的非常詳細，具有一定的參考借鑒價值，需要的朋友可以參考下
2020-02-02
python常見數(shù)制轉(zhuǎn)換實例分析
這篇文章主要介紹了python常見數(shù)制轉(zhuǎn)換,實例分析了二進制、八進制、十進制及十六進制之間的相互轉(zhuǎn)換技巧,需要的朋友可以參考下
2015-05-05
python檢查目錄文件權(quán)限并修改目錄文件權(quán)限的操作
這篇文章主要介紹了python檢查目錄文件權(quán)限并修改目錄文件權(quán)限的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
解決新django中的path不能使用正則表達式的問題
今天小編就為大家分享一篇解決新django中的path不能使用正則表達式的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
將pip源更換到國內(nèi)鏡像的詳細步驟
這篇文章主要介紹了將pip源更換到國內(nèi)鏡像的詳細步驟，小編覺得挺不錯的，現(xiàn)在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2019-04-04
Python單元測試的9個技巧技巧
這篇文章主要給大家分享的是Python單元測試常見的幾個技巧，文章會講解requests的一些細節(jié)實現(xiàn)以及pytest的使用等，感興趣的小伙伴不妨和小編一起閱讀下面文章的具體內(nèi)容吧
2021-09-09
用Python將動態(tài)GIF圖片倒放播放的方法
GIF（Graphics Interchange Format）是一種可以用來呈現(xiàn)動畫效果的圖片格式，原理就是保存很多幀（Frame）靜態(tài)圖像，然后連續(xù)呈現(xiàn)。這篇文章主要介紹了用Python將動態(tài)GIF圖片倒放播放的方法，需要的朋友可以參考下
2016-11-11
Python使用bs4獲取58同城城市分類的方法
這篇文章主要介紹了Python使用bs4獲取58同城城市分類的方法,涉及Python使用BeautifulSoup庫解析html頁面的技巧,需要的朋友可以參考下
2015-07-07
python基礎(chǔ)教程之獲取本機ip數(shù)據(jù)包示例
本文主要介紹了python獲取本機ip數(shù)據(jù)包的示例，大家參考使用吧
2014-02-02
解決tensorflow 與keras 混用之坑
這篇文章主要介紹了解決tensorflow 與keras 混用之坑，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2021-05-05