Python使用Scrapy爬取妹子圖
Python Scrapy爬蟲(chóng),聽(tīng)說(shuō)妹子圖挺火,我整站爬取了,上周一共搞了大概8000多張圖片。和大家分享一下。
核心爬蟲(chóng)代碼
# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem
class MeizituSpider(scrapy.Spider):
name = "meizitu"
allowed_domains = ["meizitu.com"]
start_urls = (
'http://www.meizitu.com/',
)
def parse(self, response):
sel = Selector(response)
for link in sel.xpath('//h2/a/@href').extract():
request = scrapy.Request(link, callback=self.parse_item)
yield request
pages = sel.xpath("http://div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
print('pages: %s' % pages)
if len(pages) > 2:
page_link = pages[-2]
page_link = page_link.replace('/a/', '')
request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
yield request
def parse_item(self, response):
l = ItemLoader(item=MeizituItem(), response=response)
l.add_xpath('name', '//h2/a/text()')
l.add_xpath('tags', "http://div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
l.add_xpath('image_urls', "http://div[@id='picture']/p/img/@src", Identity())
l.add_value('url', response.url)
return l.load_item()
項(xiàng)目地址:https://github.com/ZhangBohan/fun_crawler
以上所述就是本文的全部?jī)?nèi)容了,希望大家能夠喜歡。
- Python爬蟲(chóng) scrapy框架爬取某招聘網(wǎng)存入mongodb解析
- Scrapy框架爬取Boss直聘網(wǎng)Python職位信息的源碼
- Python3爬蟲(chóng)爬取英雄聯(lián)盟高清桌面壁紙功能示例【基于Scrapy框架】
- Python下使用Scrapy爬取網(wǎng)頁(yè)內(nèi)容的實(shí)例
- Python使用Scrapy爬蟲(chóng)框架全站爬取圖片并保存本地的實(shí)現(xiàn)代碼
- python爬蟲(chóng)框架scrapy實(shí)戰(zhàn)之爬取京東商城進(jìn)階篇
- 使用Python的Scrapy框架十分鐘爬取美女圖
- Python scrapy爬取小說(shuō)代碼案例詳解
相關(guān)文章
如何在python開(kāi)發(fā)工具PyCharm中搭建QtPy環(huán)境(教程詳解)
這篇文章主要介紹了在python開(kāi)發(fā)工具PyCharm中搭建QtPy環(huán)境,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-02-02
python常見(jiàn)數(shù)制轉(zhuǎn)換實(shí)例分析
這篇文章主要介紹了python常見(jiàn)數(shù)制轉(zhuǎn)換,實(shí)例分析了二進(jìn)制、八進(jìn)制、十進(jìn)制及十六進(jìn)制之間的相互轉(zhuǎn)換技巧,需要的朋友可以參考下2015-05-05
python檢查目錄文件權(quán)限并修改目錄文件權(quán)限的操作
這篇文章主要介紹了python檢查目錄文件權(quán)限并修改目錄文件權(quán)限的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03
解決新django中的path不能使用正則表達(dá)式的問(wèn)題
今天小編就為大家分享一篇解決新django中的path不能使用正則表達(dá)式的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
將pip源更換到國(guó)內(nèi)鏡像的詳細(xì)步驟
這篇文章主要介紹了將pip源更換到國(guó)內(nèi)鏡像的詳細(xì)步驟,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-04-04
用Python將動(dòng)態(tài)GIF圖片倒放播放的方法
GIF(Graphics Interchange Format) 是一種可以用來(lái)呈現(xiàn)動(dòng)畫(huà)效果的圖片格式,原理就是保存很多幀(Frame)靜態(tài)圖像,然后連續(xù)呈現(xiàn)。這篇文章主要介紹了用Python將動(dòng)態(tài)GIF圖片倒放播放的方法,需要的朋友可以參考下2016-11-11
python基礎(chǔ)教程之獲取本機(jī)ip數(shù)據(jù)包示例
本文主要介紹了python獲取本機(jī)ip數(shù)據(jù)包的示例,大家參考使用吧2014-02-02

