快捷導(dǎo)航

Scrapy的簡單使用教程

更新時間：2017年10月24日 08:47:14 作者：貝克田莊

Scrapy，Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。

在這篇入門教程中，我們假定你已經(jīng)安裝了python。如果你還沒有安裝，那么請參考安裝指南。

首先第一步：進(jìn)入開發(fā)環(huán)境，workon article_spider

進(jìn)入這個環(huán)境：

安裝Scrapy，在安裝的過程中出現(xiàn)了一些錯誤：通常這些錯誤都是部分文件沒有安裝導(dǎo)致的，因?yàn)榇髮W(xué)時經(jīng)常出現(xiàn)，所以對解決這種問題，很實(shí)在，直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/這個網(wǎng)站下載對應(yīng)的文件，下載后用pip安裝，具體過程不在贅述。

然后進(jìn)入工程目錄，并打開我們的新創(chuàng)建的虛擬環(huán)境：

新建scrapy工程：ArticleSpider

創(chuàng)建好工程框架：在pycharm中導(dǎo)入

scrapy.cfg: 項(xiàng)目的配置文件。
ArticleSpeder/: 該項(xiàng)目的python模塊。之后您將在此加入代碼。
ArticleSpeder/items.py: 項(xiàng)目中的item文件。
ArticleSpeder/pipelines.py: 項(xiàng)目中的pipelines文件。
ArticleSpeder/settings.py: 項(xiàng)目的設(shè)置文件。
ArticleSpeder/spiders/: 放置spider代碼的目錄。

回到dos窗口用basic創(chuàng)建模板

上面pycharm的截圖中已經(jīng)創(chuàng)建好了：

為了今后更好的開發(fā)，創(chuàng)建一個用于debug的類main.py

from scrapy.cmdline import execute
import sys
import os
print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])

這是代碼內(nèi)容

import sys 為了設(shè)置工程目錄，調(diào)用命令才會生效

里面的路徑最好不要寫死：可以通過os獲取路徑，更加靈活

execute用來執(zhí)行目標(biāo)程序的

jobbole.py的內(nèi)容

class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/110287']

def parse(self, response):
re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")
re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')
title = response.xpath('//div[@class="entry-header"]/h1/text()')
create_date = response.xpath("")
#//*[@id="112706votetotal"]
dian_zan = int(response.xpath("http://span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])
pass

通過xpath技術(shù)獲取對應(yīng)文章的一些字段信息，包括標(biāo)題，時間，評論數(shù)，點(diǎn)贊數(shù)等，因?yàn)楸容^簡單所以不在贅述

寫到這兒，大家也知道每次在pycharm里面debug和麻煩，因?yàn)閟crapy比較大，所以這時候我們可以使用Scrapy shell來調(diào)試