欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Scrapy的簡單使用教程

 更新時間:2017年10月24日 08:47:14   作者:貝克田莊  
Scrapy,Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。

在這篇入門教程中,我們假定你已經(jīng)安裝了python。如果你還沒有安裝,那么請參考安裝指南。

首先第一步:進入開發(fā)環(huán)境,workon article_spider

進入這個環(huán)境:

安裝Scrapy,在安裝的過程中出現(xiàn)了一些錯誤:通常這些錯誤都是部分文件沒有安裝導致的,因為大學時經(jīng)常出現(xiàn),所以對解決這種問題,很實在,直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/這個網(wǎng)站下載對應的文件,下載后用pip安裝,具體過程不在贅述。

然后進入工程目錄,并打開我們的新創(chuàng)建的虛擬環(huán)境:

新建scrapy工程:ArticleSpider

創(chuàng)建好工程框架:在pycharm中導入

 

scrapy.cfg: 項目的配置文件。
ArticleSpeder/: 該項目的python模塊。之后您將在此加入代碼。
ArticleSpeder/items.py: 項目中的item文件。
ArticleSpeder/pipelines.py: 項目中的pipelines文件。
ArticleSpeder/settings.py: 項目的設置文件。
ArticleSpeder/spiders/: 放置spider代碼的目錄。

回到dos窗口用basic創(chuàng)建模板

上面pycharm的截圖中已經(jīng)創(chuàng)建好了:

為了今后更好的開發(fā),創(chuàng)建一個用于debug的類main.py

from scrapy.cmdline import execute
import sys
import os
print(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbole"])

 這是代碼內(nèi)容

import sys 為了設置工程目錄,調(diào)用命令才會生效

里面的路徑最好不要寫死:可以通過os獲取路徑,更加靈活

execute用來執(zhí)行目標程序的

jobbole.py的內(nèi)容

class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/110287']

def parse(self, response):
re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")
re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')
title = response.xpath('//div[@class="entry-header"]/h1/text()')
create_date = response.xpath("")
#//*[@id="112706votetotal"]
dian_zan = int(response.xpath("http://span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])
pass

 通過xpath技術獲取對應文章的一些字段信息,包括標題,時間,評論數(shù),點贊數(shù)等,因為比較簡單所以不在贅述

寫到這兒,大家也知道每次在pycharm里面debug和麻煩,因為scrapy比較大,所以這時候我們可以使用Scrapy shell來調(diào)試

標記部分是目標網(wǎng)站的地址:現(xiàn)在我們可以更加愉悅的進行調(diào)試了。

今天scrapy的初體驗就到這里了

相關文章

  • 使用Python和XPath解析動態(tài)JSON數(shù)據(jù)的操作指南

    使用Python和XPath解析動態(tài)JSON數(shù)據(jù)的操作指南

    JSON動態(tài)數(shù)據(jù)在Python中扮演著重要的角色,為開發(fā)者提供了處理實時和靈活數(shù)據(jù)的能力,動態(tài)JSON數(shù)據(jù)的獲取可能涉及到網(wǎng)絡請求和API調(diào)用,可以使用Python和XPath來解析動態(tài)JSON數(shù)據(jù),接下來小編就給大家介紹一下操作步驟
    2023-09-09
  • Python實現(xiàn)html轉(zhuǎn)換為pdf報告(生成pdf報告)功能示例

    Python實現(xiàn)html轉(zhuǎn)換為pdf報告(生成pdf報告)功能示例

    這篇文章主要介紹了Python實現(xiàn)html轉(zhuǎn)換為pdf報告功能,結(jié)合實例形式分析了Python使用pdfkit實現(xiàn)HTML轉(zhuǎn)換為PDF的相關操作技巧與注意事項,需要的朋友可以參考下
    2019-05-05
  • Python實現(xiàn)錄屏功能的示例代碼

    Python實現(xiàn)錄屏功能的示例代碼

    這篇文章主要為大家詳細介紹了如何利用Python實現(xiàn)錄屏功能,文中的示例代碼講解詳細,對我們掌握Python開發(fā)有一定的幫助,需要的可以參考一下
    2023-03-03
  • python 模擬貸款卡號生成規(guī)則過程解析

    python 模擬貸款卡號生成規(guī)則過程解析

    這篇文章主要介紹了python 模擬貸款卡號生成規(guī)則過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • python使用pip安裝SciPy、SymPy、matplotlib教程

    python使用pip安裝SciPy、SymPy、matplotlib教程

    今天小編大家分享一篇python使用pip安裝SciPy、SymPy、matplotlib教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • 優(yōu)化Python代碼使其加快作用域內(nèi)的查找

    優(yōu)化Python代碼使其加快作用域內(nèi)的查找

    這篇文章主要介紹了優(yōu)化Python代碼使其加快作用域內(nèi)的搜索,文中介紹了CPython相關的C代碼來對查找功能進行優(yōu)化,加快搜索的速度,需要的朋友可以參考下
    2015-03-03
  • python多線程與多進程及其區(qū)別詳解

    python多線程與多進程及其區(qū)別詳解

    這篇文章主要介紹了python多線程與多進程及其區(qū)別詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-08-08
  • Python實現(xiàn) 版本號對比功能的實例代碼

    Python實現(xiàn) 版本號對比功能的實例代碼

    這篇文章主要介紹了 Python實現(xiàn) 版本號對比功能的實例代碼,文末給大家補充介紹了python 比較兩個版本號大小 ,需要的朋友可以參考下
    2019-04-04
  • python3下載抖音視頻的完整代碼

    python3下載抖音視頻的完整代碼

    本文通過實例代碼給大家介紹了python3下載抖音視頻的相關知識,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-06-06
  • python寫入Excel表格的方法詳解

    python寫入Excel表格的方法詳解

    這篇文章主要為大家詳細介紹了python寫入Excel表格的方法,使用jupyter?notebook,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-02-02

最新評論