Python爬蟲基礎(chǔ)之初次使用scrapy爬蟲實例
項目需求
在專門供爬蟲初學者訓練爬蟲技術(shù)的網(wǎng)站(http://quotes.toscrape.com)上爬取名言警句。
創(chuàng)建項目
在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。進入您打算存儲代碼的目錄中,運行下列命令:
(base) λ scrapy startproject quotes New scrapy project 'quotes ', using template directory 'd: \anaconda3\lib\site-packages\scrapy\temp1ates\project ', created in: D:\XXX You can start your first spider with : cd quotes scrapy genspider example example. com
首先切換到新建的爬蟲項目目錄下,也就是/quotes目錄下。然后執(zhí)行創(chuàng)建爬蟲文件的命令:
D:\XXX(master) (base) λ cd quotes\ D:\XXX\quotes (master) (base) λ scrapy genspider quotes quotes.com cannot create a spider with the same name as your project D :\XXX\quotes (master) (base) λ scrapy genspider quote quotes.com created spider 'quote' using template 'basic' in module:quotes.spiders.quote
該命令將會創(chuàng)建包含下列內(nèi)容的quotes目錄:
robots.txt
robots協(xié)議也叫robots.txt(統(tǒng)一小寫)是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)蜘蛛,此網(wǎng)站中的哪些內(nèi)容是不應被搜索引擎的爬蟲獲取的,哪些是可以被爬蟲獲取的。
robots協(xié)議并不是一個規(guī)范,而只是約定俗成的。
#filename : settings.py #obey robots.txt rules ROBOTSTXT__OBEY = False
分析頁面
編寫爬蟲程序之前,首先需要對待爬取的頁面進行分析,主流的瀏覽器中都帶有分析頁面的工具或插件,這里我們選用Chrome瀏覽器的開發(fā)者工具(Tools→Developer tools)分析頁面。
數(shù)據(jù)信息
相關(guān)文章
淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù)
這篇文章主要介紹了淺談Python函數(shù)式編程的返回函數(shù)與匿名函數(shù),如果一個變量指向了一個函數(shù),那么,可以通過該變量來調(diào)用這個函數(shù),需要的朋友可以參考下2023-04-04python獲取linux和windows系統(tǒng)指定接口的IP地址的步驟及代碼
這篇文章主要介紹了python獲取linux和windows系統(tǒng)指定接口的IP地址,本文分步驟通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-05-05Pytorch上下采樣函數(shù)--interpolate用法
這篇文章主要介紹了Pytorch上下采樣函數(shù)--interpolate用法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-07-07