pycharm下打開(kāi)、執(zhí)行并調(diào)試scrapy爬蟲(chóng)程序的方法
首先得有一個(gè)Scrapy項(xiàng)目,我在Desktop上新建一個(gè)Scrapy的項(xiàng)目叫test,在Desktop目錄打開(kāi)命令行,鍵入命令:scrapy startproject test1
目錄結(jié)構(gòu)如下:
打開(kāi)Pycharm,選擇open
選擇項(xiàng)目,ok
打開(kāi)如下界面之后,按alt + 1, 打開(kāi)project 面板
在test1/spiders/,文件夾下,新建一個(gè)爬蟲(chóng)spider.py, 注意代碼中的name="dmoz"
。這個(gè)名字后面會(huì)用到。
在test1目錄和scrapy.cfg同級(jí)目錄下面,新建一個(gè)begin.py文件(便于理解可以寫(xiě)成main.py),注意箭頭2所指的名字和第5步中的name='dmoz'
名字是一樣的。
from scrapy import cmdline cmdline.execute("scrapy crawl dmoz".split())
7. 上面把文件搞定了,下面要配置一下pycharm了。點(diǎn)擊Run->Edit Configurations
8. 新建一個(gè)運(yùn)行的python模塊
9. Name:改成spider; script:選擇剛才新建的那個(gè)begin.py文件;Working Direciton:改成自己的工作目錄
10. 至此,大功告成了,點(diǎn)擊下圖,右上角的按鈕就能運(yùn)行了。
調(diào)試
可以在其他代碼中設(shè)置斷點(diǎn),就可以debug運(yùn)行
遇到問(wèn)題
1. Unknown command: crawl
調(diào)試運(yùn)行,斷點(diǎn)并未命中,控制臺(tái)輸出信息如下:
H:\Python\Python36\python.exe "H:\Program Files (x86)\JetBrains\PyCharm Community Edition 4.5.4\helpers\pydev\pydevd.py" --multiproc --client 127.0.0.1 --port 59810 --file H:/Python/Python36/Lib/site-packages/scrapy/cmdline.py crawl quotes -o quotes.jl pydev debugger: process 4740 is connecting Connected to pydev debugger (build 141.3058) Scrapy 1.3.2 - no active project Unknown command: crawl Use "scrapy" to see available commands Process finished with exit code 2
工作目錄設(shè)置有誤,造成無(wú)法識(shí)別 scrapy 命令,按照上文所說(shuō),將工作目錄設(shè)置為包含 scrapy.cfg,重新運(yùn)行,問(wèn)題解決。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
linux安裝python修改默認(rèn)python版本方法
在本文中我們給大家總結(jié)了關(guān)于linux安裝python修改默認(rèn)python版本的方法和相關(guān)知識(shí)點(diǎn),需要的讀者們參考下。2019-03-03對(duì)python中raw_input()和input()的用法詳解
下面小編就為大家分享一篇對(duì)python中raw_input()和input()的用法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04django 外鍵創(chuàng)建注意事項(xiàng)說(shuō)明
這篇文章主要介紹了django 外鍵創(chuàng)建注意事項(xiàng)說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05python發(fā)送郵件的實(shí)例代碼(支持html、圖片、附件)
python發(fā)送郵件的一些例子,有需要的朋友可以參考下2013-03-03使用python采集Excel表中某一格數(shù)據(jù)
這篇文章主要介紹了使用python采集Excel表中某一格數(shù)據(jù),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05詳解Python如何實(shí)現(xiàn)惰性導(dǎo)入-lazy import
如果你的 Python 程序程序有大量的 import,而且啟動(dòng)非常慢,那么你應(yīng)該嘗試懶導(dǎo)入,本文分享一種實(shí)現(xiàn)惰性導(dǎo)入的一種方法,需要的可以參考一下2022-10-10python requests 測(cè)試代理ip是否生效
這篇文章主要介紹了python requests 測(cè)試代理ip是否生效的相關(guān)資料,需要的朋友可以參考下2018-07-07Python將DataFrame的某一列作為index的方法
下面小編就為大家分享一篇Python將DataFrame的某一列作為index的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-04-04