python爬蟲用scrapy獲取影片的實(shí)例分析
我們平時(shí)生活的娛樂中,看電影是大部分小伙伴都喜歡的事情。周圍的人總會(huì)有意無意的在談?wù)?,有什么影片上映,好不好看之類的話題,沒事的時(shí)候談?wù)撾娪笆欠浅2诲e(cuò)的話題。那么,一些好看的影片如果不去電影院的話,在其他地方看都會(huì)有大大小小的限制,今天小編就教大家用python中的scrapy獲取影片的辦法吧。
1. 創(chuàng)建項(xiàng)目
運(yùn)行命令:
scrapy startproject myfrist(your_project_name)
文件說明: 名稱 | 作用 --|-- scrapy.cfg | 項(xiàng)目的配置信息,主要為Scrapy命令行工具提供一個(gè)基礎(chǔ)的配置信息。(真正爬蟲相關(guān)的配置信息在settings.py文件中) items.py | 設(shè)置數(shù)據(jù)存儲(chǔ)模板,用于結(jié)構(gòu)化數(shù)據(jù),如:Django的Model pipelines | 數(shù)據(jù)處理行為,如:一般結(jié)構(gòu)化的數(shù)據(jù)持久化 settings.py | 配置文件,如:遞歸的層數(shù)、并發(fā)數(shù),延遲下載等 spiders | 爬蟲目錄,如:創(chuàng)建文件,編寫爬蟲規(guī)則
注意:一般創(chuàng)建爬蟲文件時(shí),以網(wǎng)站域名命名
2 編寫 spdier
在spiders目錄中新建 daidu_spider.py 文件
2.1 注意
爬蟲文件需要定義一個(gè)類,并繼承scrapy.spiders.Spider
必須定義name,即爬蟲名,如果沒有name,會(huì)報(bào)錯(cuò)。因?yàn)樵创a中是這樣定義的
2.2 編寫內(nèi)容
在這里可以告訴 scrapy 。要如何查找確切數(shù)據(jù),這里必須要定義一些屬性
name: 它定義了蜘蛛的唯一名稱
allowed_domains: 它包含了蜘蛛抓取的基本URL;
start-urls: 蜘蛛開始爬行的URL列表;
parse(): 這是提取并解析刮下數(shù)據(jù)的方法;
下面的代碼演示了蜘蛛代碼的樣子:
import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com/top250/' ] def parse(self, response): movie_name = response.xpath("http://div[@class='item']//a/span[1]/text()").extract() movie_core = response.xpath("http://div[@class='star']/span[2]/text()").extract() yield { 'movie_name':movie_name, 'movie_core':movie_core }
到此這篇關(guān)于python爬蟲用scrapy獲取影片的實(shí)例分析的文章就介紹到這了,更多相關(guān)python爬蟲如何用scrapy獲取影片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python爬蟲scrapy框架之增量式爬蟲的示例代碼
- 一文讀懂python Scrapy爬蟲框架
- python爬蟲scrapy基本使用超詳細(xì)教程
- python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析
- python爬蟲scrapy框架的梨視頻案例解析
- 詳解Python之Scrapy爬蟲教程N(yùn)BA球員數(shù)據(jù)存放到Mysql數(shù)據(jù)庫(kù)
- Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用
- python pyppeteer 破解京東滑塊功能的代碼
- Python實(shí)現(xiàn)京東搶秒殺功能
- Python之京東商品秒殺的實(shí)現(xiàn)示例
- 基于Python爬取京東雙十一商品價(jià)格曲線
- 賺瘋了!轉(zhuǎn)手立賺800+?大佬的python「搶茅臺(tái)腳本」使用教程
- python基于scrapy爬取京東筆記本電腦數(shù)據(jù)并進(jìn)行簡(jiǎn)單處理和分析
相關(guān)文章
用60行代碼實(shí)現(xiàn)Python自動(dòng)搶微信紅包
這篇文章主要介紹了用60行代碼實(shí)現(xiàn)Python自動(dòng)搶微信紅包,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02OpenCV之理解KNN鄰近算法k-Nearest?Neighbour
這篇文章主要為大家介紹了OpenCV之理解KNN鄰近算法k-Nearest?Neighbour,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-05-05Python 實(shí)現(xiàn)圖片色彩轉(zhuǎn)換案例
我們?cè)诳磩?dòng)漫、影視作品中,當(dāng)人物在回憶過程中,體現(xiàn)出來的畫面一般都是黑白或者褐色的。本文將提供將圖片色彩轉(zhuǎn)為黑白或者褐色風(fēng)格的案例詳解,感興趣的小伙伴可以了解一下。2021-11-11Python字符串格式化f-string多種功能實(shí)現(xiàn)
這篇文章主要介紹了Python字符串格式化f-string格式多種功能實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05詳解Python排序算法的實(shí)現(xiàn)(冒泡,選擇,插入,快速)
這篇文章主要為大家介紹了Python中常見的四種排序算法的實(shí)現(xiàn):冒泡排序、選擇排序、插入排序和快速排序,文中通過圖片詳細(xì)講解了它們實(shí)現(xiàn)的原理與代碼,需要的可以參考一下2022-04-04python matplotlib模塊基本圖形繪制方法小結(jié)【直線,曲線,直方圖,餅圖等】
這篇文章主要介紹了python matplotlib模塊基本圖形繪制方法,結(jié)合實(shí)例形式總結(jié)分析了Python使用matplotlib模塊繪制直線,曲線,直方圖,餅圖等圖形的相關(guān)操作技巧,需要的朋友可以參考下2020-04-04pytorch 模擬關(guān)系擬合——回歸實(shí)例
今天小編就為大家分享一篇pytorch 模擬關(guān)系擬合——回歸實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01python3利用ctypes傳入一個(gè)字符串類型的列表方法
今天小編就為大家分享一篇python3利用ctypes傳入一個(gè)字符串類型的列表方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-02-02