python爬蟲用scrapy獲取影片的實例分析
我們平時生活的娛樂中,看電影是大部分小伙伴都喜歡的事情。周圍的人總會有意無意的在談論,有什么影片上映,好不好看之類的話題,沒事的時候談論電影是非常不錯的話題。那么,一些好看的影片如果不去電影院的話,在其他地方看都會有大大小小的限制,今天小編就教大家用python中的scrapy獲取影片的辦法吧。
1. 創(chuàng)建項目
運行命令:
scrapy startproject myfrist(your_project_name)
文件說明: 名稱 | 作用 --|-- scrapy.cfg | 項目的配置信息,主要為Scrapy命令行工具提供一個基礎的配置信息。(真正爬蟲相關的配置信息在settings.py文件中) items.py | 設置數(shù)據(jù)存儲模板,用于結構化數(shù)據(jù),如:Django的Model pipelines | 數(shù)據(jù)處理行為,如:一般結構化的數(shù)據(jù)持久化 settings.py | 配置文件,如:遞歸的層數(shù)、并發(fā)數(shù),延遲下載等 spiders | 爬蟲目錄,如:創(chuàng)建文件,編寫爬蟲規(guī)則
注意:一般創(chuàng)建爬蟲文件時,以網(wǎng)站域名命名
2 編寫 spdier
在spiders目錄中新建 daidu_spider.py 文件
2.1 注意
爬蟲文件需要定義一個類,并繼承scrapy.spiders.Spider
必須定義name,即爬蟲名,如果沒有name,會報錯。因為源碼中是這樣定義的
2.2 編寫內(nèi)容
在這里可以告訴 scrapy 。要如何查找確切數(shù)據(jù),這里必須要定義一些屬性
name: 它定義了蜘蛛的唯一名稱
allowed_domains: 它包含了蜘蛛抓取的基本URL;
start-urls: 蜘蛛開始爬行的URL列表;
parse(): 這是提取并解析刮下數(shù)據(jù)的方法;
下面的代碼演示了蜘蛛代碼的樣子:
import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com/top250/' ] def parse(self, response): movie_name = response.xpath("http://div[@class='item']//a/span[1]/text()").extract() movie_core = response.xpath("http://div[@class='star']/span[2]/text()").extract() yield { 'movie_name':movie_name, 'movie_core':movie_core }
到此這篇關于python爬蟲用scrapy獲取影片的實例分析的文章就介紹到這了,更多相關python爬蟲如何用scrapy獲取影片內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
- python爬蟲scrapy框架之增量式爬蟲的示例代碼
- 一文讀懂python Scrapy爬蟲框架
- python爬蟲scrapy基本使用超詳細教程
- python爬蟲scrapy基于CrawlSpider類的全站數(shù)據(jù)爬取示例解析
- python爬蟲scrapy框架的梨視頻案例解析
- 詳解Python之Scrapy爬蟲教程NBA球員數(shù)據(jù)存放到Mysql數(shù)據(jù)庫
- Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用
- python pyppeteer 破解京東滑塊功能的代碼
- Python實現(xiàn)京東搶秒殺功能
- Python之京東商品秒殺的實現(xiàn)示例
- 基于Python爬取京東雙十一商品價格曲線
- 賺瘋了!轉手立賺800+?大佬的python「搶茅臺腳本」使用教程
- python基于scrapy爬取京東筆記本電腦數(shù)據(jù)并進行簡單處理和分析
相關文章
OpenCV之理解KNN鄰近算法k-Nearest?Neighbour
這篇文章主要為大家介紹了OpenCV之理解KNN鄰近算法k-Nearest?Neighbour,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-05-05Python字符串格式化f-string多種功能實現(xiàn)
這篇文章主要介紹了Python字符串格式化f-string格式多種功能實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-05-05詳解Python排序算法的實現(xiàn)(冒泡,選擇,插入,快速)
這篇文章主要為大家介紹了Python中常見的四種排序算法的實現(xiàn):冒泡排序、選擇排序、插入排序和快速排序,文中通過圖片詳細講解了它們實現(xiàn)的原理與代碼,需要的可以參考一下2022-04-04python matplotlib模塊基本圖形繪制方法小結【直線,曲線,直方圖,餅圖等】
這篇文章主要介紹了python matplotlib模塊基本圖形繪制方法,結合實例形式總結分析了Python使用matplotlib模塊繪制直線,曲線,直方圖,餅圖等圖形的相關操作技巧,需要的朋友可以參考下2020-04-04