欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實現(xiàn)視頻下載功能

 更新時間:2017年03月14日 09:11:46   作者:腩啵兔子  
最近一兩年短視頻業(yè)務(wù)風(fēng)生水起,各個視頻網(wǎng)站都有各自特色的短視頻內(nèi)容。如果有一個程序可以把各大視頻網(wǎng)站的熱門用戶最新發(fā)布的視頻下載下來,不僅方便了觀看,還可以將沒有版權(quán)的視頻發(fā)布在個人社交網(wǎng)站上,增加自己的人氣,多好呀

最近一兩年短視頻業(yè)務(wù)風(fēng)生水起,各個視頻網(wǎng)站都有各自特色的短視頻內(nèi)容。如果有這樣一個程序,可以把各大視頻網(wǎng)站的熱門用戶最新發(fā)布的視頻都下載下來,不僅方便自己觀看,還可以將沒有版權(quán)的視頻發(fā)布在個人社交網(wǎng)站上,增加自己的人氣,豈不美哉?

parker就是這樣一個項目(項目地址:https://github.com/LiuRoy/parker),它采用celery框架定時爬取用戶視頻列表,將最新發(fā)布的視頻通過you-get異步下載,可以很方便地實現(xiàn)分布式部署。因為各個網(wǎng)站的頁面布局和接口更新比較頻繁,為了保證程序的高可用,特意增加了Statsd監(jiān)控,方便及時發(fā)現(xiàn)出錯。

代碼架構(gòu)

目前parker中只實現(xiàn)了B站和秒拍的下載,從框架圖可以看出,針對每一類網(wǎng)站,需要實現(xiàn)兩個異步接口:從用戶視頻主頁解析發(fā)布視頻的播放地址、根據(jù)播放地址下載視頻。因此增加網(wǎng)站類型,不需要修改原來的代碼,只需要添加新的解析和下載接口即可。針對視頻下載完成之后的后續(xù)操作,我還沒有實現(xiàn),大家可以根據(jù)自己的需求自由的去實現(xiàn)。

在運行的時候,celery會將配置好的優(yōu)質(zhì)用戶列表定時發(fā)送到對應(yīng)網(wǎng)站的解析接口異步執(zhí)行,篩選出最新發(fā)布的視頻播放地址,交給對應(yīng)的下載接口異步下載,下載完成之后再異步調(diào)用后續(xù)操作。因此需要啟動一個celery beat進程發(fā)送定時任務(wù),以及若干celery異步任務(wù)去執(zhí)行解析和下載操作,對于比較大的視頻,下載會相當(dāng)耗時,建議根據(jù)任務(wù)列表的多少合理分配異步任務(wù)的個數(shù)。

程序運行

經(jīng)驗證,此程序可以在ubuntu和mac下正常運行, 由于本地windows下的celery無法正常啟動,所以沒有在windows環(huán)境做過驗證。

依賴庫安裝

python版本為3.5,進入項目目錄后,執(zhí)行:

pip install -r requirements.txt

創(chuàng)建數(shù)據(jù)庫表

提前在數(shù)據(jù)庫中建好兩張表(sql: https://github.com/LiuRoy/parker/blob/master/spider/models/tables.sql

參數(shù)配置

config路徑下的logging.yaml、params.yaml、sites.yaml分別對應(yīng)日志配置、運行參數(shù)配置、熱門用戶配置。

日志配置

debug模式下日志會直接輸出在標準輸出流,release模式下會將日志內(nèi)容輸出到文件中,因此需要配置輸出日志文件。

運行配置

  • mode debug調(diào)試模式,此模式下日志指向標準輸出,并且沒有監(jiān)控數(shù)據(jù);release模式下,日志輸出到制定文件,并且有監(jiān)控數(shù)據(jù)。
  • broker_url 對應(yīng)于celery的BROKER_URL,可以配置為redis或者rabbitmq
  • mysql_url 數(shù)據(jù)庫地址,需要提前建好兩張表
  • download_path 視頻下載路徑
  • statsd_address 監(jiān)控地址
  • video_number_per_page 每次從用戶視頻主頁解析出多少條視頻播放地址,因為大部分用戶每次發(fā)布的視頻個數(shù)很少,只需要設(shè)置成一個很小的值即可。在初次運行的時候,也不會下載大量久遠的視頻。
  • download_timeout 視頻下載的超時時間

熱門用戶配置

parker會根據(jù)此配置生成一份celery beat scheduler列表。

  • name 規(guī)則是<網(wǎng)站類型>-<任務(wù)id>,parker會根據(jù)此作為scheduler任務(wù)名稱
  • url 用戶的發(fā)布視頻主頁
  • task 對應(yīng)的celery解析異步任務(wù)
  • minute 多少分鐘檢查一次用戶視頻列表

啟動任務(wù)

進入項目目錄,執(zhí)行下面命令啟動celery worker

celery -A spider worker

執(zhí)行下面命令啟動celery beat定時任務(wù)

celery -A spider beat

監(jiān)控

強烈安利一個docker鏡像 https://hub.docker.com/r/samuelebistoletti/docker-statsd-influxdb-grafana/,一分鐘配好監(jiān)控環(huán)境有木有。之后只需要添加執(zhí)行成功和執(zhí)行異常的打點數(shù)據(jù),就可以方便的監(jiān)控程序是否正常運行了。

以上所述是小編給大家介紹的Python實現(xiàn)視頻下載功能,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!

相關(guān)文章

最新評論