Python實(shí)現(xiàn)視頻下載功能
最近一兩年短視頻業(yè)務(wù)風(fēng)生水起,各個(gè)視頻網(wǎng)站都有各自特色的短視頻內(nèi)容。如果有這樣一個(gè)程序,可以把各大視頻網(wǎng)站的熱門用戶最新發(fā)布的視頻都下載下來(lái),不僅方便自己觀看,還可以將沒有版權(quán)的視頻發(fā)布在個(gè)人社交網(wǎng)站上,增加自己的人氣,豈不美哉?
parker就是這樣一個(gè)項(xiàng)目(項(xiàng)目地址:https://github.com/LiuRoy/parker),它采用celery框架定時(shí)爬取用戶視頻列表,將最新發(fā)布的視頻通過you-get異步下載,可以很方便地實(shí)現(xiàn)分布式部署。因?yàn)楦鱾€(gè)網(wǎng)站的頁(yè)面布局和接口更新比較頻繁,為了保證程序的高可用,特意增加了Statsd監(jiān)控,方便及時(shí)發(fā)現(xiàn)出錯(cuò)。
代碼架構(gòu)
目前parker中只實(shí)現(xiàn)了B站和秒拍的下載,從框架圖可以看出,針對(duì)每一類網(wǎng)站,需要實(shí)現(xiàn)兩個(gè)異步接口:從用戶視頻主頁(yè)解析發(fā)布視頻的播放地址、根據(jù)播放地址下載視頻。因此增加網(wǎng)站類型,不需要修改原來(lái)的代碼,只需要添加新的解析和下載接口即可。針對(duì)視頻下載完成之后的后續(xù)操作,我還沒有實(shí)現(xiàn),大家可以根據(jù)自己的需求自由的去實(shí)現(xiàn)。
在運(yùn)行的時(shí)候,celery會(huì)將配置好的優(yōu)質(zhì)用戶列表定時(shí)發(fā)送到對(duì)應(yīng)網(wǎng)站的解析接口異步執(zhí)行,篩選出最新發(fā)布的視頻播放地址,交給對(duì)應(yīng)的下載接口異步下載,下載完成之后再異步調(diào)用后續(xù)操作。因此需要啟動(dòng)一個(gè)celery beat進(jìn)程發(fā)送定時(shí)任務(wù),以及若干celery異步任務(wù)去執(zhí)行解析和下載操作,對(duì)于比較大的視頻,下載會(huì)相當(dāng)耗時(shí),建議根據(jù)任務(wù)列表的多少合理分配異步任務(wù)的個(gè)數(shù)。
程序運(yùn)行
經(jīng)驗(yàn)證,此程序可以在ubuntu和mac下正常運(yùn)行, 由于本地windows下的celery無(wú)法正常啟動(dòng),所以沒有在windows環(huán)境做過驗(yàn)證。
依賴庫(kù)安裝
python版本為3.5,進(jìn)入項(xiàng)目目錄后,執(zhí)行:
pip install -r requirements.txt
創(chuàng)建數(shù)據(jù)庫(kù)表
提前在數(shù)據(jù)庫(kù)中建好兩張表(sql: https://github.com/LiuRoy/parker/blob/master/spider/models/tables.sql)
參數(shù)配置
config路徑下的logging.yaml、params.yaml、sites.yaml分別對(duì)應(yīng)日志配置、運(yùn)行參數(shù)配置、熱門用戶配置。
日志配置
debug模式下日志會(huì)直接輸出在標(biāo)準(zhǔn)輸出流,release模式下會(huì)將日志內(nèi)容輸出到文件中,因此需要配置輸出日志文件。
運(yùn)行配置
- mode debug調(diào)試模式,此模式下日志指向標(biāo)準(zhǔn)輸出,并且沒有監(jiān)控?cái)?shù)據(jù);release模式下,日志輸出到制定文件,并且有監(jiān)控?cái)?shù)據(jù)。
- broker_url 對(duì)應(yīng)于celery的BROKER_URL,可以配置為redis或者rabbitmq
- mysql_url 數(shù)據(jù)庫(kù)地址,需要提前建好兩張表
- download_path 視頻下載路徑
- statsd_address 監(jiān)控地址
- video_number_per_page 每次從用戶視頻主頁(yè)解析出多少條視頻播放地址,因?yàn)榇蟛糠钟脩裘看伟l(fā)布的視頻個(gè)數(shù)很少,只需要設(shè)置成一個(gè)很小的值即可。在初次運(yùn)行的時(shí)候,也不會(huì)下載大量久遠(yuǎn)的視頻。
- download_timeout 視頻下載的超時(shí)時(shí)間
熱門用戶配置
parker會(huì)根據(jù)此配置生成一份celery beat scheduler列表。
- name 規(guī)則是<網(wǎng)站類型>-<任務(wù)id>,parker會(huì)根據(jù)此作為scheduler任務(wù)名稱
- url 用戶的發(fā)布視頻主頁(yè)
- task 對(duì)應(yīng)的celery解析異步任務(wù)
- minute 多少分鐘檢查一次用戶視頻列表
啟動(dòng)任務(wù)
進(jìn)入項(xiàng)目目錄,執(zhí)行下面命令啟動(dòng)celery worker
celery -A spider worker
執(zhí)行下面命令啟動(dòng)celery beat定時(shí)任務(wù)
celery -A spider beat
監(jiān)控
強(qiáng)烈安利一個(gè)docker鏡像 https://hub.docker.com/r/samuelebistoletti/docker-statsd-influxdb-grafana/,一分鐘配好監(jiān)控環(huán)境有木有。之后只需要添加執(zhí)行成功和執(zhí)行異常的打點(diǎn)數(shù)據(jù),就可以方便的監(jiān)控程序是否正常運(yùn)行了。
以上所述是小編給大家介紹的Python實(shí)現(xiàn)視頻下載功能,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
相關(guān)文章
Flask項(xiàng)目搭建配置項(xiàng)導(dǎo)入教程
這篇文章主要為大家介紹了Flask項(xiàng)目搭建配置項(xiàng)導(dǎo)入教程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-11-11Python常見內(nèi)置高階函數(shù)即高階函數(shù)用法
這篇文章主要介紹了Python的三種高階函數(shù)map、filter、reduce,高階函數(shù)就是一個(gè)函數(shù)可以作為參數(shù)傳給另外一個(gè)函數(shù),或者一個(gè)函數(shù)的返回值為另外一個(gè)函數(shù)(若返回值為該函數(shù)本身,則為遞歸),滿足其一則為高階函數(shù),具體內(nèi)容,需要的朋友可以參考下面文章的介紹2021-12-12Python 根據(jù)相鄰關(guān)系還原數(shù)組的兩種方式(單向構(gòu)造和雙向構(gòu)造)
本文主要介紹了Python 根據(jù)相鄰關(guān)系還原數(shù)組的兩種方式,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-07-07關(guān)于keras中卷積層Conv2D的學(xué)習(xí)記錄
這篇文章主要介紹了關(guān)于keras中卷積層Conv2D的學(xué)習(xí)記錄,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02Python編寫可視化界面的全過程(Python+PyCharm+PyQt)
這篇文章主要給大家介紹了關(guān)于Python編寫可視化界面的相關(guān)資料,主要使用了Python+PyCharm+PyQt,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2021-05-05Python如何在for循環(huán)中同時(shí)使用兩個(gè)變量與兩個(gè)控制條件
Python是一種廣泛使用的編程語(yǔ)言,其提供了許多強(qiáng)大的方法來(lái)處理代碼,Python?for循環(huán)是其中一種非常有用的方法,下面這篇文章主要給大家介紹了關(guān)于Python如何在for循環(huán)中同時(shí)使用兩個(gè)變量與兩個(gè)控制條件的相關(guān)資料,需要的朋友可以參考下2024-03-03使用Python給PDF添加目錄書簽的實(shí)現(xiàn)方法
有時(shí)下載到掃描版的 PDF 是不帶書簽?zāi)夸浀?這樣閱讀起來(lái)很不方便,下面通過 python 實(shí)現(xiàn)一個(gè)半自動(dòng)化添加書簽?zāi)夸浀哪_本,文中通過代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,需要的朋友可以參考下2023-10-10Python實(shí)現(xiàn)http服務(wù)器(http.server模塊傳參?接收參數(shù))實(shí)例
這篇文章主要為大家介紹了Python實(shí)現(xiàn)http服務(wù)器(http.server模塊傳參?接收參數(shù))實(shí)例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-11-11