利用Python制作一個(gè)MOOC公開(kāi)課下載器
導(dǎo)語(yǔ)
記得很久以前寫(xiě)過(guò)一些中國(guó)大學(xué)MOOC上的視頻下載器,不過(guò)好像都已經(jīng)年久失修了。正好最近有需要,所以重新寫(xiě)了一個(gè),順便上來(lái)分享一波,寒假大家也可以用它來(lái)下載點(diǎn)課程內(nèi)卷一下:
廢話不多說(shuō),讓我們愉快地開(kāi)始吧~
開(kāi)發(fā)工具
Python版本:3.7.8
相關(guān)模塊:
DecryptLogin模塊;
tqdm模塊;
click模塊;
argparse模塊;
以及一些python自帶的模塊。
環(huán)境搭建
安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。
先睹為快
運(yùn)行方式:
python moocdl.py --url 課程鏈接
效果如下:
隨便挑的一個(gè)課程測(cè)試的,結(jié)果是m3u8格式的,所以下載起來(lái)有點(diǎn)慢。默認(rèn)會(huì)把所有的課件這些東西也一起下載下來(lái)放到對(duì)應(yīng)的目錄。
原理簡(jiǎn)介
首先,我們需要先模擬登錄中國(guó)大學(xué)MOOC,這樣才能下載對(duì)應(yīng)的課程資料,這里借助公眾號(hào)之前開(kāi)源的DecryptLogin包就好啦:
'''登錄''' def login(self, username, password): lg = login.Login() infos_return, session = lg.icourse163(username, password) return infos_return, session
接著,我們簡(jiǎn)單講解一下如何下載對(duì)應(yīng)課程里的資料。首先,我們需要獲得課程相關(guān)的基本資料,隨便點(diǎn)開(kāi)個(gè)課程主頁(yè)就可以發(fā)現(xiàn)直接在返回的頁(yè)面里就有:
提取我們需要的課程信息的代碼實(shí)現(xiàn)如下:
# 從課程主頁(yè)面獲取信息 url = url.replace('learn/', 'course/') response = self.session.get(url) term_id = re.findall(r'termId : "(\d+)"', response.text)[0] course_name = ' - '.join(re.findall(r'name:"(.+)"', response.text)) course_name = self.filterBadCharacter(course_name) course_id = re.findall(r'https?://www.icourse163.org/(course|learn)/\w+-(\d+)', url)[0] print(f'從課程主頁(yè)面獲取的信息如下:\n\t[課程名]: {course_name}, [課程ID]: {course_name}, [TID]: {term_id}')
接著利用這些信息來(lái)爬取對(duì)應(yīng)的資源列表:
# 獲取資源列表 resource_list = [] data = { 'tid': term_id, 'mob-token': self.infos_return['results']['mob-token'], } response = self.session.post('https://www.icourse163.org/mob/course/courseLearn/v1', data=data) course_info = response.json() file_types = [1, 3, 4] for chapter_num, chapter in enumerate(course_info.get('results', {}).get('termDto', {}).get('chapters', [])): for lesson_num, lesson in enumerate(chapter.get('lessons', [])) if chapter.get('lessons') is not None else []: for unit_num, unit in enumerate(lesson.get('units', [])): if unit['contentType'] not in file_types: continue savedir = course_name self.checkdir(savedir) for item in [self.filterBadCharacter(chapter['name']), self.filterBadCharacter(lesson['name']), self.filterBadCharacter(unit['name'])]: savedir = os.path.join(savedir, item) self.checkdir(savedir) if unit['contentType'] == file_types[0]: savename = self.filterBadCharacter(unit['name']) + '.mp4' resource_list.append({ 'savedir': savedir, 'savename': savename, 'type': 'video', 'contentId': unit['contentId'], 'id': unit['id'], }) elif unit['contentType'] == file_types[1]: savename = self.filterBadCharacter(unit['name']) + '.pdf' resource_list.append({ 'savedir': savedir, 'savename': savename, 'type': 'pdf', 'contentId': unit['contentId'], 'id': unit['id'], }) elif unit['contentType'] == file_types[2]: if unit.get('jsonContent'): json_content = eval(unit['jsonContent']) savename = self.filterBadCharacter(json_content['fileName']) resource_list.append({ 'savedir': savedir, 'savename': savename, 'type': 'rich_text', 'jsonContent': json_content, }) print(f'成功獲得資源列表, 數(shù)量為{len(resource_list)}')
最后根據(jù)資源類型解析下載即可:
# 下載對(duì)應(yīng)資源 pbar = tqdm(resource_list) for resource in pbar: pbar.set_description(f'downloading {resource["savename"]}') # --下載視頻 if resource['type'] == 'video': data = { 'bizType': '1', 'mob-token': self.infos_return['results']['mob-token'], 'bizId': resource['id'], 'contentType': '1', } while True: response = self.session.post('https://www.icourse163.org/mob/j/v1/mobileResourceRpcBean.getResourceToken.rpc', data=data) if response.json()['results'] is not None: break time.sleep(0.5 + random.random()) signature = response.json()['results']['videoSignDto']['signature'] data = { 'enVersion': '1', 'clientType': '2', 'mob-token': self.infos_return['results']['mob-token'], 'signature': signature, 'videoId': resource['contentId'], } response = self.session.post('https://vod.study.163.com/mob/api/v1/vod/videoByNative', data=data) # ----下載視頻 videos = response.json()['results']['videoInfo']['videos'] resolutions, video_url = [3, 2, 1], None for resolution in resolutions: for video in videos: if video['quality'] == resolution: video_url = video["videoUrl"] break if video_url is not None: break if '.m3u8' in video_url: self.m3u8download({ 'download_url': video_url, 'savedir': resource['savedir'], 'savename': resource['savename'], }) else: self.defaultdownload({ 'download_url': video_url, 'savedir': resource['savedir'], 'savename': resource['savename'], }) # ----下載字幕 srt_info = response.json()['results']['videoInfo']['srtCaptions'] if srt_info: for srt_item in srt_info: srt_name = os.path.splitext(resource['savename'])[0] + '_' + srt_item['languageCode'] + '.srt' srt_url = srt_item['url'] response = self.session.get(srt_url) fp = open(os.path.join(resource['savedir'], srt_name), 'wb') fp.write(response.content) fp.close() # --下載PDF elif resource['type'] == 'pdf': data = { 't': '3', 'cid': resource['contentId'], 'unitId': resource['id'], 'mob-token': self.infos_return['results']['mob-token'], } response = self.session.post('http://www.icourse163.org/mob/course/learn/v1', data=data) pdf_url = response.json()['results']['learnInfo']['textOrigUrl'] self.defaultdownload({ 'download_url': pdf_url, 'savedir': resource['savedir'], 'savename': resource['savename'], }) # --下載富文本 elif resource['type'] == 'rich_text': download_url = 'http://www.icourse163.org/mob/course/attachment.htm?' + urlencode(resource['jsonContent']) self.defaultdownload({ 'download_url': download_url, 'savedir': resource['savedir'], 'savename': resource['savename'], })
ok,大功告成啦,寫(xiě)的有點(diǎn)簡(jiǎn)略,因?yàn)橥砩线€有點(diǎn)其他事。大家可以自己在手機(jī)端抓包試試,很簡(jiǎn)單的~
到此這篇關(guān)于利用Python制作一個(gè)MOOC公開(kāi)課下載器的文章就介紹到這了,更多相關(guān)Python公開(kāi)課下載器內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python中數(shù)組和矩陣乘法及使用總結(jié)(推薦)
這篇文章主要介紹了python中數(shù)組和矩陣乘法及使用總結(jié),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05解決python 輸出到csv 出現(xiàn)多空行的情況
這篇文章主要介紹了解決python 輸出到csv 出現(xiàn)多空行的情況,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-03-03PyTorch中torch.nn.Linear實(shí)例詳解
torch.nn是包含了構(gòu)筑神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)基本元素的包,在這個(gè)包中可以找到任意的神經(jīng)網(wǎng)絡(luò)層,下面這篇文章主要給大家介紹了關(guān)于PyTorch中torch.nn.Linear的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-06-06淺析python,PyCharm,Anaconda三者之間的關(guān)系
Python是一種跨平臺(tái)的計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,簡(jiǎn)單來(lái)說(shuō),python就是類似于C,Java,C++等,一種編程語(yǔ)言。這篇文章主要介紹了淺析python,PyCharm,Anaconda三者之間的關(guān)系,需要的朋友可以參考下2019-11-11python 動(dòng)態(tài)繪制愛(ài)心的示例
這篇文章主要介紹了python 動(dòng)態(tài)繪制愛(ài)心的示例,幫助大家利用python繪制圖像,感興趣的朋友可以了解下2020-09-09