Python下載ts文件視頻且合并的操作方法

更新時間：2023年01月10日 10:30:42 作者：格物致理，

ts文件，ts即"Transport?Stream"的縮寫，特點就是要求從視頻流的任一片段開始都是可以獨立解碼的，非常適合網(wǎng)絡視頻播放，這篇文章主要介紹了Python下載ts文件視頻且合并,需要的朋友可以參考下

一、ts文件的由來

ts文件，ts即"Transport Stream"的縮寫，特點就是要求從視頻流的任一片段開始都是可以獨立解碼的，非常適合網(wǎng)絡視頻播放。

打開網(wǎng)址：https://www.kan35.com/play/210314-3-1.html，要怎么才能把這個視頻下載到電腦上呢？

按F12發(fā)現(xiàn)，這些視頻被切割成無數(shù)個細小的片斷，如圖：

上圖中，用紅框圈出來的部分很重要，.ts的文件就是被切割的視頻文件。但是這些視頻文件名字全是亂的，沒有規(guī)律。它們的順序是通過index.m3u8實現(xiàn)的，上圖中有兩個index.m3u8文件，一般是尺寸更大的那個才是存放視頻播放順序的文件?？梢栽跒g覽器中打開看下：

可以看出，這個文件里面確實保存了ts文件播放順序，當然一些其它的網(wǎng)站提供的index.m3u8文件格式會有些不一樣，這些都可以后期處理。

二、下載ts文件

1.下載index.m3u8，并做相應處理

這個index.m3u8很重要，直接右鍵“Open in new tab”就可以下載下來，但是該怎么處理呢？

首先，了解下什么是m3u8：

m3u8是蘋果公司推出的視頻播放標準，是m3u的一種，只是編碼格式采用的是UTF-8。

m3u8準確來說是一種索引文件，使用m3u8文件實際上是通過它來解析對應的放在服務器上的視頻網(wǎng)絡地址，從而實現(xiàn)在線播放。使用m3u8格式文件主要因為可以實現(xiàn)多碼率視頻的適配，視頻網(wǎng)站可以根據(jù)用戶的網(wǎng)絡帶寬情況，自動為客戶端匹配一個合適的碼率文件進行播放，從而保證視頻的流暢度。

其次，怎么解析這個文件？

最簡單的方式是復制里面的內容，然后在excel中篩選包含“https”的字符串。

當然，我們可以用更專業(yè)的方法，在python中用“pip install m3u8”安裝這個模塊，然后就可以用代碼解析了。

import m3u8
data = m3u8.load("index0.m3u8").data
data

顯示內容大概如下：

{'media_sequence': 0,
'is_variant': False,
'is_endlist': True,
'is_i_frames_only': False,
'is_independent_segments': False,
'playlist_type': 'vod',
'playlists': [],
'segments': [
{'duration': 2.667,
'title': '',
'uri': 'https://hey06.cjkypo.com/20211214/lIC8S3qZ1/1000kb/hls/MQJ9iKoM.ts',
'cue_in': False,
'cue_out': False,
'cue_out_start': False,
'scte35': None,
'oatcls_scte35': None,
'scte35_duration': None,
'scte35_elapsedtime': None,
'asset_metadata': None,
'discontinuity': False,
'dateranges': None,
'gap_tag': None},
{'duration': 1.667,
'title': '',
'uri': 'https://hey06.cjkypo.com/20211214/lIC83SqZ1/1000kb/hls/8LeDe7Wu.ts',
'cue_in': False,
'cue_out': False,
'cue_out_start': False,
'scte35': None,
'oatcls_scte35': None,
'scte35_duration': None,
'scte35_elapsedtime': None,
'asset_metadata': None,
'discontinuity': False,
'dateranges': None,
'gap_tag': None},
........................

可以看出，顯示的內容很多，但是實際上只有“https://”那個字符串有用。

我們現(xiàn)在要做的是先提取每一個帶“https”的字符串，然后還要提取出每個https字符串中的ts文件名。代碼如下：

order_ts = []
#將所有的帶https的url存入order_ts
for i in data["segments"]:
    order_ts.append(i["uri"])
 
#返回一個dict，將文件名作為key，將url作為value
def read_name_url():
    name_url = {}
    for url in order_ts:
        name = url.split("/")[-1]
        name_url[name] = url
    return name_url

這個dict內容大概如下：

按理說，這個結果已經(jīng)非常好了，但是我們還要進一步處理下，為我們最后一步的合并ts文件作準備。

list_name= read_name_url().keys()
file = open("order.m3u8", 'w')
for name in list_name:
    file.write("file 'D:\\ProgramData\\study\\mov\\tsfiles\\" + name + "'")
    file.write("\n")

這個order.m3u8文件的內容大概如下：

file 'D:\ProgramData\study\mov\tsfiles\MQJ9iKoM.ts'
file 'D:\ProgramData\study\mov\tsfiles\8LeDe7Wu.ts'
file 'D:\ProgramData\study\mov\tsfiles\WS72cnXO.ts'
file 'D:\ProgramData\study\mov\tsfiles\LXld1AUz.ts'
file 'D:\ProgramData\study\mov\tsfiles\Jc2FmbSf.ts'

...........

2.下載ts文件

ts文件很小，只有幾百k，所以一個完整的視頻會被分成幾千個ts文件，我們可以采用多線程的方式來下載：

import urllib
from concurrent.futures import ThreadPoolExecutor
 
def download(url,name):
    #下載ts文件到D:\ProgramData\study\mov\tsfiles文件夾
    urllib.request.urlretrieve(url,'D://ProgramData//study//mov//tsfiles//'+name)
 
def download_tsfile():
    #記錄創(chuàng)立的線程
    task_list = []
    dict_name_url = read_name_url()
    #線程池的創(chuàng)立 
    pool = ThreadPoolExecutor(max_workers=50)
    for name in dict_name_url:
        # 啟動多個線程下載文件，download是函數(shù)名，后面兩個是參數(shù)值
        task_list.append(pool.submit(download, dict_name_url[name],name))
    # 判斷所有下載線程是否全部結束
    while (True):
        if len(task_list) == 0:
            break
        for i in task_list:
            if i.done():
                task_list.remove(i)
                print("剩下任務數(shù)：{0}".format(len(task_list)))
    print("所有下載任務完成！")

下載完成后，就可以在tsfiles文件夾找到這些細小的文件：

三、合并ts文件

有了前面兩步的鋪墊，現(xiàn)在要進行最重要的一個步驟了，那就是按order.m3u8里面的順序，依次把這些ts文件合并起來。該怎么合并呢？

我們需要借助ffmpeg這個工具，這個工具非常強大，專門用來處理音頻、視頻切割、合并、編輯等，當然也非常復雜。安裝這個軟件，可以點擊后面參考文章中的第二篇文章，這里不細說。下面來說說怎么合并這些ts文件。

代碼非常簡單：

import os
 
def mixTss(name):
    #string前面加上‘r',是為了告訴編譯器這個string是個raw string，不要轉義 backslash '\' 。
    com = r'D:\\ffmpeg\\bin\\ffmpeg.exe -f concat -safe 0 -i D:\\ProgramData\\study\\mov\\order.m3u8 -c copy D:\\ProgramData\\study\\mov\\{}.mp4'.format(name)
    os.system(com)
    
mixTss("hello")
print("合并完成！")

可以看出上面的代碼中，最重要的就是執(zhí)行了一命令：