基于python對(duì)B站收藏夾按照視頻發(fā)布時(shí)間進(jìn)行排序的問題
前言
在最一開始,我的B站收藏一直是存放在默認(rèn)收藏夾中,但是隨著視頻收藏的越來越多,沒有分類的視頻放在一起,想在眾多視頻中找到想要的視頻非常困難,因此就對(duì)收藏夾里面的視頻進(jìn)行了分類。但是分類之后緊接著又出現(xiàn)了一個(gè)新的問題:原來存放在默認(rèn)收藏夾里面視頻的相對(duì)順序被打亂了——明明前幾天剛收藏的視頻卻要翻很多很多頁(yè)才能找到,因此有了這個(gè)程序。
程序的作用
因?yàn)槲覀兛吹降囊曨l大部分都是通過推薦得到的,而推薦的視頻大部分都是剛發(fā)布不久,因此大部分收藏的視頻的順序也基本是按照視頻發(fā)布的順序來的。那么通過程序?qū)κ詹貖A中的視頻按照發(fā)布時(shí)間重新排序,那么就和我們收藏視頻的順序幾乎一致了。
機(jī)理
利用b站的API獲取收藏夾中視頻的視頻的編號(hào),用python中的request庫(kù)獲得視頻對(duì)應(yīng)網(wǎng)頁(yè)的html,之后利用正則表達(dá)式得到視頻發(fā)布的時(shí)間。將發(fā)布時(shí)間和視頻的編號(hào)綁定,按照視頻發(fā)布時(shí)間從小到大排序,再次利用b站的API將視頻收藏到指定收藏夾。
出現(xiàn)的問題
b站視頻的av號(hào)在八位以下的時(shí)候是按照視頻發(fā)布順序編排的,但是當(dāng)?shù)竭_(dá)九位的時(shí)候就不是按照發(fā)布順序編排的了,因此只能通過訪問視頻主頁(yè)來得到視頻發(fā)布時(shí)間。
b站的API如果長(zhǎng)時(shí)間比較高頻率的訪問會(huì)出現(xiàn)錯(cuò)誤碼,因此每次調(diào)用API之后都sleep了一下。
中間程序可能因?yàn)楦鞣N原因掛掉,因此在中間加入了儲(chǔ)存中間狀態(tài)的功能,否則每次掛掉都要重新爬速度非常慢。
使用方法
在創(chuàng)建Sort
類對(duì)象時(shí),將userAgent
,cookie
,fid
,toFid
,csrf
傳入類的構(gòu)造函數(shù)中,之后調(diào)用類中的sortVideos()
方法即可完成排序。
import requests, json, time, re, datetime, random class WriteLog(object): def __getCurrentTime(self): return str(time.ctime(time.time())) def writeFile(self, fileName, l): with open(self.__getCurrentTime() + fileName, 'w') as f: for i in l: f.write(str(i) + '\n') class Sort(WriteLog): def __init__(self, fid, toFid, csrf, userAgent, cookie, MinSleepTime=5, MaxSleepTime=10): self.MinSleepTime = MinSleepTime self.MaxSleepTime = MaxSleepTime self.fid = str(fid) self.toFid = str(toFid) self.csrf = csrf self.DeadVideo = [] self.headers = {'User-Agent': userAgent, 'cookie': cookie} def __Sleep(self): sleepTime = random.randint(self.MinSleepTime, self.MaxSleepTime) time.sleep(sleepTime) def __getAllVideoId(self): print('Start get all video ID') fid = self.fid res = [] cnt = 0 for i in range(100): if i == 0: continue url = 'https://api.bilibili.com/x/v3/fav/resource/list?media_id=' + fid + '&pn=' + str(i) + '&ps=20&keyword=&order=mtime&type=0&tid=0&platform=web&jsonp=jsonp' html = requests.get(url=url, headers=self.headers) te = json.loads(html.text) te = te['data']['medias'] if te != None: for j in te: res.append(j['id']) print('num: ', cnt, '\tvideoID: ', j['id']) cnt = cnt + 1 self.__Sleep() else: break print('Finish get all video ID, in total %d' % (len(res))) return res def __addVideoToFavorite(self, vid): fid = self.toFid csrf = self.csrf url = 'https://api.bilibili.com/x/v3/fav/resource/deal' data = { 'rid': vid, 'type': '2', 'add_media_ids': fid, 'del_media_ids': '', 'jsonp': 'jsonp', 'csrf': csrf, 'platform': 'web', } requests.post(url=url, data=data, headers=self.headers) print('finish add video %s to folder %s' % (vid, fid)) def __getVideoPostTime(self, vid): vid = str(vid) url = 'https://www.bilibili.com/video/av' + vid text = requests.get(url).text ''' data-vue-meta="true" itemprop="uploadDate" content="2021-04-07 23:29:21"><meta data-vue-meta="true" itemprop="datePublished" c ''' reg = re.compile('content="([0-9]+)-([0-9]+)-([0-9]+)\s([0-9]+):([0-9]+):([0-9]+)"') text = reg.findall(text) if len(text) == 0: return -1 text = text[0] if len(text) < 6: return -1 t = "" for i in text: t = t + str(i) print('finish get video %s post time, it\'s post time is: %s' % (vid, t)) return int(t) def __Unique(self, l): size = len(l) if size == 0: return [] res = [l[0]] for i in range(size): if i == 0: continue if l[i] != l[i - 1]: res.append(l[i]) return res def __addVideo(self, res): cnt = 0 for i in res: self.__addVideoToFavorite(vid=i) self.__Sleep() cnt = cnt + 1 def __getVideosTime(self, res): videos = [] cnt = 0 for i in res: t = self.__getVideoPostTime(i) if t == -1: continue item = { 'vid': str(i), 'postTime': t } videos.append(item) cnt = cnt + 1 return videos def sortVideos(self): fid = self.fid toFid = self.toFid res = self.__getAllVideoId() self.writeFile('getAllVideoId' + fid + 'to' + toFid, res) videos = self.__getVideosTime(res) videos = sorted(videos, key=lambda x: x['postTime']) res = [] for i in videos: res.append(i['vid']) res = self.__Unique(res) self.writeFile('getVideosTime' + fid + 'to' + toFid, res) self.__addVideo(res) self.writeFile('err' + fid + 'to' + toFid, self.DeadVideo) if __name__=='__main__': userAgent = '' cookie = '' fid = '' toFid = '' csrf = '' sortVideo = Sort(fid=fid, toFid=toFid, csrf=csrf, userAgent=userAgent, cookie=cookie) sortVideo.sortVideos()
以上就是基于python對(duì)B站收藏夾按照視頻發(fā)布時(shí)間進(jìn)行排序的問題的詳細(xì)內(nèi)容,更多關(guān)于python視頻發(fā)布時(shí)間排序的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python Django連接MySQL數(shù)據(jù)庫(kù)做增刪改查
本文寫的是python Django連接MySQL數(shù)據(jù)庫(kù)的步驟,提供增刪改查的代碼2013-11-11Python通過TensorFlow卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)貓狗識(shí)別
今天小編就為大家分享一篇關(guān)于Python通過TensorFlow卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)貓狗識(shí)別,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2019-03-03Python接口測(cè)試結(jié)果集實(shí)現(xiàn)封裝比較
這篇文章主要介紹了Python接口測(cè)試結(jié)果集比較封裝,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05關(guān)于Django框架的關(guān)系模型序列化和一對(duì)多關(guān)系中的序列化解析
序列化的意思是把字典的形式轉(zhuǎn)化成Json格式。當(dāng)我們展示數(shù)據(jù)的時(shí)候需要使用,反序列化的話,就是Json轉(zhuǎn)成字典形式,存儲(chǔ)數(shù)據(jù)時(shí)候使用,需要的朋友可以參考下2023-05-05keras獲得某一層或者某層權(quán)重的輸出實(shí)例
今天小編就為大家分享一篇keras獲得某一層或者某層權(quán)重的輸出實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-01-01Python二叉樹的鏡像轉(zhuǎn)換實(shí)現(xiàn)方法示例
這篇文章主要介紹了Python二叉樹的鏡像轉(zhuǎn)換實(shí)現(xiàn)方法,結(jié)合實(shí)例形式分析了二叉樹鏡像轉(zhuǎn)換的原理及Python相關(guān)算法實(shí)現(xiàn)技巧,需要的朋友可以參考下2019-03-03python pandas 組內(nèi)排序、單組排序、標(biāo)號(hào)的實(shí)例
下面小編就為大家分享一篇python pandas 組內(nèi)排序、單組排序、標(biāo)號(hào)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-04-04