快捷導(dǎo)航

Python腳本如何在bilibili中查找彈幕發(fā)送者

更新時(shí)間：2020年06月04日 14:06:25 作者：dlpu_fan

這篇文章主要介紹了如何在bilibili中查找彈幕發(fā)送者,本文給大家分享小編寫的一個(gè)python腳本來實(shí)現(xiàn)bilibili彈幕發(fā)送者，需要的朋友可以參考下

總所周知bilibili是沒有辦法直接查看彈幕的發(fā)送者的，這使得當(dāng)我們看到一些nt彈幕的時(shí)候雖然生氣，卻無可奈何，但是B站是可以屏蔽某個(gè)用戶發(fā)送的彈幕的，這說明數(shù)據(jù)接口里肯定有用戶信息，由于最近在學(xué)爬蟲，所以我想先找找彈幕接口，分析下里面的數(shù)據(jù)。

找接口

找接口當(dāng)然是隨便打開一個(gè)視頻然后F12啦，可是當(dāng)我找了兩圈后我傻眼了，沒找到啊。。得，不能把時(shí)間浪費(fèi)在這種事情上，果斷打開百度，不出所料，找到了如下的兩個(gè)接口，都是XML格式網(wǎng)頁

https://comment.bilibili.com/+cid
https://api.bilibili.com/x/v1/dm/list.so?oid=+cid

這里面的cid是一種每個(gè)視頻獨(dú)有的數(shù)字，也就是每一P都有一個(gè)cid，查找cid可以打開網(wǎng)頁然后F12，再ctrl+f搜索cid，一般八九位數(shù)的就是cid了。

這里我找到了一個(gè)接口，可以通過aid找到cid

https://www.bilibili.com/widget/getPageList?aid=+aid

分析數(shù)據(jù)

彈幕數(shù)據(jù)是獲取到了，那么我們就要從這一堆數(shù)據(jù)中分析他們的用途了

在這里插入圖片描述

這里大概能得到兩個(gè)信息，其中第6個(gè)數(shù)據(jù)為時(shí)間戳，第8個(gè)數(shù)據(jù)為用戶uid的某種加密方式。經(jīng)查詢得到這是用戶uid經(jīng)過crc32校驗(yàn)得到的結(jié)果轉(zhuǎn)為16進(jìn)制數(shù)，所以只能通過uid得到對于的校驗(yàn)碼，無法反推。。似乎只能通過彩虹表的方式查找數(shù)據(jù)了？那么這串8位16進(jìn)制的數(shù)字在數(shù)據(jù)庫中要用什么方式保存呢？
選擇似乎有varchar和bigint，由于B站有差不多6億個(gè)用戶，在6億個(gè)數(shù)據(jù)中查找想要的字符串那速度必然很慢（但有人經(jīng)測試得到varchar型數(shù)據(jù)和bigint型數(shù)據(jù)查找速度其實(shí)差的不多？）
就在我決定用bigint儲存數(shù)據(jù)時(shí)，我突然想到，8位16進(jìn)制那就是2的32次方，int型的儲存上限時(shí)2的31次方，如果用無符號的方式保存正好是2的32次方，也就是能儲存到0xffffffff這么大的數(shù)據(jù)，正好滿足要求。于是果斷換成無符號int，與之對應(yīng)的id也為無符號int，并將crc32b編碼過后的數(shù)據(jù)作為主鍵，制成彩虹表存入我的服務(wù)器內(nèi)。
（粗略的算了一下，6億數(shù)據(jù)就是需要27G左右的空間…而我的服務(wù)器一共才40G的大小…）

做成網(wǎng)頁供大家使用

接下來的操作似乎就水到渠成了，寫了個(gè)python腳本，該python腳本接受2個(gè)參數(shù)，視頻cid和想要搜索的彈幕關(guān)鍵字，返回用戶發(fā)送的彈幕，用戶的crc32b編碼，時(shí)間戳。然后用php的exec函數(shù)執(zhí)行python代碼，并通過搜索數(shù)據(jù)庫找出用戶的uid，通過php返回json格式數(shù)據(jù)給前端。

python代碼(寫的很爛)

import requests
from bs4 import BeautifulSoup
import re
import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
req = requests.get('https://comment.bilibili.com/'+sys.argv[1]+'.xml')
req.encoding = req.apparent_encoding
soup = BeautifulSoup(req.text, 'html.parser').find_all(name='d')
result = ""
for i in soup:
 s = re.sub('<(.*?)>', '', str(i))
 index = 0
 if(len(sys.argv[2])>0):
  index = s.find(str(sys.argv[2]))
 if(index!=-1):
  result+=str(i).split(",")[6]+","+s+","+str(i).split(",")[4]+","
print(result)

效果展示

前端代碼就是隨便寫的~至少功能實(shí)現(xiàn)了嘛

在這里插入圖片描述