python 爬取騰訊視頻評(píng)論的實(shí)現(xiàn)步驟
一、網(wǎng)址分析
查閱了網(wǎng)上的大部分資料,大概都是通過抓包獲取。但是抓包有點(diǎn)麻煩,嘗試了F12,也可以獲取到評(píng)論。以電視劇《在一起》為例子。評(píng)論最底端有個(gè)查看更多評(píng)論猜測過去應(yīng)該是 Ajax 的異步加載。
網(wǎng)上的大部分都是構(gòu)建評(píng)論的網(wǎng)址,通過 requests 獲取,正則表達(dá)式進(jìn)行數(shù)據(jù)處理。本文也利用該方法進(jìn)行數(shù)據(jù)處理,其實(shí)利用 scrapy 會(huì)更簡單。
根據(jù)前輩給出的經(jīng)驗(yàn),順利找到了評(píng)論所在的鏈接。
在新標(biāo)簽中打開,該網(wǎng)址的鏈接。
評(píng)論都在"content":"xxxxx"里面,所有可以通過正則表達(dá)式獲取。
那么現(xiàn)在要開始構(gòu)建網(wǎng)址,找到其規(guī)律。
在查找評(píng)論鏈接的過程中無意發(fā)現(xiàn),點(diǎn)擊影評(píng)旁邊的評(píng)論總數(shù),可以獲取到更為干凈的評(píng)論界面。結(jié)果是一樣的。
既然是要爬取所有的評(píng)論,所以知道評(píng)論數(shù)是必不可少的。
再通過F12獲取到評(píng)論鏈接,找到網(wǎng)址的規(guī)律,構(gòu)建網(wǎng)址,加載三四個(gè)評(píng)論就行了。這里加載了四個(gè)網(wǎng)址。把所有網(wǎng)址復(fù)制到文本文件中,進(jìn)行對(duì)比分析。
觀察發(fā)現(xiàn)只有 cursor 和 source 進(jìn)行了改變,其他是不變的,二 source 是在第一個(gè)的基礎(chǔ)上進(jìn)行加一操作,所以只需要獲取到 cursor 即可。我們打開一個(gè)評(píng)論鏈接的網(wǎng)址,我們可以知道,cursor 其實(shí)是上一頁 最后一個(gè)用戶的ID碼。所以我們只需要在爬取上一頁的時(shí)候一起爬蟲了。然后就可以構(gòu)建網(wǎng)址。
二、代碼編寫
這個(gè)代碼還是簡單的。套用之前上課做的模板就可以直接進(jìn)行爬蟲了。
通過正則表達(dá)式獲取評(píng)論,返回一個(gè)列表;
正則表達(dá)式獲得的 cursor 碼是列表,所以要轉(zhuǎn)化為字符串使用;
source 很簡單了,直接在上一個(gè)的基礎(chǔ)上加一即可。
def getComment(html): # 爬取單頁評(píng)論 findeComment = re.compile(r'"content":"(.*?)"', re.S) comment = re.findall(findeComment, html) # print(comment) return comment def getCursor(html): # 獲取下一頁的cursor碼 findeCursor = re.compile(r'"last":"(.*?)"', re.S) cursor = re.findall(findeCursor, html)[0] # print(cursor) return cursor def getSource(source): # 獲取下一頁的source碼 source = int(source) + 1 return str(source)
有點(diǎn)難度的可能就送弄代理吧,但是代理可以模仿網(wǎng)上其他人的寫法,所以還是不是很難。
#添加用戶代理 def ua(uapools): thisua = random.choice(uapools) # print(thisua) headers = ("User-Agent", thisua) opener = urllib.request.build_opener() opener.addheaders = [headers] # 設(shè)置為全局變量 urllib.request.install_opener(opener)
三、遇到的問題
1. 獲取評(píng)論的時(shí)候也將子評(píng)論爬蟲進(jìn)去了。
仔細(xì)查看了源碼,發(fā)現(xiàn)評(píng)論主要在 data 下面的 oriCommList 列表里,其他范圍的評(píng)論為子評(píng)論。個(gè)人認(rèn)為子評(píng)論也算有效評(píng)論,目前不打算處理。
2. 獲取全部評(píng)論數(shù),直接通過 requests 獲取不到
嘗試了 xpath 和 requests 發(fā)現(xiàn)不能獲取全部評(píng)論數(shù),所以目前只能通過 selenium 獲取,但是 selenium 效率太低了,就獲取一個(gè)評(píng)論總數(shù),還不如打開源碼直接修改評(píng)論總數(shù),所以暫時(shí)沒有修改
3. 評(píng)論總數(shù)數(shù)據(jù)太大
因?yàn)橹芭老x過很多網(wǎng)站,同一個(gè) user-agent 很容易被 ban ,所以目前構(gòu)建了用戶代理,然后進(jìn)行隨機(jī)。其實(shí)還想加一個(gè) ip 代理的,但是使用了 ip 代理的網(wǎng)址,上面寫的正常的 ip ,在使用的時(shí)候,拒絕連接。也嘗試過構(gòu)建代理池。但是代理池一般都是使用docker 和 Redis 進(jìn)行獲取。暫時(shí)沒有選用,之選用了用戶代理,然后在獲取 headers 的時(shí)候加個(gè) time.sleep(1)。目前還是正常的。
4. 報(bào)錯(cuò)'utf-8' codec can't decode byte 0xff in position 1: invalid start byte
遇到這個(gè)問題,實(shí)在無語,我懷疑后面的評(píng)論是新出的 emjoy,然后utf-8不能識(shí)別,程序掛掉了。但是選取其他格式,在解釋的過程估計(jì)還會(huì)掛掉,就暫時(shí)爬到1萬條吧。
四、完整代碼
以上就是python 爬取騰訊視頻評(píng)論的實(shí)現(xiàn)步驟的詳細(xì)內(nèi)容,更多關(guān)于python 爬取騰訊視頻評(píng)論的資料請關(guān)注腳本之家其它相關(guān)文章!
- python爬取豆瓣評(píng)論制作詞云代碼
- 基于Python實(shí)現(xiàn)評(píng)論區(qū)抽獎(jiǎng)功能詳解
- 用Python寫一個(gè)球球大作戰(zhàn)小游戲
- Python爬蟲實(shí)戰(zhàn)之爬取攜程評(píng)論
- python 爬取華為應(yīng)用市場評(píng)論
- python 爬取京東指定商品評(píng)論并進(jìn)行情感分析
- python爬取晉江文學(xué)城小說評(píng)論(情緒分析)
- 利用Python網(wǎng)絡(luò)爬蟲爬取各大音樂評(píng)論的代碼
- Python?抖音評(píng)論數(shù)據(jù)抓取分析
相關(guān)文章
Python調(diào)用系統(tǒng)命令os.system()和os.popen()的實(shí)現(xiàn)
這篇文章主要介紹了Python調(diào)用系統(tǒng)命令os.system()和os.popen()的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12pyqt實(shí)現(xiàn).ui文件批量轉(zhuǎn)換為對(duì)應(yīng).py文件腳本
今天小編就為大家分享一篇pyqt實(shí)現(xiàn).ui文件批量轉(zhuǎn)換為對(duì)應(yīng).py文件腳本,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-06-06python目標(biāo)檢測SSD算法訓(xùn)練部分源碼詳解
這篇文章主要為大家介紹了python目標(biāo)檢測SSD算法訓(xùn)練部分源碼詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05對(duì)pandas讀取中文unicode的csv和添加行標(biāo)題的方法詳解
今天小編就為大家分享一篇對(duì)pandas讀取中文unicode的csv和添加行標(biāo)題的方法詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-12-12matplotlib共享坐標(biāo)軸的實(shí)現(xiàn)(X或Y坐標(biāo)軸)
在作圖的過程中,我們經(jīng)常會(huì)遇到子圖共用坐標(biāo)軸的情況,或是共用橫軸標(biāo)軸,也可能是縱坐標(biāo)軸。本文就介紹了matplotlib共享坐標(biāo)軸,感興趣的可以了解一下2021-05-05pandas創(chuàng)建DataFrame的方式小結(jié)
今天給大家整理了pandas創(chuàng)建DataFrame的方式小結(jié),現(xiàn)在我們就來看看這三種生成Dataframe的方式,每種方式通過實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友參考下吧2021-09-09