Python爬蟲(chóng)自動(dòng)化爬取b站實(shí)時(shí)彈幕實(shí)例方法
最近央視新聞?dòng)浾咄醣郧宄蓯?ài)和專(zhuān)業(yè)的新聞業(yè)務(wù)水平深受眾多網(wǎng)友喜愛(ài),b站也有很多up主剪輯了關(guān)于王冰冰的視頻。我們都是知道b站是一個(gè)彈幕網(wǎng)站,那你知道如何爬取b站實(shí)時(shí)彈幕嗎?本文以王冰冰視頻彈幕為例,向大家介紹Python爬蟲(chóng)實(shí)現(xiàn)自動(dòng)化爬取b站實(shí)時(shí)彈幕的過(guò)程。
1、導(dǎo)入需要的庫(kù)
import jieba # 分詞 from wordcloud import WordCloud # 詞云 from PIL import Image # 圖片處理 import numpy as np # 圖片處理 import matplotlib.pyplot as plt # 畫(huà)圖
2、 jieba分詞
所謂的分詞就是將一句話(huà)分成一個(gè)或幾個(gè)詞語(yǔ)的形式,
分詞代碼
# 讀取停用詞庫(kù),注意編碼應(yīng)為‘utf8' f = open('小夜斗的停用詞表.txt', encoding='utf8') stopwords = f.read().split('\n') print(stopwords) # 打印停用詞 f.close() # 關(guān)閉停用詞文件
3、打印出的為一個(gè)停用詞列表
with open("冰冰vlog2.txt", "r", encoding='utf8') as fp: text = fp.read()
4、讀取冰冰彈幕數(shù)據(jù)文件的操作,將其保存到text變量中
segs = jieba.cut(text) # 進(jìn)行jieba分詞 mytext_list = [] # 構(gòu)建一個(gè)容納過(guò)濾掉停用詞的冰冰彈幕數(shù)據(jù)文件 # 文本清洗 for seg in segs: # 循環(huán)遍歷每一個(gè)分詞文本 # 如果該詞不屬于停用詞表 并且非空 長(zhǎng)度不為1 if seg not in stopwords and seg != "" and len(seg) != 1: # 將該詞語(yǔ)添加到mytext_list列表中 mytext_list.append(seg.replace(" ", "")) print(mytext_list) # 打印過(guò)濾后的冰冰彈幕數(shù)據(jù)
5、獲取過(guò)濾停用詞后的冰冰彈幕數(shù)據(jù)
cloud_text = ",".join(mytext_list) # 連接列表里面的詞語(yǔ) print(cloud_text)
到此這篇關(guān)于Python爬蟲(chóng)自動(dòng)化爬取b站實(shí)時(shí)彈幕實(shí)例方法的文章就介紹到這了,更多相關(guān)Python爬蟲(chóng)如何實(shí)現(xiàn)自動(dòng)化爬取b站實(shí)時(shí)彈幕內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于pycharm?python3.7成功安裝dlib庫(kù)的問(wèn)題
這篇文章主要介紹了pycharm?python3.7成功安裝dlib庫(kù)的解決方法,本文分步驟給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-12-12python人工智能tensorflow函數(shù)tf.layers.dense使用方法
這篇文章主要介紹了python人工智能tensorflow函數(shù)tf.layers.dense的使用方法,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05Python深度學(xué)習(xí)實(shí)戰(zhàn)PyQt5安裝與環(huán)境配置過(guò)程詳解
本系列面向 Python 小白,從零開(kāi)始實(shí)戰(zhàn)解說(shuō)應(yīng)用 QtDesigner 進(jìn)行 PyQt5 的項(xiàng)目實(shí)戰(zhàn)。什么叫從零開(kāi)始?從軟件安裝、環(huán)境配置開(kāi)始。不跳過(guò)一個(gè)細(xì)節(jié),不漏掉一行代碼,不省略一個(gè)例圖2021-10-10python OpenCV GrabCut使用實(shí)例解析
這篇文章主要介紹了python OpenCV GrabCut使用實(shí)例解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11解決TypeError: Object of type xxx is&
這篇文章主要介紹了解決TypeError: Object of type xxx is not JSON serializable錯(cuò)誤問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06python爬蟲(chóng) 基于requests模塊發(fā)起ajax的get請(qǐng)求實(shí)現(xiàn)解析
這篇文章主要介紹了python爬蟲(chóng) 基于requests模塊發(fā)起ajax的get請(qǐng)求實(shí)現(xiàn)解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-08-08百分百成功的全網(wǎng)最簡(jiǎn)約sklearn環(huán)境配置教程
這篇文章主要介紹了百分百成功的全網(wǎng)最簡(jiǎn)約sklearn環(huán)境配置教程,圖文全流程講解包簡(jiǎn)單易懂,百分百成功,需要的朋友可以參考下2023-03-03