Python爬蟲自動化爬取b站實(shí)時彈幕實(shí)例方法
最近央視新聞記者王冰冰以清除可愛和專業(yè)的新聞業(yè)務(wù)水平深受眾多網(wǎng)友喜愛,b站也有很多up主剪輯了關(guān)于王冰冰的視頻。我們都是知道b站是一個彈幕網(wǎng)站,那你知道如何爬取b站實(shí)時彈幕嗎?本文以王冰冰視頻彈幕為例,向大家介紹Python爬蟲實(shí)現(xiàn)自動化爬取b站實(shí)時彈幕的過程。
1、導(dǎo)入需要的庫
import jieba # 分詞 from wordcloud import WordCloud # 詞云 from PIL import Image # 圖片處理 import numpy as np # 圖片處理 import matplotlib.pyplot as plt # 畫圖
2、 jieba分詞
所謂的分詞就是將一句話分成一個或幾個詞語的形式,
分詞代碼
# 讀取停用詞庫,注意編碼應(yīng)為‘utf8' f = open('小夜斗的停用詞表.txt', encoding='utf8') stopwords = f.read().split('\n') print(stopwords) # 打印停用詞 f.close() # 關(guān)閉停用詞文件
3、打印出的為一個停用詞列表
with open("冰冰vlog2.txt", "r", encoding='utf8') as fp: text = fp.read()
4、讀取冰冰彈幕數(shù)據(jù)文件的操作,將其保存到text變量中
segs = jieba.cut(text) # 進(jìn)行jieba分詞 mytext_list = [] # 構(gòu)建一個容納過濾掉停用詞的冰冰彈幕數(shù)據(jù)文件 # 文本清洗 for seg in segs: # 循環(huán)遍歷每一個分詞文本 # 如果該詞不屬于停用詞表 并且非空 長度不為1 if seg not in stopwords and seg != "" and len(seg) != 1: # 將該詞語添加到mytext_list列表中 mytext_list.append(seg.replace(" ", "")) print(mytext_list) # 打印過濾后的冰冰彈幕數(shù)據(jù)
5、獲取過濾停用詞后的冰冰彈幕數(shù)據(jù)
cloud_text = ",".join(mytext_list) # 連接列表里面的詞語 print(cloud_text)
到此這篇關(guān)于Python爬蟲自動化爬取b站實(shí)時彈幕實(shí)例方法的文章就介紹到這了,更多相關(guān)Python爬蟲如何實(shí)現(xiàn)自動化爬取b站實(shí)時彈幕內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于pycharm?python3.7成功安裝dlib庫的問題
這篇文章主要介紹了pycharm?python3.7成功安裝dlib庫的解決方法,本文分步驟給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2021-12-12python人工智能tensorflow函數(shù)tf.layers.dense使用方法
這篇文章主要介紹了python人工智能tensorflow函數(shù)tf.layers.dense的使用方法,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05Python深度學(xué)習(xí)實(shí)戰(zhàn)PyQt5安裝與環(huán)境配置過程詳解
本系列面向 Python 小白,從零開始實(shí)戰(zhàn)解說應(yīng)用 QtDesigner 進(jìn)行 PyQt5 的項(xiàng)目實(shí)戰(zhàn)。什么叫從零開始?從軟件安裝、環(huán)境配置開始。不跳過一個細(xì)節(jié),不漏掉一行代碼,不省略一個例圖2021-10-10python OpenCV GrabCut使用實(shí)例解析
這篇文章主要介紹了python OpenCV GrabCut使用實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-11-11解決TypeError: Object of type xxx is&
這篇文章主要介紹了解決TypeError: Object of type xxx is not JSON serializable錯誤問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-06-06python爬蟲 基于requests模塊發(fā)起ajax的get請求實(shí)現(xiàn)解析
這篇文章主要介紹了python爬蟲 基于requests模塊發(fā)起ajax的get請求實(shí)現(xiàn)解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-08-08百分百成功的全網(wǎng)最簡約sklearn環(huán)境配置教程
這篇文章主要介紹了百分百成功的全網(wǎng)最簡約sklearn環(huán)境配置教程,圖文全流程講解包簡單易懂,百分百成功,需要的朋友可以參考下2023-03-03