#【何同學(xué)】我用108天開了個(gè)燈......視頻的cid：499893135
#彈幕所在地
url = "http://comment.bilibili.com/499893135.xml"
#發(fā)送請求
req = requests.get(url = url)
#獲取內(nèi)容響應(yīng)的內(nèi)容
html_byte = req.content
#將byte轉(zhuǎn)為str
html_str = str(html_byte,"utf-8")

還有個(gè)值得提一下的地方是，發(fā)送請求的請求頭可以加上，偽裝自己是瀏覽器訪問?？梢酝ㄟ^header參數(shù)，加上user-agent，獲取方式如下：

在這里插入圖片描述

那么，代碼就是下面這樣了：

#假裝自己是瀏覽器
header ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'
}
#【何同學(xué)】我用108天開了個(gè)燈......視頻的cid：499893135
#彈幕所在地
url = "http://comment.bilibili.com/499893135.xml"
#發(fā)送請求
req = requests.get(url = url, headers=header)
#獲取內(nèi)容響應(yīng)的內(nèi)容
html_byte = req.content
#將byte轉(zhuǎn)為str
html_str = str(html_byte,"utf-8")

2.解析彈幕

html_str是html文件的格式，我們需要對其進(jìn)行處理，來獲取我們想要的信息。這個(gè)時(shí)候，BeautifulSoup庫就要閃亮登場了,我們用它來處理得到的html文件

代碼如下（示例）：

#解析
    soup = BeautifulSoup(html,'html.parser')
    #找到html文件里的<d>標(biāo)簽
    results = soup.find_all('d')
    #把標(biāo)簽里的文本提取出來
    contents = [x.text for x in results]
    #存為字典
    dic ={"contents" : contents}

contents就是彈幕字符串列表了，存成字典是為了下一步…

3.存儲(chǔ)彈幕

把彈幕信息存儲(chǔ)成excel，也有好多庫可以用。比如：

xlwt庫
pandas庫

我們就用pandas庫把

代碼如下（示例）：

把用第二步得到的字典創(chuàng)建dataFrame，然后用pandas庫的一個(gè)API存下就行了

#用字典創(chuàng)建了一個(gè)電子表格
df = pd.DataFrame(dic)
df["contents"].to_excel('htx.xlsx')

4.總代碼

import requests
from bs4 import BeautifulSoup
import pandas as pd
 def main():
    html = askUrl()
    dic =analyse(html)
    writeExcel(dic)
 def askUrl():
    #假裝自己是瀏覽器
    header ={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36 Edg/98.0.1108.43'
    }
    #【何同學(xué)】我用108天開了個(gè)燈......視頻的cid：499893135
    #彈幕所在地
    url = "http://comment.bilibili.com/499893135.xml"
    req = requests.get(url = url, headers=header)
    html_byte = req.content#字節(jié)
    html_str = str(html_byte,"utf-8")
    return html_str
 def analyse(html):
    soup = BeautifulSoup(html,'html.parser')
    results = soup.find_all('d')
    #x.text表示要放到contents中的值
    contents = [x.text for x in results]
    #保存結(jié)果
    dic ={"contents" : contents}
    return dic
 def writeExcel(dic):
    #用字典創(chuàng)建了一個(gè)電子表格
    df = pd.DataFrame(dic)
    df["contents"].to_excel('htx.xlsx')
 if __name__ == '__main__':
    main()

三、總結(jié)

爬蟲簡單來說呢，就三步：

1.發(fā)送網(wǎng)絡(luò)請求，獲取資源

2.進(jìn)行搜索等操作來獲取有用信息

3.存儲(chǔ)信息

本篇文章就到這里了，希望能夠給你帶來幫助，也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

你會(huì)使用python爬蟲抓取彈幕嗎

目錄

前言

一、爬蟲是什么？

二、飼養(yǎng)步驟

1.請求彈幕

2.解析彈幕

3.存儲(chǔ)彈幕

4.總代碼

三、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

你會(huì)使用python爬蟲抓取彈幕嗎

目錄

前言

一、爬蟲是什么？

二、飼養(yǎng)步驟

1.請求彈幕

2.解析彈幕

3.存儲(chǔ)彈幕

4.總代碼

三、總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、爬蟲是什么？

二、飼養(yǎng)步驟