python爬取豆瓣評(píng)論制作詞云代碼
一、爬取豆瓣熱評(píng)
該程序進(jìn)行爬取豆瓣熱評(píng),將爬取的評(píng)論(json文件)保存到與該python文件同一級(jí)目錄下
注意需要下載這幾個(gè)庫:requests、lxml、json、time
import requests
from lxml import etree
import json
import time
class Spider(object):
def __init__(self):
#seif.ure='https://movie.douban.com/subject/23885074/reviews?start=0'
self.headers={
'User-Agent':'Mozilla/5.0(Windows NT6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/75.0.3700.100Safari/537.36'
}
def get_data(self,url):
response = requests.get(url,headers=self.headers).content.decode('utf-8')
page=etree.HTML(response)#xpath 對(duì)象
#獲取所有數(shù)據(jù)節(jié)點(diǎn)
node_list = page.xpath('//div[@class="review-list "]/div')
for node in node_list:
#作者
author = node.xpath('.//header[@class="main-hd"]//a[2]/text()')[0]
#評(píng)論
text = node.xpath('string(.//div[@class="main-bd"]//div[@class="short-content"])')
items={
'author':author,
'text':text.strip()
}
#持久化存儲(chǔ)
with open('yewen.json','a',encoding='utf-8') as f:
f.write(json.dumps(items,ensure_ascii=False)+'\n')
def run(self):
for i in range(1,47):
url='https://movie.douban.com/subject/26885074/reviews?start{}'.format(i*20)
print('正在爬取第{}頁'.format(i))
self.get_data(url)
time.sleep(3)
if __name__=='__main__':
s=Spider()
s.run()
二、制作詞云
該程序?qū)son中的數(shù)據(jù)進(jìn)行處理,提取重要信息,并用wordcloud庫制作詞云圖片,同樣保存到與該python文件同一級(jí)目錄下
注意需要下載這幾個(gè)庫:jieba、wordcloud、json
import jieba
from wordcloud import WordCloud
import json
f= open("yewen.json", "r", encoding="utf-8")
data_list= f.readlines()
str =''
for data in data_list:
text= json.loads(data)['text']
str +=text
#替換無關(guān)緊要的詞語
result_str = str.replace('展開', '').replace('這篇','').replace('影評(píng)','').replace('電影','').replace('這部', '').replace('可能', '').replace('劇情','')
cut_text = jieba.lcut(result_str)
result = " ".join(cut_text)
wc = WordCloud(font_path='simhei.ttf',
background_color="white",
max_words=600,
width=1000,
height=1000,
min_font_size=20,
max_font_size=100,)
#mast=plt.imreda('snake.jpg')#背景圖片
wc.generate(result)#轉(zhuǎn)化為詞云的操作
wc.to_file("text.jpg")#保存
f.close()

總結(jié)
到此這篇關(guān)于python爬取豆瓣評(píng)論制作詞云代碼的文章就介紹到這了,更多相關(guān)python爬取豆瓣評(píng)論內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python判斷兩個(gè)序列的成員是否一樣的實(shí)例代碼
在本篇文章里小編給大家整理了關(guān)于python判斷兩個(gè)序列的成員是否一樣的實(shí)例代碼,需要的朋友們參考下。2020-03-03
Python使用sys.exc_info()方法獲取異常信息
這篇文章主要介紹了Python使用sys.exc_info()方法獲取異常信息,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07
Python從單元素字典中獲取key和value的實(shí)例
今天小編就為大家分享一篇Python從單元素字典中獲取key和value的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-12-12
Python Unittest自動(dòng)化單元測(cè)試框架詳解
這篇文章主要為大家詳細(xì)介紹了Python Unittest自動(dòng)化單元測(cè)試框架的相關(guān)資料,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-04-04
python數(shù)據(jù)結(jié)構(gòu)輸入輸出及控制和異常
這篇文章主要介紹了python數(shù)據(jù)結(jié)構(gòu)輸入輸出及控制和異常,上一章節(jié)中我們介紹了python的基礎(chǔ)數(shù)據(jù)類型和集合數(shù)據(jù)類型,這章節(jié)給大家介紹一下python的輸入輸出、控制和異常,對(duì)數(shù)據(jù)類型感興趣的同學(xué)可以查看一下文章<BR>2021-12-12
PyTorch中torch.nn.Linear實(shí)例詳解
torch.nn是包含了構(gòu)筑神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)基本元素的包,在這個(gè)包中可以找到任意的神經(jīng)網(wǎng)絡(luò)層,下面這篇文章主要給大家介紹了關(guān)于PyTorch中torch.nn.Linear的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-06-06
Django與圖表的數(shù)據(jù)交互的實(shí)現(xiàn)
本文主要介紹了Django與圖表的數(shù)據(jù)交互的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08

