python爬取豆瓣電影排行榜(requests)的示例代碼
'''
爬取豆瓣電影排行榜
設(shè)計(jì)思路:
1、先獲取電影類型的名字以及特有的編號(hào)
2、將編號(hào)向ajax發(fā)送get請(qǐng)求獲取想要的數(shù)據(jù)
3、將數(shù)據(jù)存放進(jìn)excel表格中
'''
環(huán)境部署:
軟件安裝:
Python 3.7.6
官網(wǎng)地址:https://www.python.org/
安裝地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe
PyCharm 2020.2.2 x64 位
官網(wǎng)地址:https://www.jetbrains.com/pycharm/download/#section=windows
參考教程:http://www.dbjr.com.cn/article/197466.htm
模塊安裝(打開cmd或powershell進(jìn)行下面的命令安裝【前提需要有python】):安裝requests模塊、lxml模塊(發(fā)送請(qǐng)求,xpath獲取數(shù)據(jù))
pip install requests #(主要用來(lái)發(fā)送請(qǐng)求,獲取響應(yīng)) pip install lxml #(主要引用里面的etree里面的xpath方法)
安裝xpathhelper插件(可以在網(wǎng)頁(yè)中復(fù)制相應(yīng)的節(jié)點(diǎn)xpath路徑并查看)
1、下載地址:
鏈接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg
提取碼: fmsu
2、window平臺(tái)下:
· 把文件的后綴名crx改為rar,然后解壓到同名文件夾中
· 打開谷歌的擴(kuò)展程序 ——> 進(jìn)入到管理管理擴(kuò)展程序中
· 打開開發(fā)者模式,通過(guò)加載已解壓的擴(kuò)展程序,將插件導(dǎo)入
3、ios平臺(tái)下:
· 直接將crx文件拖進(jìn)擴(kuò)展程序中
安裝xlwt模塊(將數(shù)據(jù)存放進(jìn)excel表格)
pip install xlwt
項(xiàng)目中需要引入的模塊:
import requests from lxml import etree import xlwt import time
使用流程:
- 在列表中填寫所需要獲取的電影類型名
- 輸入開始時(shí)獲取的start以及獲取多少數(shù)據(jù)的limit
- 填寫所要輸出的excel表格的名字(代碼中默認(rèn)douban.xls)
- 程序運(yùn)行結(jié)束后打開excel驗(yàn)證數(shù)據(jù)是否獲取
- 觀察自己所需的數(shù)據(jù)
完整代碼:
# encoding=utf8
# 編程者 :Alvin
'''
爬取豆瓣電影排行榜
設(shè)計(jì)思路:
1、先獲取電影類型的名字以及特有的編號(hào)
2、將編號(hào)向ajax發(fā)送get請(qǐng)求獲取想要的數(shù)據(jù)
3、將數(shù)據(jù)存放進(jìn)excel表格中
'''
import requests
from lxml import etree
import xlwt
import time
class DouBan():
# 初始化數(shù)據(jù),獲取最外層的數(shù)據(jù)
def __init__(self, name_list):
self.headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
"Connection": "close",
"Referer": "https://movie.douban.com/"
}
# 獲取最外層的數(shù)據(jù),并拿到url中的type中的name 和 類型
self.url = 'https://movie.douban.com/chart'
self.dydata_list = []
# 電影的類型名
self.name_list = name_list
# 實(shí)例化excel表格對(duì)象
self.wb = xlwt.Workbook()
# 通過(guò)電影的類型名字獲取對(duì)應(yīng)的類型號(hào)
def get_data_typenum(self, name):
for data in self.dydata_list:
if data['name'] == name:
typenum =data['dytype']
else:
continue
return typenum
# 獲取數(shù)據(jù)
def get_data_p1(self):
response = requests.get(self.url , headers = self.headers)
# 判斷長(zhǎng)度是否足夠大
# print(len(response.content.decode()))
return response.content.decode()
# 獲取下一層的頁(yè)面數(shù)據(jù)
def get_data_p2(self, typenum, num, limit):
url = 'https://movie.douban.com/j/chart/top_list'
params = {
'type': typenum,
'interval_id': '100:90',
'action':'',
'start': num*20,
'limit': limit
}
response = requests.get(url,params=params,headers=self.headers)
# print(response.json())
return response.json()
# 處理數(shù)據(jù)
def data_parse_p1(self, data):
html = etree.HTML(data)
data_list = html.xpath('//div[@class="types"]/span/a/@href')
# 用于收集類型名字
name_list = []
dytype_list = []
# 用于收集類型號(hào)
for data in data_list:
name = data.split('?')[-1].split('&')[0].split('=')[-1]
dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
name_list.append(name)
dytype_list.append(dytype)
for (name,dytype) in zip(name_list,dytype_list):
dydict = {}
dydict['name'] = name
dydict['dytype'] = dytype
self.dydata_list.append(dydict)
# print(self.dydata_list)
return self.dydata_list
def data_parse_p2(self, data_list,name):
print(len(data_list))
douban = self.wb.add_sheet(name)
style = xlwt.XFStyle() # 初始化一個(gè)style對(duì)象,用來(lái)保存excel的樣式
font = xlwt.Font() # 創(chuàng)建一個(gè)font對(duì)象,用來(lái)保存對(duì)字體進(jìn)行的操作
font.name = '微軟雅黑' # 字體設(shè)置為'微軟雅黑'
font.bold = True # 字體加粗
al = xlwt.Alignment() # 創(chuàng)建一個(gè)對(duì)齊對(duì)啊想,用來(lái)改變文本內(nèi)容的字體
style.font = font # 將字體信息保存到style對(duì)象中
style.alignment = al
# 水平對(duì)齊方式、水平居中
al.horz = 0x02
# 垂直對(duì)齊方式、垂直居中
al.vert = 0x01
# 電影的標(biāo)題
douban.col(0).width = 256 * 25
# 電影演員的名字
douban.col(1).width = 256 * 50
# 電影上映的年份
douban.col(2).width = 256 * 15
# 電影上映的國(guó)家
douban.col(3).width = 256 * 15
# 電影的標(biāo)簽
douban.col(4).width = 256 * 20
# 電影的評(píng)分
douban.col(5).width = 256 * 8
# 豆瓣中該電影的頁(yè)面鏈接
douban.col(6).width = 256 * 40
douban.write(0, 0, '電影標(biāo)題', style)
douban.write(0, 1, '電影演員名字', style)
douban.write(0, 2, '電影上映年份', style)
douban.write(0, 3, '電影上映國(guó)家', style)
douban.write(0, 4, '電影標(biāo)簽', style)
douban.write(0, 5, '電影評(píng)分', style)
douban.write(0, 6, '豆瓣中該電影的頁(yè)面鏈接', style)
row = 1
for data in data_list:
# 電影的標(biāo)題
title = data['title']
# 電影演員的名字
actors = data['actors']
# 電影上映的年份
release_date = data['release_date']
# 電影上映的國(guó)家
regions = data['regions'][0]
# 電影的標(biāo)簽
types = data['types']
# 電影評(píng)分
score = data['score']
# 豆瓣查看的鏈接
link = data['url']
douban.write(row, 0, title)
douban.write(row, 1, actors)
douban.write(row, 2, release_date)
douban.write(row, 3, regions)
douban.write(row, 4, types)
douban.write(row, 5, score)
douban.write(row, 6, link)
row += 1
self.wb.save('douban.xls')
# 運(yùn)行程序
def run(self, num, limit):
# 獲取第一層中的所需要的類型名字和數(shù)字
self.data_parse_p1(self.get_data_p1())
for name in self.name_list:
typenum = self.get_data_typenum(name)
# 向指定的分類進(jìn)行數(shù)據(jù)的訪問(wèn)
data_list = self.get_data_p2(typenum,num,limit)
# 對(duì)獲取的數(shù)據(jù)進(jìn)行解析保存
self.data_parse_p2(data_list,name)
if __name__ == '__main__':
# 需要查看的類型
douban = DouBan(['喜劇','懸疑','驚悚'])
# 需要查看的開始值start,以及需要查看的數(shù)量limit
douban.run(0,100)
time.sleep(2)
效果圖pycharm 運(yùn)行臺(tái)

excel表格顯示

本案例筆者的想法是打算先獲取到每一個(gè)電影類型的前100個(gè)數(shù)據(jù),然后在excel表格中進(jìn)行評(píng)分的篩選,最后觀察現(xiàn)階段某個(gè)電影類型中哪些電影在豆瓣電影中評(píng)分較高的
到此這篇關(guān)于python爬取豆瓣電影排行榜(requests)的文章就介紹到這了,更多相關(guān)python爬取豆瓣電影內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python33 urllib2使用方法細(xì)節(jié)講解
Python 標(biāo)準(zhǔn)庫(kù)中有很多實(shí)用的工具類,這里總結(jié)一些 urllib2 的使用細(xì)節(jié):Proxy 的設(shè)置、Timeout 設(shè)置、在 HTTP Request 中加入特定的 、Cookie、使用 HTTP 的 PUT 和 DELETE 方法2013-12-12
python如何實(shí)現(xiàn)lazy segment tree惰性段樹算法
LazySegmentTree(惰性段樹)算法是一種數(shù)據(jù)結(jié)構(gòu),專門用于高效處理區(qū)間查詢和更新操作,它利用延遲更新技術(shù)(LazyPropagation),僅在必要時(shí)執(zhí)行實(shí)際更新,以提升效率,此結(jié)構(gòu)將數(shù)組表達(dá)為二叉樹,每個(gè)節(jié)點(diǎn)表示一個(gè)數(shù)組區(qū)間2024-10-10
聊聊Python代碼中if?__name__?==?‘__main__‘的作用是什么
一個(gè)python文件通常有兩種使用方法,第一是作為腳本直接執(zhí)行,第二是 import 到其他的python腳本中被調(diào)用執(zhí)行,這篇文章主要給大家介紹了關(guān)于Python代碼中if?__name__?==?‘__main__‘的作用是什么的相關(guān)資料,需要的朋友可以參考下2022-03-03
用python記錄運(yùn)行pid,并在需要時(shí)kill掉它們的實(shí)例
下面小編就為大家?guī)?lái)一篇用python記錄運(yùn)行pid,并在需要時(shí)kill掉它們的實(shí)例。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-01-01

