欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬取豆瓣電影排行榜(requests)的示例代碼

 更新時間:2021年02月18日 10:06:51   作者:Alvin_軒  
這篇文章主要介紹了python爬取豆瓣電影排行榜(requests),本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下

'''
  爬取豆瓣電影排行榜
  設(shè)計思路:
       1、先獲取電影類型的名字以及特有的編號
       2、將編號向ajax發(fā)送get請求獲取想要的數(shù)據(jù)
       3、將數(shù)據(jù)存放進excel表格中
'''

環(huán)境部署:

軟件安裝:

Python 3.7.6

官網(wǎng)地址:https://www.python.org/

安裝地址:https://www.python.org/ftp/python/3.7.6/python-3.7.6-amd64.exe

PyCharm 2020.2.2 x64 位

官網(wǎng)地址:https://www.jetbrains.com/pycharm/download/#section=windows

參考教程:http://www.dbjr.com.cn/article/197466.htm

模塊安裝(打開cmd或powershell進行下面的命令安裝【前提需要有python】):安裝requests模塊、lxml模塊(發(fā)送請求,xpath獲取數(shù)據(jù))

pip install requests #(主要用來發(fā)送請求,獲取響應(yīng))

pip install lxml #(主要引用里面的etree里面的xpath方法)

安裝xpathhelper插件(可以在網(wǎng)頁中復制相應(yīng)的節(jié)點xpath路徑并查看)

1、下載地址:

鏈接: https://pan.baidu.com/s/1zfpnrnFtZaxrgqrUX9y5Yg

提取碼: fmsu

2、window平臺下:
    · 把文件的后綴名crx改為rar,然后解壓到同名文件夾中
    · 打開谷歌的擴展程序 ——> 進入到管理管理擴展程序中
    · 打開開發(fā)者模式,通過加載已解壓的擴展程序,將插件導入
3、ios平臺下:
    · 直接將crx文件拖進擴展程序中

安裝xlwt模塊(將數(shù)據(jù)存放進excel表格)

pip install xlwt

項目中需要引入的模塊:

import requests
from lxml import etree
import xlwt
import time

使用流程:

  • 在列表中填寫所需要獲取的電影類型名
  • 輸入開始時獲取的start以及獲取多少數(shù)據(jù)的limit
  • 填寫所要輸出的excel表格的名字(代碼中默認douban.xls)
  • 程序運行結(jié)束后打開excel驗證數(shù)據(jù)是否獲取
  • 觀察自己所需的數(shù)據(jù)

完整代碼:

# encoding=utf8
# 編程者 :Alvin
'''
 爬取豆瓣電影排行榜
 設(shè)計思路:
 1、先獲取電影類型的名字以及特有的編號
 2、將編號向ajax發(fā)送get請求獲取想要的數(shù)據(jù)
 3、將數(shù)據(jù)存放進excel表格中
'''
import requests
from lxml import etree
import xlwt
import time

class DouBan():
 # 初始化數(shù)據(jù),獲取最外層的數(shù)據(jù)
 def __init__(self, name_list):
 self.headers = {
 "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
 "Connection": "close",
 "Referer": "https://movie.douban.com/"
 }
 # 獲取最外層的數(shù)據(jù),并拿到url中的type中的name 和 類型
 self.url = 'https://movie.douban.com/chart'
 self.dydata_list = []
 # 電影的類型名
 self.name_list = name_list
 # 實例化excel表格對象
 self.wb = xlwt.Workbook()


 # 通過電影的類型名字獲取對應(yīng)的類型號
 def get_data_typenum(self, name):
 for data in self.dydata_list:
 if data['name'] == name:
 typenum =data['dytype']
 else:
 continue
 return typenum

 # 獲取數(shù)據(jù)
 def get_data_p1(self):
 response = requests.get(self.url , headers = self.headers)
 # 判斷長度是否足夠大
 # print(len(response.content.decode()))
 return response.content.decode()

 # 獲取下一層的頁面數(shù)據(jù)
 def get_data_p2(self, typenum, num, limit):
 url = 'https://movie.douban.com/j/chart/top_list'
 params = {
 'type': typenum,
 'interval_id': '100:90',
 'action':'',
 'start': num*20,
 'limit': limit
 }
 response = requests.get(url,params=params,headers=self.headers)
 # print(response.json())
 return response.json()

 # 處理數(shù)據(jù)
 def data_parse_p1(self, data):
 html = etree.HTML(data)
 data_list = html.xpath('//div[@class="types"]/span/a/@href')
 # 用于收集類型名字
 name_list = []
 dytype_list = []
 # 用于收集類型號
 for data in data_list:
 name = data.split('?')[-1].split('&')[0].split('=')[-1]
 dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
 name_list.append(name)
 dytype_list.append(dytype)
 for (name,dytype) in zip(name_list,dytype_list):
 dydict = {}
 dydict['name'] = name
 dydict['dytype'] = dytype
 self.dydata_list.append(dydict)
 # print(self.dydata_list)
 return self.dydata_list

 def data_parse_p2(self, data_list,name):
 print(len(data_list))
 douban = self.wb.add_sheet(name)
 style = xlwt.XFStyle() # 初始化一個style對象,用來保存excel的樣式
 font = xlwt.Font() # 創(chuàng)建一個font對象,用來保存對字體進行的操作
 font.name = '微軟雅黑' # 字體設(shè)置為'微軟雅黑'
 font.bold = True # 字體加粗
 al = xlwt.Alignment() # 創(chuàng)建一個對齊對啊想,用來改變文本內(nèi)容的字體
 style.font = font # 將字體信息保存到style對象中
 style.alignment = al

 # 水平對齊方式、水平居中
 al.horz = 0x02
 # 垂直對齊方式、垂直居中
 al.vert = 0x01

 # 電影的標題
 douban.col(0).width = 256 * 25
 # 電影演員的名字
 douban.col(1).width = 256 * 50
 # 電影上映的年份
 douban.col(2).width = 256 * 15
 # 電影上映的國家
 douban.col(3).width = 256 * 15
 # 電影的標簽
 douban.col(4).width = 256 * 20
 # 電影的評分
 douban.col(5).width = 256 * 8
 # 豆瓣中該電影的頁面鏈接
 douban.col(6).width = 256 * 40

 douban.write(0, 0, '電影標題', style)
 douban.write(0, 1, '電影演員名字', style)
 douban.write(0, 2, '電影上映年份', style)
 douban.write(0, 3, '電影上映國家', style)
 douban.write(0, 4, '電影標簽', style)
 douban.write(0, 5, '電影評分', style)
 douban.write(0, 6, '豆瓣中該電影的頁面鏈接', style)
 row = 1
 for data in data_list:
 # 電影的標題
 title = data['title']
 # 電影演員的名字
 actors = data['actors']
 # 電影上映的年份
 release_date = data['release_date']
 # 電影上映的國家
 regions = data['regions'][0]
 # 電影的標簽
 types = data['types']
 # 電影評分
 score = data['score']
 # 豆瓣查看的鏈接
 link = data['url']
 douban.write(row, 0, title)
 douban.write(row, 1, actors)
 douban.write(row, 2, release_date)
 douban.write(row, 3, regions)
 douban.write(row, 4, types)
 douban.write(row, 5, score)
 douban.write(row, 6, link)
 row += 1
 self.wb.save('douban.xls')


 # 運行程序
 def run(self, num, limit):
 # 獲取第一層中的所需要的類型名字和數(shù)字
 self.data_parse_p1(self.get_data_p1())
 for name in self.name_list:
 typenum = self.get_data_typenum(name)
 # 向指定的分類進行數(shù)據(jù)的訪問
 data_list = self.get_data_p2(typenum,num,limit)
 # 對獲取的數(shù)據(jù)進行解析保存
 self.data_parse_p2(data_list,name)


if __name__ == '__main__':
 # 需要查看的類型
 douban = DouBan(['喜劇','懸疑','驚悚'])
 # 需要查看的開始值start,以及需要查看的數(shù)量limit
 douban.run(0,100)
 time.sleep(2)

效果圖pycharm 運行臺

excel表格顯示

本案例筆者的想法是打算先獲取到每一個電影類型的前100個數(shù)據(jù),然后在excel表格中進行評分的篩選,最后觀察現(xiàn)階段某個電影類型中哪些電影在豆瓣電影中評分較高的

到此這篇關(guān)于python爬取豆瓣電影排行榜(requests)的文章就介紹到這了,更多相關(guān)python爬取豆瓣電影內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python33 urllib2使用方法細節(jié)講解

    python33 urllib2使用方法細節(jié)講解

    Python 標準庫中有很多實用的工具類,這里總結(jié)一些 urllib2 的使用細節(jié):Proxy 的設(shè)置、Timeout 設(shè)置、在 HTTP Request 中加入特定的 、Cookie、使用 HTTP 的 PUT 和 DELETE 方法
    2013-12-12
  • 基于K-Means聚類算法演示及可視化展示

    基于K-Means聚類算法演示及可視化展示

    這篇文章主要介紹了基于K-Means聚類算法演示及可視化展示,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • 跟老齊學Python之有容乃大的list(1)

    跟老齊學Python之有容乃大的list(1)

    這一講中的list類型,也是python的一種數(shù)據(jù)類型。翻譯為:列表。LIST在python中具有非常強大的功能。
    2014-09-09
  • python如何實現(xiàn)lazy segment tree惰性段樹算法

    python如何實現(xiàn)lazy segment tree惰性段樹算法

    LazySegmentTree(惰性段樹)算法是一種數(shù)據(jù)結(jié)構(gòu),專門用于高效處理區(qū)間查詢和更新操作,它利用延遲更新技術(shù)(LazyPropagation),僅在必要時執(zhí)行實際更新,以提升效率,此結(jié)構(gòu)將數(shù)組表達為二叉樹,每個節(jié)點表示一個數(shù)組區(qū)間
    2024-10-10
  • 聊聊Python代碼中if?__name__?==?‘__main__‘的作用是什么

    聊聊Python代碼中if?__name__?==?‘__main__‘的作用是什么

    一個python文件通常有兩種使用方法,第一是作為腳本直接執(zhí)行,第二是 import 到其他的python腳本中被調(diào)用執(zhí)行,這篇文章主要給大家介紹了關(guān)于Python代碼中if?__name__?==?‘__main__‘的作用是什么的相關(guān)資料,需要的朋友可以參考下
    2022-03-03
  • python url 參數(shù)修改方法

    python url 參數(shù)修改方法

    今天小編就為大家分享一篇python url 參數(shù)修改方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • 用python記錄運行pid,并在需要時kill掉它們的實例

    用python記錄運行pid,并在需要時kill掉它們的實例

    下面小編就為大家?guī)硪黄胮ython記錄運行pid,并在需要時kill掉它們的實例。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2017-01-01
  • Python創(chuàng)建自己的加密貨幣的示例

    Python創(chuàng)建自己的加密貨幣的示例

    這篇文章主要介紹了Python創(chuàng)建自己的加密貨幣的示例,幫助大家更好的理解和學習使用python,感興趣的朋友可以了解下
    2021-03-03
  • Python中給字典排序的四種方法

    Python中給字典排序的四種方法

    我們經(jīng)常在計算機等級考試中遇到詞頻排序的問題,我們一般先通過生成字典的方法,統(tǒng)計詞的頻次,然后給字典排序,那么如何快速地給字典按照鍵值進行排序呢,本文主要介紹了Python中給字典排序的四種方法,感興趣的可以了解一下
    2023-08-08
  • Python 居然可以在 Excel 中畫畫你知道嗎

    Python 居然可以在 Excel 中畫畫你知道嗎

    哈嘍,哈嘍~對于Excel大家想到的是不是各種圖表制作,今天我們來個不一樣的。十字繡大家都知道吧,今天咱們來玩?zhèn)€電子版的十字繡
    2022-02-02

最新評論