欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬取網(wǎng)頁數(shù)據(jù)到保存到csv

 更新時間:2022年01月07日 09:10:50   作者:wh來啦  
大家好,本篇文章主要講的是python爬取網(wǎng)頁數(shù)據(jù)到保存到csv,感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下,方便下次瀏覽

任務(wù)需求:

爬取一個網(wǎng)址,將網(wǎng)址的數(shù)據(jù)保存到csv中。

爬取網(wǎng)址:

https://www.iqiyi.com/ranks1/1/0?vfrm=pcw_home&vfrmblk=&vfrmrst=712211_dianyingbang_rebo_title

網(wǎng)址頁面:

代碼實現(xiàn)結(jié)果:

代碼實現(xiàn):

導(dǎo)入包:

import requests
import parsel
import csv

 設(shè)置csv文件格式:

        設(shè)計未來數(shù)據(jù)的存儲形式。

#打開文件
f = open('whxixi.csv', mode='a',encoding='utf-8',newline='')
 
#文件列名
csv_writer= csv.DictWriter(f,fieldnames=['電影名字',
    '彈幕總數(shù)',
    '新增評論',
    '電影鏈接',
    '電影日期',
    '電影類型',
    '電影演員',
    '電影介紹'])
 
#輸入文件列名
csv_writer.writeheader()

 獲取數(shù)據(jù):

      獲取網(wǎng)頁的html,得到原始的數(shù)據(jù)( 得到的數(shù)據(jù)保存在response中)。

#選擇愛奇藝熱播榜的網(wǎng)址
url='https://www.iqiyi.com/ranks1/1/0?vfrm=pcw_home&vfrmblk=&vfrmrst=712211_dianyingbang_rebo_title'
 
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'}
 
#獲取網(wǎng)址內(nèi)容,賦值 到response
response = requests.get(url=url, headers=headers)

加工數(shù)據(jù):

        對得到的網(wǎng)頁原始數(shù)據(jù)進行加工處理,即提取出有用的數(shù)據(jù)。備注,根據(jù)爬取的網(wǎng)頁進行調(diào)整css()里面的內(nèi)容,不同網(wǎng)站頁面的結(jié)構(gòu)不同,根據(jù)需要進行調(diào)整。(F12開發(fā)者模式)

#把response.text轉(zhuǎn)換為selector對象 可以使用re, css,x-path選擇器
webtext = parsel.Selector(response.text)
 
#第一步篩選數(shù)據(jù),形成列表,可以使下次查找形成循環(huán)
list=webtext.css('.rvi__list a')
 
#再上一步的基礎(chǔ)上,使用循環(huán),進行提取數(shù)據(jù)
for li in list:
    title= li.css(' .rvi__con .rvi__tit1::text').get()
    bulletcomments =li.css('.rvi__con .rvi__tag__box span:nth-child(1)::text').get() #彈幕總數(shù)
    newcomments =li.css(' .rvi__con .rvi__tag__box span:nth-child(2)::text').get() #新增評論數(shù)
    href = li.css('  ::attr(href)').get().replace('//','http://')
    movie_info=li.css(' .rvi__con .rvi__type1 span::text').get().split('/')
    year = movie_info[0].strip()
    type = movie_info[1].strip()
    actor = movie_info[2].strip()
    filmIntroduction=li.css(' .rvi__con p::text').get().strip()
    dic={
        '電影名字':title,
        '彈幕總數(shù)':bulletcomments,
        '新增評論':newcomments,
        '電影鏈接':href,
        '電影日期':year,
        '電影類型':type,
        '電影演員':actor,
        '電影介紹':filmIntroduction
    }
    csv_writer.writerow(dic)  #將數(shù)據(jù)輸入到csv文件中

 完整代碼:

import requests
import parsel
import csv
f = open('whxixi.csv', mode='a',encoding='utf-8',newline='')
 
csv_writer= csv.DictWriter(f,fieldnames=['電影名字',
    '彈幕總數(shù)',
    '新增評論',
    '電影鏈接',
    '電影日期',
    '電影類型',
    '電影演員',
    '電影介紹'])
 
csv_writer.writeheader()
 
#選擇愛奇藝熱播榜的網(wǎng)址
url='https://www.iqiyi.com/ranks1/1/0?vfrm=pcw_home&vfrmblk=&vfrmrst=712211_dianyingbang_rebo_title'
 
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'}
 
#獲取網(wǎng)址內(nèi)容,賦值 到response
response = requests.get(url=url, headers=headers)
 
#把response.text轉(zhuǎn)換為selector對象 可以使用re, css,x-path選擇器
webtext = parsel.Selector(response.text)
 
#第一步篩選數(shù)據(jù),形成列表,可以使下次查找形成循環(huán)
list=webtext.css('.rvi__list a')
 
#再上一步的基礎(chǔ)上,使用循環(huán),進行提取數(shù)據(jù)
for li in list:
    title= li.css(' .rvi__con .rvi__tit1::text').get()
    bulletcomments =li.css('.rvi__con .rvi__tag__box span:nth-child(1)::text').get() #彈幕總數(shù)
    newcomments =li.css(' .rvi__con .rvi__tag__box span:nth-child(2)::text').get() #新增評論數(shù)
    href = li.css('  ::attr(href)').get().replace('//','http://')
    movie_info=li.css(' .rvi__con .rvi__type1 span::text').get().split('/')
    year = movie_info[0].strip()
    type = movie_info[1].strip()
    actor = movie_info[2].strip()
    filmIntroduction=li.css(' .rvi__con p::text').get().strip()
    dic={
        '電影名字':title,
        '彈幕總數(shù)':bulletcomments,
        '新增評論':newcomments,
        '電影鏈接':href,
        '電影日期':year,
        '電影類型':type,
        '電影演員':actor,
        '電影介紹':filmIntroduction
    }
    csv_writer.writerow(dic)  #將數(shù)據(jù)輸入到csv文件中

總結(jié)

到此這篇關(guān)于python爬取網(wǎng)頁數(shù)據(jù)到保存到csv的文章就介紹到這了,更多相關(guān)python爬取網(wǎng)頁數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python實現(xiàn)圖片變亮或者變暗的方法

    python實現(xiàn)圖片變亮或者變暗的方法

    這篇文章主要介紹了python實現(xiàn)圖片變亮或者變暗的方法,涉及Python中Image模塊操作圖片的相關(guān)技巧,需要的朋友可以參考下
    2015-06-06
  • opencv實現(xiàn)圖像縮放效果

    opencv實現(xiàn)圖像縮放效果

    這篇文章主要為大家詳細(xì)介紹了opencv實現(xiàn)圖像縮放效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-03-03
  • Django項目中添加ldap登陸認(rèn)證功能的實現(xiàn)

    Django項目中添加ldap登陸認(rèn)證功能的實現(xiàn)

    這篇文章主要介紹了Django項目中添加ldap登陸認(rèn)證功能的實現(xiàn),詳細(xì)介紹了django-auth-ldap的使用方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-04-04
  • wxPython的安裝與使用教程

    wxPython的安裝與使用教程

    wxPython是Python語言的一套優(yōu)秀的GUI圖形庫。wxPython可以很方便的創(chuàng)建完整的、功能鍵全的GUI用戶界面。這篇文章給大家介紹了wxPython的安裝與使用,感興趣的朋友一起看看吧
    2018-08-08
  • Python教程教你如何去除背景

    Python教程教你如何去除背景

    這篇文章主要介紹了Python教程教你如何去除背景,修飾圖片中的頭發(fā)是設(shè)計師最煩人的任務(wù)之一,下面文章將讓大家學(xué)會怎么輕松摳圖去背景,需要的小伙伴可以參考一下
    2022-02-02
  • 使用SimpleITK讀取和保存NIfTI/DICOM文件實例

    使用SimpleITK讀取和保存NIfTI/DICOM文件實例

    這篇文章主要介紹了使用SimpleITK讀取和保存NIfTI/DICOM文件實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • Django 狀態(tài)保持搭配與存儲的實現(xiàn)

    Django 狀態(tài)保持搭配與存儲的實現(xiàn)

    本文主要介紹了Django 狀態(tài)保持搭配與存儲的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-06-06
  • 超簡單的Matplotlib安裝與配置教程

    超簡單的Matplotlib安裝與配置教程

    Matplotlib是Python的第三方繪圖庫,它非常類似于MATLAB,在使用Matplotlib軟件包之前需要對其進行安裝,這篇文章主要給大家介紹了關(guān)于Matplotlib安裝與配置的相關(guān)資料,需要的朋友可以參考下
    2023-09-09
  • 分析總結(jié)Python數(shù)據(jù)化運營KMeans聚類

    分析總結(jié)Python數(shù)據(jù)化運營KMeans聚類

    本文主要以 Python 使用 Keans 進行聚類分析的簡單舉例應(yīng)用介紹聚類分析,它是探索性數(shù)據(jù)挖掘的主要任務(wù),也是統(tǒng)計數(shù)據(jù)分析的常用技術(shù),用于許多領(lǐng)域
    2021-08-08
  • Python函數(shù)和文件操作詳情

    Python函數(shù)和文件操作詳情

    這篇文章主要介紹了Python函數(shù)和文件操作詳情,函數(shù)在編程中是一個很重要的角色,我們可以將若干個語句組合形成一個函數(shù),它可以接受傳入?yún)?shù),并在內(nèi)部進行相關(guān)計算后產(chǎn)生輸出,下文詳細(xì)內(nèi)容需要的小伙伴可以參考一下
    2022-05-05

最新評論