欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲(chóng)之自動(dòng)爬取某車之家各車銷售數(shù)據(jù)

 更新時(shí)間:2021年06月02日 16:39:16   作者:程序員啟航  
應(yīng)朋友要求,幫忙采集某車之家的一些汽車品牌的銷售數(shù)據(jù),包含購(gòu)車時(shí)間、車型、經(jīng)銷商、裸車價(jià)等一類信息. 今天我們就簡(jiǎn)單演示一下采集過(guò)程,大家可以根據(jù)自己的興趣進(jìn)行拓展.比如采集自己喜歡的品牌汽車數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析等等,需要的朋友可以參考下

一、目標(biāo)網(wǎng)頁(yè)分析

目標(biāo)網(wǎng)站是某車之家關(guān)于品牌汽車車型的口碑模塊相關(guān)數(shù)據(jù),比如我們演示的案例奧迪Q5L的口碑頁(yè)面如下:

https://k.autohome.com.cn/4851/#pvareaid=3311678

為了演示方式,大家可以直接打開(kāi)上面這個(gè)網(wǎng)址,然后拖到全部口碑位置,找到我們本次采集需要的字段如下圖所示:

Image

采集字段

我們進(jìn)行翻頁(yè)發(fā)現(xiàn),瀏覽器網(wǎng)址發(fā)生了變化,大家可以對(duì)下如下幾頁(yè)的網(wǎng)址找出規(guī)律:

https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList

對(duì)于上面寫網(wǎng)址,我們發(fā)現(xiàn)可變部分是車型(如4851)以及頁(yè)碼(如2,3,4),于是我們可以構(gòu)建url參數(shù)如下:

# typeid是車型,page是頁(yè)碼
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'

二、數(shù)據(jù)請(qǐng)求

通過(guò)簡(jiǎn)單的測(cè)試,發(fā)現(xiàn)似乎不存在反爬,那就簡(jiǎn)單了。

我們先引入需要用到的庫(kù):

import requests
import pandas as pd
import html
from lxml import etree
import re

然后創(chuàng)建一個(gè)數(shù)據(jù)請(qǐng)求的函數(shù)備用:

# 獲取網(wǎng)頁(yè)數(shù)據(jù)(傳遞參數(shù) 車型typeid和頁(yè)碼數(shù))
def get_html(typeid,page):
    # 組合出請(qǐng)求地址
    url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
    # 請(qǐng)求數(shù)據(jù)(因?yàn)闆](méi)有反爬,這里沒(méi)有設(shè)置請(qǐng)求頭和其他參數(shù))
    r = requests.get(url)
    # 請(qǐng)求的網(wǎng)頁(yè)數(shù)據(jù)中有網(wǎng)頁(yè)特殊字符,通過(guò)以下方法進(jìn)行解析
    r = html.unescape(r.text)
    # 返回網(wǎng)頁(yè)數(shù)據(jù)
    return r

請(qǐng)求來(lái)的數(shù)據(jù)就是網(wǎng)頁(yè)html文本,我們接下來(lái)采用re解析出一共多少頁(yè)碼,再用xpath進(jìn)行采集字段的解析。

三、數(shù)據(jù)解析

由于需要進(jìn)行翻頁(yè),這里我們可以先通過(guò)re正則表達(dá)式獲取總頁(yè)碼。通過(guò)查看網(wǎng)頁(yè)數(shù)據(jù),我們發(fā)現(xiàn)總頁(yè)碼可以通過(guò)如下方式獲取:

try:
    pages = int(re.findall(r'共(\d+)頁(yè)',r)[0])
# 如果請(qǐng)求不到頁(yè)數(shù),則表示該車型下沒(méi)有口碑?dāng)?shù)據(jù)
except :
    print(f'{name} 沒(méi)有數(shù)據(jù)!')
    continue

Image

總頁(yè)碼采集

關(guān)于待采集字段信息,我們發(fā)現(xiàn)都在節(jié)點(diǎn)div[@class="mouthcon-cont-left"]里,可以先定位這個(gè)節(jié)點(diǎn)數(shù)據(jù),然后再進(jìn)行逐一解析。

Image

待采集字段信息所在節(jié)點(diǎn)

此外,我們發(fā)現(xiàn)每一頁(yè)最多15個(gè)車型口碑?dāng)?shù)據(jù),因此我們每頁(yè)可以定位15個(gè)待采集信息數(shù)據(jù)集,遍歷采集代碼:

divs = r_html.xpath('.//div[@class="mouthcon-cont-left"]')
# 遍歷每個(gè)全部的車輛銷售信息
for div in divs:
    # 找到車輛銷售信息所在的地方
    mt = div.xpath('./div[@class="choose-con mt-10"]')[0]
    # 找到所需字段
    infos = mt.xpath('./dl[@class="choose-dl"]')
    # 設(shè)置空的字典,用于存儲(chǔ)單個(gè)車輛信息
    item = {}
    # 遍歷車輛信息字段
    for info in infos:
        key = info.xpath('.//dt/text()')[0]
        # 當(dāng)字段為購(gòu)買車型時(shí),進(jìn)行拆分為車型和配置
        if key == '購(gòu)買車型':
            item[key] = info.xpath('.//dd/a/text()')[0]
            item['購(gòu)買配置'] = info.xpath('.//span[@class="font-arial"]/text()')[0]
        # 當(dāng)字段為購(gòu)車經(jīng)銷商時(shí),需要獲取經(jīng)銷商的id參數(shù),再調(diào)用api獲取其真實(shí)經(jīng)銷商信息(這里有坑)
        elif key == '購(gòu)車經(jīng)銷商':
            # 經(jīng)銷商id參數(shù)
            經(jīng)銷商id = info.xpath('.//dd/a/@data-val')[0] +','+ info.xpath('.//dd/a/@data-evalid')[0]
            # 組合經(jīng)銷商信息請(qǐng)求地址
            jxs_url = base_jxs_url+經(jīng)銷商id+'|'
            # 請(qǐng)求數(shù)據(jù)(為json格式)
            data = requests.get(jxs_url)
            j = data.json()
            # 獲取經(jīng)銷商名稱
            item[key] = j['result']['List'][0]['CompanySimple']
        else:
            # 其他字段時(shí),替換轉(zhuǎn)義字符和空格等為空
            item[key] = info.xpath('.//dd/text()')[0].replace("\r\n","").replace(' ','').replace('\xa0','')

四、數(shù)據(jù)存儲(chǔ)

由于沒(méi)啥反爬,這里直接將采集到的數(shù)據(jù)轉(zhuǎn)化為pandas.DataFrame類型,然后存儲(chǔ)為xlsx文件即可。

df = pd.DataFrame(items)
df = df[['購(gòu)買車型', '購(gòu)買配置', '購(gòu)買地點(diǎn)', '購(gòu)車經(jīng)銷商', '購(gòu)買時(shí)間', '裸車購(gòu)買價(jià)']]
# 數(shù)據(jù)存儲(chǔ)在本地
df.to_excel(r'車輛銷售信息.xlsx',index=None,sheet_name='data')

五、采集結(jié)果預(yù)覽

整個(gè)爬蟲(chóng)過(guò)程比較簡(jiǎn)單,采集下來(lái)的數(shù)據(jù)也比較規(guī)范,以本文案例奧迪Q5L示例如下:

Image

到此這篇關(guān)于Python爬蟲(chóng)之自動(dòng)采集某車之家各車銷售數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python采集汽車銷售數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python循環(huán)結(jié)構(gòu)的應(yīng)用場(chǎng)景詳解

    Python循環(huán)結(jié)構(gòu)的應(yīng)用場(chǎng)景詳解

    這篇文章主要介紹了Python循環(huán)結(jié)構(gòu)的應(yīng)用場(chǎng)景詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-07-07
  • Python實(shí)現(xiàn)統(tǒng)計(jì)文本中字符的方法小結(jié)

    Python實(shí)現(xiàn)統(tǒng)計(jì)文本中字符的方法小結(jié)

    在計(jì)算機(jī)編程中,經(jīng)常需要對(duì)文本數(shù)據(jù)進(jìn)行處理和分析,字符統(tǒng)計(jì)是其中一個(gè)常見(jiàn)任務(wù),本文將詳細(xì)介紹如何使用Python進(jìn)行字符統(tǒng)計(jì),希望對(duì)大家有所幫助
    2024-01-01
  • pymysql.err.DataError:1366的報(bào)錯(cuò)解決

    pymysql.err.DataError:1366的報(bào)錯(cuò)解決

    通過(guò)python把數(shù)據(jù)同步至mysql數(shù)據(jù)庫(kù)的過(guò)程中,遇到錯(cuò)誤,本文主要介紹了pymysql.err.DataError:1366的報(bào)錯(cuò)解決,具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-05-05
  • Python科學(xué)計(jì)算之Pandas詳解

    Python科學(xué)計(jì)算之Pandas詳解

    Pandas 是 python 的一個(gè)數(shù)據(jù)分析包,屬于PyData項(xiàng)目的一部分。下面這篇文章主要介紹了Python中科學(xué)計(jì)算之Pandas,需要的朋友可以參考借鑒,下面來(lái)一起學(xué)習(xí)學(xué)習(xí)。
    2017-01-01
  • Java多線程實(shí)現(xiàn)四種方式原理詳解

    Java多線程實(shí)現(xiàn)四種方式原理詳解

    這篇文章主要介紹了Java多線程實(shí)現(xiàn)四種方式原理詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-06-06
  • 利用Python+Java調(diào)用Shell腳本時(shí)的死鎖陷阱詳解

    利用Python+Java調(diào)用Shell腳本時(shí)的死鎖陷阱詳解

    這篇文章主要給大家介紹了關(guān)于利用Python+Java調(diào)用Shell腳本時(shí)的死鎖陷阱的相關(guān)資料,文章通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。
    2018-01-01
  • python利用appium實(shí)現(xiàn)手機(jī)APP自動(dòng)化的示例

    python利用appium實(shí)現(xiàn)手機(jī)APP自動(dòng)化的示例

    這篇文章主要介紹了python利用appium實(shí)現(xiàn)手機(jī)APP自動(dòng)化的示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • Python爬蟲(chóng)urllib和requests的區(qū)別詳解

    Python爬蟲(chóng)urllib和requests的區(qū)別詳解

    這篇文章主要介紹了Python爬蟲(chóng)urllib和requests的區(qū)別詳解,本篇文章通過(guò)簡(jiǎn)要的案例,講解了該項(xiàng)技術(shù)的了解與使用,以下就是詳細(xì)內(nèi)容,需要的朋友可以參考下
    2021-09-09
  • 使用Python和Plotly繪制各種類型3D圖形的方法

    使用Python和Plotly繪制各種類型3D圖形的方法

    Python語(yǔ)言擁有豐富的數(shù)據(jù)可視化庫(kù),其中Plotly是一款流行的工具,提供了繪制高質(zhì)量三維圖形的功能,本文將介紹如何使用Python和Plotly來(lái)繪制各種類型的3D圖形,并給出代碼實(shí)例,需要的朋友可以參考下
    2024-05-05
  • 運(yùn)動(dòng)檢測(cè)ViBe算法python實(shí)現(xiàn)代碼

    運(yùn)動(dòng)檢測(cè)ViBe算法python實(shí)現(xiàn)代碼

    這篇文章主要為大家詳細(xì)介紹了運(yùn)動(dòng)檢測(cè)ViBe算法python實(shí)現(xiàn)代碼,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-01-01

最新評(píng)論