用Python爬取618當(dāng)天某東熱門(mén)商品銷量數(shù)據(jù),看看大家喜歡什么!
前言
本文結(jié)構(gòu)如下:
1、爬取某東暢銷商品數(shù)據(jù)
2、清洗數(shù)據(jù)并并進(jìn)行簡(jiǎn)單分析
3、將數(shù)據(jù)進(jìn)行可視化展示
數(shù)據(jù)的字段如下:
一共爬取了243條某東暢銷商品數(shù)據(jù)
一、獲取數(shù)據(jù)
1. 分析網(wǎng)頁(yè)
在編寫(xiě)代碼之前,先來(lái)分析一波網(wǎng)頁(yè)。
上面是某東的暢銷商品,通過(guò)辰哥分析分析,該網(wǎng)頁(yè)有異步加載(前面10個(gè)商品是靜態(tài)加載,剩下的是動(dòng)態(tài)異步加載),因此我們需要寫(xiě)了個(gè)請(qǐng)求去獲取數(shù)據(jù)。
2. 獲取靜態(tài)網(wǎng)頁(yè)商品鏈接
商品的銷售、評(píng)論等數(shù)據(jù)在商品詳情頁(yè),這里先獲取商品詳情頁(yè)鏈接
結(jié)果如下:
3. 獲取動(dòng)態(tài)網(wǎng)頁(yè)商品鏈接
通過(guò)抓包可以獲取到動(dòng)態(tài)加載鏈接,并獲取到商品標(biāo)題和商品id(這里的商品id可以用于后面拼接商品詳情頁(yè)鏈接)
獲取json數(shù)據(jù)后,提取出商品標(biāo)題和商品ID
4. 獲取打折、原價(jià)、秒殺價(jià)
通過(guò)商品ID可以獲取到商品打折、原價(jià)、秒殺價(jià)(這里有接口,接口是通過(guò)抓包獲取的,感興趣的可以去自己去嘗試,不明白的可以直接使用)
這里將該功能封裝成函數(shù),通過(guò)傳入商品ID就可以獲取該商品的商品打折、原價(jià)、秒殺價(jià)
結(jié)果如下:
5. 獲取評(píng)論數(shù)、好評(píng)數(shù)、中評(píng)數(shù)、差評(píng)數(shù)、好評(píng)率
通過(guò)商品ID可以獲取到評(píng)論數(shù)、好評(píng)數(shù)、中評(píng)數(shù)、差評(píng)數(shù)、好評(píng)率(同樣這里有接口,接口是通過(guò)抓包獲取的,感興趣的可以去自己去嘗試,不明白的可以直接使用)
結(jié)果如下:
6. 保存到excel
接著開(kāi)始遍歷商品,并通過(guò)ID去獲取商品的銷售情況(步驟4和步驟5的函數(shù)),最后把數(shù)據(jù)保存到execl
定義表頭
寫(xiě)入數(shù)據(jù)
其中的get_price和CommentCount是步驟4和步驟5的函數(shù)。count是excel中行數(shù),因此在循環(huán)中count+1,依次寫(xiě)入下一行。
最終保存結(jié)果
一共爬取了243條某東暢銷商品數(shù)據(jù)
二、數(shù)據(jù)分析&可視化
1.數(shù)據(jù)清洗
需要清洗的內(nèi)容,主要有圖中這三列(標(biāo)題、打折、好評(píng)數(shù))。
清洗目標(biāo):
標(biāo)題過(guò)長(zhǎng)(長(zhǎng)度控制在10內(nèi)),不方便后面的畫(huà)圖
打折字段中含有折字,在進(jìn)行排序時(shí)不能直接轉(zhuǎn)數(shù)值型。
好評(píng)數(shù)中的萬(wàn),轉(zhuǎn)為具體數(shù)值,如1.2萬(wàn)轉(zhuǎn)為12000
清洗結(jié)果:
2.可視化-商品打折力度
從清洗后數(shù)據(jù)中取出:商品名稱和打折這兩列,進(jìn)行【排序】從打折最大到打折最小。最后取出前15名進(jìn)行可視化
核心代碼****如下:
可視化效果:
3.可視化-好評(píng)率統(tǒng)計(jì)
從數(shù)據(jù)中取出:好評(píng)率這列,對(duì)不同的好評(píng)率進(jìn)行統(tǒng)計(jì),如好評(píng)率是100%(1)的商品多少件,好評(píng)率99%(0.99)的商品多少件等。
核心代碼****如下:
可視化效果:
3.可視化-暢銷商品銷量排行
從數(shù)據(jù)中取出:商品名稱和評(píng)論數(shù)這兩列,這里根據(jù)評(píng)論數(shù)去作為銷售依據(jù),對(duì)商品的銷量進(jìn)行排序(高到低),并取出前15名進(jìn)行可視化。
核心代碼****如下:
可視化效果:
4.可視化-暢銷商品前15名原價(jià)與秒殺價(jià)對(duì)比
在上面的分析中可以知道暢銷商品的銷量前15名,這里將這15件商品的原價(jià)和秒殺價(jià)進(jìn)行可視化對(duì)比。
核心代碼****如下:
可視化效果:
到此這篇關(guān)于用Python爬取618當(dāng)天某東熱門(mén)商品銷量數(shù)據(jù),看看大家喜歡什么!的文章就介紹到這了,更多相關(guān)Python爬取商品銷量數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python安裝后測(cè)試連接MySQL數(shù)據(jù)庫(kù)方式
這篇文章主要介紹了Python安裝后測(cè)試連接MySQL數(shù)據(jù)庫(kù)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-07-07python 遍歷目錄(包括子目錄)下所有文件的實(shí)例
今天小編就為大家分享一篇python 遍歷目錄(包括子目錄)下所有文件的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-07-07django-xadmin根據(jù)當(dāng)前登錄用戶動(dòng)態(tài)設(shè)置表單字段默認(rèn)值方式
這篇文章主要介紹了django-xadmin根據(jù)當(dāng)前登錄用戶動(dòng)態(tài)設(shè)置表單字段默認(rèn)值方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03python?dataframe獲得指定行列實(shí)戰(zhàn)代碼
對(duì)于一個(gè)DataFrame,常常需要篩選出某列為指定值的行,下面這篇文章主要給大家介紹了關(guān)于python?dataframe獲得指定行列的相關(guān)資料,文中通過(guò)代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12Python實(shí)現(xiàn)實(shí)時(shí)顯示進(jìn)度條的六種方法
這篇文章主要為大家介紹了Python實(shí)現(xiàn)實(shí)時(shí)顯示進(jìn)度條,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助<BR>2021-12-12在Python中進(jìn)行自動(dòng)化單元測(cè)試的教程
這篇文章主要介紹了在Python中進(jìn)行自動(dòng)化單元測(cè)試的教程,本文來(lái)自于IBM官方文檔,需要的朋友可以參考下2015-04-04基于Python編寫(xiě)一個(gè)計(jì)算器程序,實(shí)現(xiàn)簡(jiǎn)單的加減乘除和取余二元運(yùn)算
這篇文章主要介紹了基于Python編寫(xiě)一個(gè)計(jì)算器程序,實(shí)現(xiàn)簡(jiǎn)單的加減乘除和取余二元運(yùn)算,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08