欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

端午節(jié)將至,用Python爬取粽子數(shù)據(jù)并可視化,看看網(wǎng)友喜歡哪種粽子吧!

 更新時(shí)間:2021年06月11日 15:54:45   作者:程序員啟航  
端午節(jié)快要到了,旅游?回家?拜訪親友?少不了要帶上粽子.那么:選擇什么牌子的粽子呢?選擇什么口味的粽子呢?選擇什么價(jià)格區(qū)間呢?今天爬取了京東上面的 “粽子數(shù)據(jù)” 進(jìn)行分析,看看有啥發(fā)現(xiàn)吧!,需要的朋友可以參考下

一、前言

本文就從數(shù)據(jù)爬取、數(shù)據(jù)清洗數(shù)據(jù)可視化,這三個(gè)方面入手,但你簡(jiǎn)單完成一個(gè)小型的數(shù)據(jù)分析項(xiàng)目,讓你對(duì)知識(shí)能夠有一個(gè)綜合的運(yùn)用。

整個(gè)思路如下:

  • 爬取網(wǎng)頁(yè):https://www.jd.com/
  • 爬取說(shuō)明: 基于京東網(wǎng)站,我們搜索網(wǎng)站“粽子”數(shù)據(jù),大概有100頁(yè)。我們爬取的字段,既有一級(jí)頁(yè)面的相關(guān)信息,還有二級(jí)頁(yè)面的部分信息;
  • 爬取思路: 先針對(duì)某一頁(yè)數(shù)據(jù)的一級(jí)頁(yè)面做一個(gè)解析,然后再進(jìn)行二級(jí)頁(yè)面做一個(gè)解析,最后再進(jìn)行翻頁(yè)操作;
  • 爬取字段: 分別是粽子的名稱(標(biāo)題)、價(jià)格、品牌(店鋪)、類別(口味);
  • 使用工具: requests+lxml+pandas+time+re+pyecharts
  • 網(wǎng)站解析方式: xpath

最終的效果如下:

Image

二、數(shù)據(jù)爬取

京東網(wǎng)站,一般是動(dòng)態(tài)加載的,也就是說(shuō),采用一般方式只能爬取到某個(gè)頁(yè)面的前30個(gè)數(shù)據(jù)(一個(gè)頁(yè)面一共60個(gè)數(shù)據(jù))。

基于本文,我僅用最基本的方法,爬取了每個(gè)頁(yè)面的前30條數(shù)據(jù)(如果大家有興趣,可以自行下去爬取所有的數(shù)據(jù))。

那么,本文究竟爬取了哪些字段呢?我給大家做一個(gè)展示,大家有興趣,可以爬取更多的字段,做更為詳細(xì)的分析。

Image

下面為大家展示爬蟲(chóng)代碼:

import pandas as pd
import requests
from lxml import etree
import chardet
import time
import re
 
def get_CI(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; X64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}
    rqg = requests.get(url,headers=headers)
    rqg.encoding = chardet.detect(rqg.content)['encoding']
    html = etree.HTML(rqg.text)
    
    # 價(jià)格
    p_price = html.xpath('//div/div[@class="p-price"]/strong/i/text()')
    
    # 名稱
    p_name = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/em')
    p_name = [str(p_name[i].xpath('string(.)')) for i in range(len(p_name))]
    
    # 深層url
    deep_ur1 = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/@href')
    deep_url = ["http:" + i for i in deep_ur1]
    
    # 從這里開(kāi)始,我們獲取“二級(jí)頁(yè)面”的信息           
    brands_list = []
    kinds_list = []
    for i in deep_url:
        rqg = requests.get(i,headers=headers)
        rqg.encoding = chardet.detect(rqg.content)['encoding']
        html = etree.HTML(rqg.text)
                          
        # 品牌
        brands = html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title')
        brands_list.append(brands)
                        
        # 類別
        kinds = re.findall('>類別:(.*?)</li>',rqg.text)
        kinds_list.append(kinds)
                           
    data = pd.DataFrame({'名稱':p_name,'價(jià)格':p_price,'品牌':brands_list,'類別':kinds_list})
    return(data)
                           
x = "https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page="
url_list = [x + str(i) for i in range(1,200,2)]
res = pd.DataFrame(columns=['名稱','價(jià)格','品牌','類別'])
 
# 這里進(jìn)行“翻頁(yè)”操作
for url in url_list:
    res0 = get_CI(url)
    res = pd.concat([res,res0])
    time.sleep(3)
 
# 保存數(shù)據(jù)
res.to_csv('aliang.csv',encoding='utf_8_sig')

最終爬取到的數(shù)據(jù):

Image

三、數(shù)據(jù)清洗

從上圖可以看到,整個(gè)數(shù)據(jù)算是很整齊的,不是特別亂,我們只做一些簡(jiǎn)單的操作即可。

先使用pandas庫(kù),來(lái)讀取數(shù)據(jù)。

import pandas as pd
 
df = pd.read_excel("粽子.xlsx",index_col=False)
df.head()

結(jié)果如下:

Image

我們分別針對(duì) “品牌”、“類別 兩個(gè)字段,去掉中括號(hào)。

df["品牌"] = df["品牌"].apply(lambda x: x[1:-1])
df["類別"] = df["類別"].apply(lambda x: x[1:-1])
df.head()

結(jié)果如下:

Image

①  粽子品牌排名前10的店鋪

df["品牌"].value_counts()[:10]

結(jié)果如下:

Image

② 粽子口味排名前5的味道

def func1(x):
    if x.find("甜") > 0:
        return "甜粽子"
    else:
        return x
df["類別"] = df["類別"].apply(func1)
df["類別"].value_counts()[1:6]

結(jié)果如下:

Image

③ 粽子售賣價(jià)格區(qū)間劃分

def price_range(x): # 按照我的購(gòu)物習(xí)慣,劃分價(jià)格
    if x <= 50:
        return '<50元'
    elif x <= 100:
        return '50-100元'
    elif x <= 300:
        return '100-300元'
    elif x <= 500:
        return '300-500元'
    elif x <= 1000:
        return '500-1000元'
    else:
        return '>1000元'
 
df["價(jià)格區(qū)間"] = df["價(jià)格"].apply(price_range)
df["價(jià)格區(qū)間"].value_counts()

結(jié)果如下:

Image

由于數(shù)據(jù)不是很多,沒(méi)有很多字段,也就沒(méi)有很多亂數(shù)據(jù)。因此,這里也沒(méi)有做數(shù)據(jù)去重、缺失值填充等操作。所以,大家可以下去獲取更多字段,更多數(shù)據(jù),用于數(shù)據(jù)分析。

四、數(shù)據(jù)可視化

俗話說(shuō):字不如表,表不如圖。通過(guò)可視化分析,我們可以將數(shù)據(jù)背后 “隱藏” 的信息,給展現(xiàn)出來(lái)。

拓展: 當(dāng)然,這里只是 “拋磚引玉”,我并沒(méi)有獲取太多的數(shù)據(jù),也沒(méi)有獲取太多的字段。這里給學(xué)習(xí)的朋友當(dāng)一個(gè)作業(yè)題,自己下去用更多的數(shù)據(jù)、更多的字段,做更透徹的分析。

在這里,我們基于以下幾個(gè)問(wèn)題,做一個(gè)可視化展示,分別是:

  • ① 粽子銷售店鋪Top10柱形圖;
  • ② 粽子口味排名Top5柱形圖;
  • ③ 粽子銷售價(jià)格區(qū)間劃分餅圖;
  • ④ 粽子商品名稱詞云圖;

① 粽子銷售店鋪Top10柱形圖

Image

結(jié)論分析:去年,我們分析了一些月餅的數(shù)據(jù),“五芳齋”、“北京稻香村” 這幾個(gè)牌子記憶猶新,可謂是做月餅、粽子的老店。像 “三全” 和 “思念”,在我印象中一直以為它們只做水餃和湯圓,粽子是否值得一試呢?當(dāng)然,這里還有一些新的牌子,像 “諸老大”“稻香私房” 等一些牌子,大家都可以下去搜索一下。買東西,就是要精挑細(xì)選,品牌也重要。

② 粽子口味排名Top5柱形圖

Image

結(jié)論分析:在我印象中,小時(shí)候一直吃的最多的就是 “甜粽子”,直到我上了初中才知道,粽子還可以有肉?當(dāng)然,從圖中可以看出,賣 “鮮肉粽” 的店鋪還是居多,畢竟這個(gè)送人,還是顯得高端、大氣一些。這里還有一些口味,像 “蜜棗粽”“豆沙粽”,我基本沒(méi)吃過(guò)。如果你送人,你會(huì)送什么口味的呢?

③ 粽子銷售價(jià)格區(qū)間劃分餅圖

Image

結(jié)論分析:這里,我故意把價(jià)格區(qū)間細(xì)分。這個(gè)餅圖也很符合實(shí)際,畢竟每年就過(guò)一次端午節(jié),還是以薄利多銷為主,接近80%的粽子,售價(jià)都在100元以下。當(dāng)然,還有一些中檔的粽子,價(jià)格在100-300元。大于300元,我覺(jué)得也沒(méi)有吃的必要,反正我是不會(huì)花這么多錢去買粽子。

④ 粽子商品名稱詞云圖

Image

結(jié)論分析:從圖中,可以大致看出商家的賣點(diǎn)了。畢竟是節(jié)日,“送禮”、“禮品” 體現(xiàn)了節(jié)日氛圍。“豬肉”、“豆沙” 體現(xiàn)了粽子口味。當(dāng)然,它是否是 “早餐” 好選擇呢?購(gòu)買的話,還支持 “團(tuán)購(gòu)” 哦。這些字眼,多多少少都會(huì)各自吸引一部分人的眼球。

⑤ 圖形組合為大屏

Image

​到此這篇關(guān)于端午節(jié)將至,用Python將粽子數(shù)據(jù)可視化,看看網(wǎng)友喜歡哪種吧!的文章就介紹到這了,更多相關(guān)Python數(shù)據(jù)可視化內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python計(jì)算多幅圖像柵格值的平均值

    Python計(jì)算多幅圖像柵格值的平均值

    這篇文章主要為大家詳細(xì)介紹了Python計(jì)算多幅圖像柵格值的平均值,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • python 實(shí)現(xiàn)彈球游戲的示例代碼

    python 實(shí)現(xiàn)彈球游戲的示例代碼

    這篇文章主要介紹了python 實(shí)現(xiàn)彈球小游戲,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下
    2020-11-11
  • 用Python解析身份證號(hào)獲取年齡和性別的實(shí)現(xiàn)方法

    用Python解析身份證號(hào)獲取年齡和性別的實(shí)現(xiàn)方法

    身份證號(hào)碼包含了豐富的信息,包括生日和性別,Python提供了處理和解析身份證號(hào)的功能,讓我們能夠從中提取出相關(guān)的信息,本文將介紹如何利用Python解析身份證號(hào),獲取持有者的年齡和性別信息,感興趣的朋友可以參考下
    2023-12-12
  • Python超詳細(xì)講解元類的使用

    Python超詳細(xì)講解元類的使用

    在Python里一切都是對(duì)象(object),基本數(shù)據(jù)類型,如數(shù)字,字符串,函數(shù)都是對(duì)象。對(duì)象可以由類(class)進(jìn)行創(chuàng)建。那么既然一切都是對(duì)象,那么類是對(duì)象嗎?是的,類也是對(duì)象,那么又是誰(shuí)創(chuàng)造了類呢?答案也很簡(jiǎn)單,也是類,一個(gè)能創(chuàng)作類的類,稱之為(type)元類
    2022-06-06
  • python爬蟲(chóng)請(qǐng)求頭的使用

    python爬蟲(chóng)請(qǐng)求頭的使用

    這篇文章主要介紹了python爬蟲(chóng)請(qǐng)求頭的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • python數(shù)據(jù)XPath使用案例詳解

    python數(shù)據(jù)XPath使用案例詳解

    xpath是最常用且最便捷高效的一種解析方式,通用型強(qiáng),其不僅可以用于python語(yǔ)言中,還可以用于其他語(yǔ)言中,數(shù)據(jù)解析建議首先xpath
    2021-09-09
  • python正則表達(dá)式 匹配反斜杠的操作方法

    python正則表達(dá)式 匹配反斜杠的操作方法

    這篇文章主要介紹了python正則表達(dá)式 匹配反斜杠的操作方法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-08-08
  • Nginx搭建HTTPS服務(wù)器和強(qiáng)制使用HTTPS訪問(wèn)的方法

    Nginx搭建HTTPS服務(wù)器和強(qiáng)制使用HTTPS訪問(wèn)的方法

    這篇文章主要介紹了Nginx搭建HTTPS服務(wù)器和強(qiáng)制使用HTTPS訪問(wèn)的方法,即從HTTP跳轉(zhuǎn)到HTTPS,需要的朋友可以參考下
    2015-08-08
  • Python 中單例模式的實(shí)現(xiàn)方法

    Python 中單例模式的實(shí)現(xiàn)方法

    這篇文章主要介紹了Python 中單例模式的實(shí)現(xiàn)方法,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感興趣的小伙伴可以學(xué)習(xí)一下下面文章詳細(xì)內(nèi)容
    2022-08-08
  • Python利用LyScript插件實(shí)現(xiàn)批量打開(kāi)關(guān)閉進(jìn)程

    Python利用LyScript插件實(shí)現(xiàn)批量打開(kāi)關(guān)閉進(jìn)程

    LyScript是一款x64dbg主動(dòng)化操控插件,經(jīng)過(guò)Python操控X64dbg,完成了遠(yuǎn)程動(dòng)態(tài)調(diào)試,解決了逆向工作者剖析漏洞,尋覓指令片段,原生腳本不行強(qiáng)壯的問(wèn)題。本文將利用LyScript插件實(shí)現(xiàn)批量打開(kāi)關(guān)閉進(jìn)程,感興趣的可以了解一下
    2022-07-07

最新評(píng)論