欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價(jià)比

 更新時(shí)間:2022年09月22日 10:09:56   作者:螞蟻愛Python  
這篇文章主要介紹了用Python告訴你奶茶哪家最好喝性價(jià)比最高,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧

序篇

天氣真的很熱啊… 很想有一杯冰冰涼涼的奶茶來解渴~

但是現(xiàn)在奶茶店這么多, 到底哪一家最好喝、性價(jià)比最高呢?

數(shù)據(jù)獲取

本文抓取了12個(gè)熱門城市的奶茶店名單,

城市包括:北京、上海、廣州、深圳、天津、西安、重慶、杭州、南京、武漢、成都和長(zhǎng)沙。

共計(jì)68614家奶茶店,3萬多個(gè)奶茶品牌。

在構(gòu)建抓取URL時(shí),

需要注意將城市的維度具體到城市商圈,

因?yàn)槊總€(gè)URL最多只顯示32頁內(nèi)容,

保證抓取每個(gè)城市時(shí)的數(shù)據(jù)量是準(zhǔn)確的。

# 構(gòu)建抓取URL
def get_url_1():
    for city,city_code in city_dict.items():
        for block_dict in area_dict[city]:
            for children in block_dict['children']:
                for page in range(1,33):
                    block_code = children['id']
                    offset = 32 * (page-1)
                    # print(city, area, block, block_code)
                    url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                    redis_db.sadd('meituan_milk', url)

數(shù)據(jù)清洗

數(shù)據(jù)清洗部分,主要清洗了奶茶店鋪名稱,

但是同一個(gè)奶茶品牌會(huì)有多種格式,如1點(diǎn)點(diǎn)和1點(diǎn)點(diǎn),

大卡司和大卡司DAKASI。

由于奶茶品牌數(shù)量眾多,

并且真假難辨,所以只能進(jìn)行針對(duì)性清洗,

對(duì)部分名氣高的奶茶品牌名稱要保證其統(tǒng)一。

# 清洗字段
def clean(x):
    title = re.sub(u"(.*?)", "", x['title'])
    title = title.replace('點(diǎn)點(diǎn)','點(diǎn)點(diǎn)').replace('(','').replace(')','')
    title = title.replace('一點(diǎn)點(diǎn)','1點(diǎn)點(diǎn)')
    if '一杯會(huì)說話的茶' in title:
        title = '1314一杯會(huì)說話的茶'
    elif '大卡司' in title:
        title = '大卡司DAKASI'
    elif '1點(diǎn)點(diǎn)' in title:
        title = '1點(diǎn)點(diǎn)'
    elif '都可' in title:
        title = 'CoCo都可'
    elif '書亦燒仙草' in title:
        title = '書亦燒仙草'
    elif '蜜雪冰城' in title:
        title = '蜜雪冰城'
    elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
        title = 'Royaltea皇茶'
    elif 'ALS' in title:
        title = 'ALS GONG CHA貢茶'
    elif 'GONG' in title:
        title = '貢茶'
    elif '茶百道' in title:
        title = '茶百道'
    elif '吾飲良品' in title:
        title = '吾飲良品'
    elif '悸動(dòng)燒仙草' in title:
        title = '悸動(dòng)燒仙草'
    elif '滬上阿姨' in title:
        title = '滬上阿姨'
    elif '7分甜' in title:
        title = '7分甜'
    elif '古茗' in title:
        title = '古茗'
    elif '奈雪' in title:
        title = '奈雪の茶'
    elif '悅色' in title:
        title = '茶顏悅色'
    else:
        pass
    return title
df['title'] = df.apply(clean, axis=1)

數(shù)據(jù)可視化

當(dāng)小編在制作可視化圖表的時(shí)候,

會(huì)發(fā)現(xiàn)有些奶茶品牌的名稱極為相似,

讓人有一種傻傻分不清楚的感覺。

熱門城市奶茶店鋪數(shù)量情況

從全國(guó)12個(gè)熱門城市來看奶茶店鋪數(shù)量分布情況,

廣州的店鋪數(shù)量是最多的,擁有11419家,

之后是深圳(9367家)、上海(7940家)、成都(7361家)。

特色奶茶分布情況

有些奶茶店很有自己的地域特色,

如果你想品嘗它們的原版奶茶,

就可能需要跑到別的城市才能喝到,

因?yàn)樗鼈兇蟛糠址值甓贾婚_在本土城市。

大眾奶茶分布情況

接下來介紹一下大眾奶茶中的1點(diǎn)點(diǎn),CoCo,書亦燒仙草和益禾堂的熱門城市分布情況,

1點(diǎn)點(diǎn)和CoCo在上海的分店數(shù)量都是最多的,而書亦燒仙草在成都和長(zhǎng)沙比較普遍,益禾堂則是在廣州和深圳。

這4家奶茶品牌在廣州分店數(shù)量均有上百家,也難怪走到哪都能看到這幾家奶茶店。

總結(jié)

此次小編只分析了12個(gè)熱門城市的奶茶門店數(shù)據(jù),

如果將范圍擴(kuò)展到全國(guó)進(jìn)行分析,

或許能得到更多有意思的結(jié)果。

到此這篇關(guān)于Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價(jià)比的文章就介紹到這了,更多相關(guān)Python爬取奶茶店內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 在python中的socket模塊使用代理實(shí)例

    在python中的socket模塊使用代理實(shí)例

    這篇文章主要介紹了在python中的socket模塊使用代理實(shí)例,調(diào)用socks.setdefaultproxy即可實(shí)現(xiàn),需要的朋友可以參考下
    2014-05-05
  • Python隨機(jī)數(shù)random模塊使用指南

    Python隨機(jī)數(shù)random模塊使用指南

    本文給大家分享的是Python隨機(jī)數(shù)random模塊的幾個(gè)常用的方法,非常的簡(jiǎn)單,小伙伴們喜歡的話,后續(xù)繼續(xù)深入探討
    2016-09-09
  • selenium+python環(huán)境配置教程詳解

    selenium+python環(huán)境配置教程詳解

    這篇文章主要介紹了selenium+python環(huán)境配置教程,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-05-05
  • Python matplotlib繪圖風(fēng)格詳解

    Python matplotlib繪圖風(fēng)格詳解

    從matplotlib的角度來說,繪圖風(fēng)格也算是圖像類型的一部分,所以這篇文章小編想帶大家了解一下Python中matplotlib的繪圖風(fēng)格,有需要的可以參考下
    2023-09-09
  • 用pickle存儲(chǔ)Python的原生對(duì)象方法

    用pickle存儲(chǔ)Python的原生對(duì)象方法

    下面小編就為大家?guī)硪黄胮ickle存儲(chǔ)Python的原生對(duì)象方法。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-04-04
  • python?nonlocal的用法詳解

    python?nonlocal的用法詳解

    這篇文章主要給大家介紹了關(guān)于python?nonlocal用法的相關(guān)資料,最近在python學(xué)習(xí)中遇到了nonlocal關(guān)鍵字但是感到困惑,于是記錄nonlocal關(guān)鍵字用法,需要的朋友可以參考下
    2023-10-10
  • 對(duì)pandas里的loc并列條件索引的實(shí)例講解

    對(duì)pandas里的loc并列條件索引的實(shí)例講解

    今天小編就為大家分享一篇對(duì)pandas里的loc并列條件索引的實(shí)例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • Tensorflow中的圖(tf.Graph)和會(huì)話(tf.Session)的實(shí)現(xiàn)

    Tensorflow中的圖(tf.Graph)和會(huì)話(tf.Session)的實(shí)現(xiàn)

    這篇文章主要介紹了Tensorflow中的圖(tf.Graph)和會(huì)話(tf.Session)的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-04-04
  • pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式

    pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式

    這篇文章主要介紹了pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • python使用技巧-標(biāo)準(zhǔn)輸入

    python使用技巧-標(biāo)準(zhǔn)輸入

    這篇文章主要介紹了python使用技巧標(biāo)準(zhǔn)輸入,標(biāo)準(zhǔn)輸入即stdin ,下文圍繞python使用技巧標(biāo)準(zhǔn)輸入相關(guān)資料展開學(xué)習(xí)內(nèi)容,具有一的參考價(jià)值,需要的小伙伴可以參考一下
    2022-02-02

最新評(píng)論