Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價比
序篇
天氣真的很熱啊… 很想有一杯冰冰涼涼的奶茶來解渴~
但是現(xiàn)在奶茶店這么多, 到底哪一家最好喝、性價比最高呢?
數(shù)據(jù)獲取
本文抓取了12個熱門城市的奶茶店名單,
城市包括:北京、上海、廣州、深圳、天津、西安、重慶、杭州、南京、武漢、成都和長沙。
共計68614家奶茶店,3萬多個奶茶品牌。
在構(gòu)建抓取URL時,
需要注意將城市的維度具體到城市商圈,
因為每個URL最多只顯示32頁內(nèi)容,
保證抓取每個城市時的數(shù)據(jù)量是準(zhǔn)確的。

# 構(gòu)建抓取URL
def get_url_1():
for city,city_code in city_dict.items():
for block_dict in area_dict[city]:
for children in block_dict['children']:
for page in range(1,33):
block_code = children['id']
offset = 32 * (page-1)
# print(city, area, block, block_code)
url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
redis_db.sadd('meituan_milk', url)
數(shù)據(jù)清洗
數(shù)據(jù)清洗部分,主要清洗了奶茶店鋪名稱,
但是同一個奶茶品牌會有多種格式,如1點點和1點點,
大卡司和大卡司DAKASI。
由于奶茶品牌數(shù)量眾多,
并且真假難辨,所以只能進(jìn)行針對性清洗,
對部分名氣高的奶茶品牌名稱要保證其統(tǒng)一。
# 清洗字段
def clean(x):
title = re.sub(u"(.*?)", "", x['title'])
title = title.replace('點點','點點').replace('(','').replace(')','')
title = title.replace('一點點','1點點')
if '一杯會說話的茶' in title:
title = '1314一杯會說話的茶'
elif '大卡司' in title:
title = '大卡司DAKASI'
elif '1點點' in title:
title = '1點點'
elif '都可' in title:
title = 'CoCo都可'
elif '書亦燒仙草' in title:
title = '書亦燒仙草'
elif '蜜雪冰城' in title:
title = '蜜雪冰城'
elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
title = 'Royaltea皇茶'
elif 'ALS' in title:
title = 'ALS GONG CHA貢茶'
elif 'GONG' in title:
title = '貢茶'
elif '茶百道' in title:
title = '茶百道'
elif '吾飲良品' in title:
title = '吾飲良品'
elif '悸動燒仙草' in title:
title = '悸動燒仙草'
elif '滬上阿姨' in title:
title = '滬上阿姨'
elif '7分甜' in title:
title = '7分甜'
elif '古茗' in title:
title = '古茗'
elif '奈雪' in title:
title = '奈雪の茶'
elif '悅色' in title:
title = '茶顏悅色'
else:
pass
return title
df['title'] = df.apply(clean, axis=1)
數(shù)據(jù)可視化
當(dāng)小編在制作可視化圖表的時候,
會發(fā)現(xiàn)有些奶茶品牌的名稱極為相似,
讓人有一種傻傻分不清楚的感覺。

熱門城市奶茶店鋪數(shù)量情況
從全國12個熱門城市來看奶茶店鋪數(shù)量分布情況,
廣州的店鋪數(shù)量是最多的,擁有11419家,
之后是深圳(9367家)、上海(7940家)、成都(7361家)。

特色奶茶分布情況
有些奶茶店很有自己的地域特色,
如果你想品嘗它們的原版奶茶,
就可能需要跑到別的城市才能喝到,
因為它們大部分分店都只開在本土城市。

大眾奶茶分布情況
接下來介紹一下大眾奶茶中的1點點,CoCo,書亦燒仙草和益禾堂的熱門城市分布情況,
1點點和CoCo在上海的分店數(shù)量都是最多的,而書亦燒仙草在成都和長沙比較普遍,益禾堂則是在廣州和深圳。
這4家奶茶品牌在廣州分店數(shù)量均有上百家,也難怪走到哪都能看到這幾家奶茶店。

總結(jié)
此次小編只分析了12個熱門城市的奶茶門店數(shù)據(jù),
如果將范圍擴展到全國進(jìn)行分析,
或許能得到更多有意思的結(jié)果。
到此這篇關(guān)于Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價比的文章就介紹到這了,更多相關(guān)Python爬取奶茶店內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Tensorflow中的圖(tf.Graph)和會話(tf.Session)的實現(xiàn)
這篇文章主要介紹了Tensorflow中的圖(tf.Graph)和會話(tf.Session)的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04
pycharm命令終端運行python文件以及傳遞參數(shù)方式
這篇文章主要介紹了pycharm命令終端運行python文件以及傳遞參數(shù)方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-06-06

