Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價(jià)比
序篇
天氣真的很熱啊… 很想有一杯冰冰涼涼的奶茶來解渴~
但是現(xiàn)在奶茶店這么多, 到底哪一家最好喝、性價(jià)比最高呢?
數(shù)據(jù)獲取
本文抓取了12個(gè)熱門城市的奶茶店名單,
城市包括:北京、上海、廣州、深圳、天津、西安、重慶、杭州、南京、武漢、成都和長(zhǎng)沙。
共計(jì)68614家奶茶店,3萬多個(gè)奶茶品牌。
在構(gòu)建抓取URL時(shí),
需要注意將城市的維度具體到城市商圈,
因?yàn)槊總€(gè)URL最多只顯示32頁內(nèi)容,
保證抓取每個(gè)城市時(shí)的數(shù)據(jù)量是準(zhǔn)確的。
# 構(gòu)建抓取URL def get_url_1(): for city,city_code in city_dict.items(): for block_dict in area_dict[city]: for children in block_dict['children']: for page in range(1,33): block_code = children['id'] offset = 32 * (page-1) # print(city, area, block, block_code) url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code) redis_db.sadd('meituan_milk', url)
數(shù)據(jù)清洗
數(shù)據(jù)清洗部分,主要清洗了奶茶店鋪名稱,
但是同一個(gè)奶茶品牌會(huì)有多種格式,如1點(diǎn)點(diǎn)和1點(diǎn)點(diǎn),
大卡司和大卡司DAKASI。
由于奶茶品牌數(shù)量眾多,
并且真假難辨,所以只能進(jìn)行針對(duì)性清洗,
對(duì)部分名氣高的奶茶品牌名稱要保證其統(tǒng)一。
# 清洗字段 def clean(x): title = re.sub(u"(.*?)", "", x['title']) title = title.replace('點(diǎn)點(diǎn)','點(diǎn)點(diǎn)').replace('(','').replace(')','') title = title.replace('一點(diǎn)點(diǎn)','1點(diǎn)點(diǎn)') if '一杯會(huì)說話的茶' in title: title = '1314一杯會(huì)說話的茶' elif '大卡司' in title: title = '大卡司DAKASI' elif '1點(diǎn)點(diǎn)' in title: title = '1點(diǎn)點(diǎn)' elif '都可' in title: title = 'CoCo都可' elif '書亦燒仙草' in title: title = '書亦燒仙草' elif '蜜雪冰城' in title: title = '蜜雪冰城' elif 'royal' in title or 'Royal' in title or 'ROYAL' in title: title = 'Royaltea皇茶' elif 'ALS' in title: title = 'ALS GONG CHA貢茶' elif 'GONG' in title: title = '貢茶' elif '茶百道' in title: title = '茶百道' elif '吾飲良品' in title: title = '吾飲良品' elif '悸動(dòng)燒仙草' in title: title = '悸動(dòng)燒仙草' elif '滬上阿姨' in title: title = '滬上阿姨' elif '7分甜' in title: title = '7分甜' elif '古茗' in title: title = '古茗' elif '奈雪' in title: title = '奈雪の茶' elif '悅色' in title: title = '茶顏悅色' else: pass return title df['title'] = df.apply(clean, axis=1)
數(shù)據(jù)可視化
當(dāng)小編在制作可視化圖表的時(shí)候,
會(huì)發(fā)現(xiàn)有些奶茶品牌的名稱極為相似,
讓人有一種傻傻分不清楚的感覺。
熱門城市奶茶店鋪數(shù)量情況
從全國(guó)12個(gè)熱門城市來看奶茶店鋪數(shù)量分布情況,
廣州的店鋪數(shù)量是最多的,擁有11419家,
之后是深圳(9367家)、上海(7940家)、成都(7361家)。
特色奶茶分布情況
有些奶茶店很有自己的地域特色,
如果你想品嘗它們的原版奶茶,
就可能需要跑到別的城市才能喝到,
因?yàn)樗鼈兇蟛糠址值甓贾婚_在本土城市。
大眾奶茶分布情況
接下來介紹一下大眾奶茶中的1點(diǎn)點(diǎn),CoCo,書亦燒仙草和益禾堂的熱門城市分布情況,
1點(diǎn)點(diǎn)和CoCo在上海的分店數(shù)量都是最多的,而書亦燒仙草在成都和長(zhǎng)沙比較普遍,益禾堂則是在廣州和深圳。
這4家奶茶品牌在廣州分店數(shù)量均有上百家,也難怪走到哪都能看到這幾家奶茶店。
總結(jié)
此次小編只分析了12個(gè)熱門城市的奶茶門店數(shù)據(jù),
如果將范圍擴(kuò)展到全國(guó)進(jìn)行分析,
或許能得到更多有意思的結(jié)果。
到此這篇關(guān)于Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價(jià)比的文章就介紹到這了,更多相關(guān)Python爬取奶茶店內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python隨機(jī)數(shù)random模塊使用指南
本文給大家分享的是Python隨機(jī)數(shù)random模塊的幾個(gè)常用的方法,非常的簡(jiǎn)單,小伙伴們喜歡的話,后續(xù)繼續(xù)深入探討2016-09-09用pickle存儲(chǔ)Python的原生對(duì)象方法
下面小編就為大家?guī)硪黄胮ickle存儲(chǔ)Python的原生對(duì)象方法。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-04-04對(duì)pandas里的loc并列條件索引的實(shí)例講解
今天小編就為大家分享一篇對(duì)pandas里的loc并列條件索引的實(shí)例講解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11Tensorflow中的圖(tf.Graph)和會(huì)話(tf.Session)的實(shí)現(xiàn)
這篇文章主要介紹了Tensorflow中的圖(tf.Graph)和會(huì)話(tf.Session)的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式
這篇文章主要介紹了pycharm命令終端運(yùn)行python文件以及傳遞參數(shù)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-06-06