快捷導(dǎo)航

Python爬取奶茶店數(shù)據(jù)分析哪家最好喝以及性價(jià)比

更新時(shí)間：2022年09月22日 10:09:56 作者：螞蟻愛(ài)Python

這篇文章主要介紹了用Python告訴你奶茶哪家最好喝性價(jià)比最高，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧

序篇

天氣真的很熱啊… 很想有一杯冰冰涼涼的奶茶來(lái)解渴~

但是現(xiàn)在奶茶店這么多，到底哪一家最好喝、性價(jià)比最高呢？

數(shù)據(jù)獲取

本文抓取了12個(gè)熱門城市的奶茶店名單，

城市包括：北京、上海、廣州、深圳、天津、西安、重慶、杭州、南京、武漢、成都和長(zhǎng)沙。

共計(jì)68614家奶茶店，3萬(wàn)多個(gè)奶茶品牌。

在構(gòu)建抓取URL時(shí)，

需要注意將城市的維度具體到城市商圈，

因?yàn)槊總€(gè)URL最多只顯示32頁(yè)內(nèi)容，

保證抓取每個(gè)城市時(shí)的數(shù)據(jù)量是準(zhǔn)確的。

# 構(gòu)建抓取URL
def get_url_1():
    for city,city_code in city_dict.items():
        for block_dict in area_dict[city]:
            for children in block_dict['children']:
                for page in range(1,33):
                    block_code = children['id']
                    offset = 32 * (page-1)
                    # print(city, area, block, block_code)
                    url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                    redis_db.sadd('meituan_milk', url)

數(shù)據(jù)清洗

數(shù)據(jù)清洗部分，主要清洗了奶茶店鋪名稱，

但是同一個(gè)奶茶品牌會(huì)有多種格式，如1點(diǎn)點(diǎn)和1點(diǎn)點(diǎn)，

大卡司和大卡司DAKASI。

由于奶茶品牌數(shù)量眾多，

并且真假難辨，所以只能進(jìn)行針對(duì)性清洗，

對(duì)部分名氣高的奶茶品牌名稱要保證其統(tǒng)一。

# 清洗字段
def clean(x):
    title = re.sub(u"（.*?）", "", x['title'])
    title = title.replace('點(diǎn)點(diǎn)','點(diǎn)點(diǎn)').replace('（','').replace('）','')
    title = title.replace('一點(diǎn)點(diǎn)','1點(diǎn)點(diǎn)')
    if '一杯會(huì)說(shuō)話的茶' in title:
        title = '1314一杯會(huì)說(shuō)話的茶'
    elif '大卡司' in title:
        title = '大卡司DAKASI'
    elif '1點(diǎn)點(diǎn)' in title:
        title = '1點(diǎn)點(diǎn)'
    elif '都可' in title:
        title = 'CoCo都可'
    elif '書亦燒仙草' in title:
        title = '書亦燒仙草'
    elif '蜜雪冰城' in title:
        title = '蜜雪冰城'
    elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
        title = 'Royaltea皇茶'
    elif 'ALS' in title:
        title = 'ALS GONG CHA貢茶'
    elif 'GONG' in title:
        title = '貢茶'
    elif '茶百道' in title:
        title = '茶百道'
    elif '吾飲良品' in title:
        title = '吾飲良品'
    elif '悸動(dòng)燒仙草' in title:
        title = '悸動(dòng)燒仙草'
    elif '滬上阿姨' in title:
        title = '滬上阿姨'
    elif '7分甜' in title:
        title = '7分甜'
    elif '古茗' in title:
        title = '古茗'
    elif '奈雪' in title:
        title = '奈雪の茶'
    elif '悅色' in title:
        title = '茶顏悅色'
    else:
        pass
    return title
df['title'] = df.apply(clean, axis=1)