欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python爬蟲實(shí)例——爬取美團(tuán)美食數(shù)據(jù)

 更新時(shí)間:2020年07月15日 17:03:34   作者:吃著東西不想停  
這篇文章主要介紹了Python爬蟲如何爬取美團(tuán)美食數(shù)據(jù),文中講解非常詳細(xì),代碼幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下

1.分析美團(tuán)美食網(wǎng)頁的url參數(shù)構(gòu)成

1)搜索要點(diǎn)

美團(tuán)美食,地址:北京,搜索關(guān)鍵詞:火鍋

2)爬取的url

https://bj.meituan.com/s/%E7%81%AB%E9%94%85/

3)說明

url會(huì)有自動(dòng)編碼中文功能。所以火鍋二字指的就是這一串我們不認(rèn)識(shí)的代碼%E7%81%AB%E9%94%85。

通過關(guān)鍵詞城市的url構(gòu)造,解析當(dāng)前url中的bj=北京,/s/后面跟搜索關(guān)鍵詞。

這樣我們就可以了解到當(dāng)前url的構(gòu)造。

2.分析頁面數(shù)據(jù)來源(F12開發(fā)者工具)

開啟F12開發(fā)者工具,并且刷新當(dāng)前頁面:可以看到切換到第二頁時(shí)候,我們的url沒有變化,網(wǎng)站也沒有自動(dòng)進(jìn)行刷新跳轉(zhuǎn)操作。(web中ajax技術(shù)就是在保證頁面不刷新,url不變化情況下進(jìn)行數(shù)據(jù)加載的技術(shù))

此時(shí)我們需要在開發(fā)者工具中,找到xhr里面對(duì)應(yīng)當(dāng)前數(shù)據(jù)的響應(yīng)文件。

分析到這里可以得知:我們的數(shù)據(jù)是以json格式交互。分析第二頁的json文件請(qǐng)求地址與第三頁json文件的請(qǐng)求地址。

第二頁:https://apimobile.meituan.com/group/v4/poi/pcsearch/1?uuid=xxx&userid=-1&limit=32&offset=32&cateId=-1&q=%E7%81%AB%E9%94%85

第三頁:https://apimobile.meituan.com/group/v4/poi/pcsearch/1?uuid=xxx&userid=-1&limit=32&offset=64&cateId=-1&q=%E7%81%AB%E9%94%85

對(duì)比發(fā)現(xiàn):offse參數(shù)每次翻頁增加32,并且limit參數(shù)是一次請(qǐng)求的數(shù)據(jù)量,offse是數(shù)據(jù)請(qǐng)求的開始元素,q是搜索關(guān)鍵詞poi/pcsearch/1?其中的1是北京城市的id編號(hào)。

3.構(gòu)造請(qǐng)求抓取美團(tuán)美食數(shù)據(jù)

接下來直接構(gòu)造請(qǐng)求,循環(huán)訪問每一頁的數(shù)據(jù),最終代碼如下。

import requests
import re


def start():
  for w in range(0, 1600, 32):
  #頁碼根據(jù)實(shí)際情況x32即可,我這里是設(shè)置50頁為上限,為了避免設(shè)置頁碼過高或者數(shù)據(jù)過少情況,定義最大上限為1600-也就是50頁,使用try-except來檢測(cè)時(shí)候異常,異常跳過該頁,一般作為無數(shù)據(jù)跳過該頁處理
    try:
    # 注意uuid后面參數(shù)空余將uuid后xxx替換為自己的uuid參數(shù)
      url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/1?uuid=xxx&userid=-1&limit=32&offset='+str(w)+'&cateId=-1&q=%E7%81%AB%E9%94%85'
      #headers的數(shù)據(jù)可以在F12開發(fā)者工具下面的requests_headers中查看,需要實(shí)現(xiàn)選擇如下headers信息
      #必要情況 請(qǐng)求頻繁 建議增加cookie參數(shù)在headers內(nèi)
      headers = {
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400',
        'Host': 'apimobile.meituan.com',
        'Origin': 'https://bj.meituan.com',
        'Referer': 'https://bj.meituan.com/s/%E7%81%AB%E9%94%85/'
      }
      response = requests.get(url, headers=headers)
      #正則獲取當(dāng)前響應(yīng)內(nèi)容中的數(shù)據(jù),因json方法無法針對(duì)店鋪特有的title鍵值進(jìn)行獲取沒所以采用正則
   titles = re.findall('","title":"(.*?)","address":"', response.text)
     addresses = re.findall(',"address":"(.*?)",', response.text)
     avgprices = re.findall(',"avgprice":(.*?),', response.text)
     avgscores = re.findall(',"avgscore":(.*?),',response.text)
     comments = re.findall(',"comments":(.*?),',response.text)
     #輸出當(dāng)前返回?cái)?shù)據(jù)的長(zhǎng)度 是否為32
     print(len(titles), len(addresses), len(avgprices), len(avgscores), len(comments))
     for o in range(len(titles)):
     #循環(huán)遍歷每一個(gè)值 寫入文件中
       title = titles[o]
       address = addresses[o]
       avgprice = avgprices[o]
       avgscore = avgscores[o]
       comment = comments[o]
       #寫入本地文件
       file_data(title, address, avgprice, avgscore, comment)

#文件寫入方法
def file_data(title, address, avgprice, avgscore, comment):
  data = {
        '店鋪名稱': title,
        '店鋪地址': address,
        '平均消費(fèi)價(jià)格': avgprice,
        '店鋪評(píng)分': avgscore,
        '評(píng)價(jià)人數(shù)': comment
      }
  with open('美團(tuán)美食.txt', 'a', encoding='utf-8')as fb:
    fb.write(json.dumps(data, ensure_ascii=False) + '\n')
    #ensure_ascii=False必須加因?yàn)閖son.dumps方法不關(guān)閉轉(zhuǎn)碼會(huì)導(dǎo)致出現(xiàn)亂碼情況
if __name__ == '__main__':
  start()

運(yùn)行結(jié)果如下:

本地文件:

4.總結(jié)

根據(jù)搜索詞變化,城市變化,可以改變url中指定的參數(shù)來實(shí)現(xiàn)。同時(shí)也要記得變更headers中的指定參數(shù),方法簡(jiǎn)單,多加練習(xí)即可熟悉ajax類型的數(shù)據(jù)抓取。

以上就是Python爬蟲實(shí)例——爬取美團(tuán)美食數(shù)據(jù)的詳細(xì)內(nèi)容,更多關(guān)于Python爬蟲爬取美食數(shù)據(jù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Python實(shí)現(xiàn)定時(shí)任務(wù)的八種方案詳解

    Python實(shí)現(xiàn)定時(shí)任務(wù)的八種方案詳解

    在日常工作中,我們常常會(huì)用到需要周期性執(zhí)行的任務(wù),我們可以用Python直接實(shí)現(xiàn)這一功能。本文整理的是常見的Python定時(shí)任務(wù)的八種實(shí)現(xiàn)方式,需要的朋友可以參考一下
    2022-02-02
  • python進(jìn)階教程之動(dòng)態(tài)類型詳解

    python進(jìn)階教程之動(dòng)態(tài)類型詳解

    這篇文章主要介紹了python進(jìn)階教程之動(dòng)態(tài)類型詳解,動(dòng)態(tài)類型是動(dòng)態(tài)語言的特性,本文對(duì)多種動(dòng)態(tài)類型應(yīng)用做了講解,需要的朋友可以參考下
    2014-08-08
  • python實(shí)現(xiàn)圖像處理之PiL依賴庫的案例應(yīng)用詳解

    python實(shí)現(xiàn)圖像處理之PiL依賴庫的案例應(yīng)用詳解

    這篇文章主要介紹了python實(shí)現(xiàn)圖像處理之PiL依賴庫的案例應(yīng)用詳解,本篇文章通過簡(jiǎn)要的案例,講解了該項(xiàng)技術(shù)的了解與使用,以下就是詳細(xì)內(nèi)容,需要的朋友可以參考下
    2021-07-07
  • python 提取html文本的方法

    python 提取html文本的方法

    在解決自然語言處理問題時(shí),有時(shí)你需要獲得大量的文本集。互聯(lián)網(wǎng)是文本的最大來源,但是從任意HTML頁面提取文本是一項(xiàng)艱巨而痛苦的任務(wù)。本文將講述python高效提取html文本的方法
    2021-05-05
  • python中的多cpu并行編程

    python中的多cpu并行編程

    這篇文章主要介紹了python中的多cpu并行編程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-05-05
  • 淺談Python幾種常見的歸一化方法

    淺談Python幾種常見的歸一化方法

    這篇文章主要介紹了幾種常見的歸一化方法,數(shù)據(jù)歸一化是深度學(xué)習(xí)數(shù)據(jù)預(yù)處理中非常關(guān)鍵的步驟,可以起到統(tǒng)一量綱,防止小數(shù)據(jù)被吞噬的作用,需要的朋友可以參考下
    2023-04-04
  • pytorch 梯度NAN異常值的解決方案

    pytorch 梯度NAN異常值的解決方案

    這篇文章主要介紹了pytorch 梯度NAN異常值的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-06-06
  • NumPy 矩陣乘法的實(shí)現(xiàn)示例

    NumPy 矩陣乘法的實(shí)現(xiàn)示例

    這篇文章主要介紹了NumPy 矩陣乘法的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • python實(shí)現(xiàn)ID3決策樹算法

    python實(shí)現(xiàn)ID3決策樹算法

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)ID3決策樹算法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-12-12
  • Python Django中間件使用原理及流程分析

    Python Django中間件使用原理及流程分析

    這篇文章主要介紹了Python Django中間件使用原理及流程分析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-06-06

最新評(píng)論