欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

基于Python采集爬取微信公眾號歷史數(shù)據(jù)

 更新時間:2020年11月27日 09:22:47   作者:天寶老爹  
這篇文章主要介紹了基于Python采集爬取微信公眾號歷史數(shù)據(jù),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

鯤之鵬的技術(shù)人員將在本文介紹一種通過模擬操作微信App的方式采集指定公眾號的所有歷史數(shù)據(jù)的方法。

通過我們抓包分析發(fā)現(xiàn),微信公眾號的歷史數(shù)據(jù)是通過HTTP協(xié)議加載的,對應的API接口如下圖所示,其中有四個關(guān)鍵參數(shù)(__biz、appmsg_token、pass_ticket以及Cookie)。

為了能夠拿到這四個參數(shù),我們需要模擬操作App,讓其產(chǎn)生這些參數(shù),然后我們再抓包獲取。對于模擬App操作,前面我們曾介紹過通過Python模擬安卓App的方法(詳見http://www.site-digger.com/html/articles/20180912/664.html)。對于HTTP集成抓包,前面我們曾介紹過Mitmproxy(詳見http://www.site-digger.com/html/articles/20181109/682.html)。

我們需要模擬操作微信完成如下步驟:

1. 啟動微信App

2. 點擊"通訊錄"

3. 點擊"公眾號"

4. 點擊要采集的公眾號

5. 點擊右上角的用戶圖像圖標

6. 點擊"全部消息"

此時,我們可以從https://mp.weixin.qq.com/mp/profile_ext?action=home的應答數(shù)據(jù)中捕獲__biz、appmsg_token以及pass_ticket三個關(guān)鍵參數(shù),以及請求頭中的Cookie值。如下圖所示。

有了上述四個參數(shù),我們就可以構(gòu)造出獲取歷史文章列表的API請求,通過調(diào)用API接口直接獲取數(shù)據(jù)(不需要再模擬App操作)。核心參數(shù)如下所示,通過改變offset參數(shù),可以拿到所有歷史數(shù)據(jù)。

# Cookie 
headers = {'Cookie': 'rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN; pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE; wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO'} 
 
url = 'https://mp.weixin.qq.com/mp/profile_ext?' 
data = {} 
data['is_ok'] = '1' 
data['count'] = '10' 
data['wxtoken'] = '' 
data['f'] = 'json' 
data['scene'] = '124' 
data['uin'] = '777' 
data['key'] = '777' 
data['offset'] = '0' 
data['action'] = 'getmsg' 
data['x5'] = '0' 
# 下面三個參數(shù)需要替換 
# https://mp.weixin.qq.com/mp/profile_ext?action=home應答數(shù)據(jù)里會暴漏這三個參數(shù) 
data['__biz'] = 'MjM5MzQyOTM1OQ==' 
data['appmsg_token'] = '993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~' 
data['pass_ticket'] = 'Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE' 
url = url + urllib.urlencode(data)

以"數(shù)字工廠"這個微信公眾號為例,采集過程運行截圖如下所示:

輸出結(jié)果截圖如下所示:

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python快速優(yōu)雅的批量修改Word文檔樣式

    Python快速優(yōu)雅的批量修改Word文檔樣式

    本文主要將涉及os,glob,docx模塊的綜合應用,幫助大家快速批量修改Word文檔樣式實現(xiàn)辦公自動化,感興趣的朋友可以了解下
    2021-05-05
  • 如何用pandas讀取一個文件或某個文件夾下所有文件

    如何用pandas讀取一個文件或某個文件夾下所有文件

    這篇文章主要介紹了如何用pandas讀取一個文件或某個文件夾下所有文件問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-02-02
  • python切割圖片的實現(xiàn)示例

    python切割圖片的實現(xiàn)示例

    本文主要介紹了python切割圖片的實現(xiàn)示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2022-05-05
  • Pytorch訓練網(wǎng)絡(luò)過程中l(wèi)oss突然變?yōu)?的解決方案

    Pytorch訓練網(wǎng)絡(luò)過程中l(wèi)oss突然變?yōu)?的解決方案

    這篇文章主要介紹了Pytorch訓練網(wǎng)絡(luò)過程中l(wèi)oss突然變?yōu)?的解決方案,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • Python中jieba庫的使用方法

    Python中jieba庫的使用方法

    jieba庫是一款優(yōu)秀的 Python 第三方中文分詞庫,本文主要介紹了Python中jieba庫的使用方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • python繪制神器五角星+小黃人+櫻花

    python繪制神器五角星+小黃人+櫻花

    這篇文章主要介紹了python繪制神器五角星+小黃人+櫻花,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的朋友可以參考一下
    2022-07-07
  • Python類的繼承super相關(guān)原理解析

    Python類的繼承super相關(guān)原理解析

    這篇文章主要介紹了Python類的繼承super相關(guān)原理解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-10-10
  • Flask框架搭建虛擬環(huán)境的步驟分析

    Flask框架搭建虛擬環(huán)境的步驟分析

    這篇文章主要介紹了Flask框架搭建虛擬環(huán)境的步驟,結(jié)合實例形式分析總結(jié)了flask框架搭建虛擬環(huán)境的步驟、常見問題與解決方法,需要的朋友可以參考下
    2019-12-12
  • django緩存配置的幾種方法詳解

    django緩存配置的幾種方法詳解

    緩存對各位學習或者使用django的朋友們來說應該都不陌生,下面這篇文章主要給大家介紹了關(guān)于django緩存配置的幾種方法,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下
    2018-07-07
  • python asyncio 協(xié)程庫的使用

    python asyncio 協(xié)程庫的使用

    這篇文章主要介紹了python asyncio 協(xié)程庫的使用,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-01-01

最新評論