快捷導(dǎo)航

Python 抓取微信公眾號(hào)賬號(hào)信息的方法

更新時(shí)間：2019年06月14日 08:40:03 作者：IT白鴿

搜狗微信搜索提供兩種類型的關(guān)鍵詞搜索，一種是搜索公眾號(hào)文章內(nèi)容，另一種是直接搜索微信公眾號(hào)。這篇文章主要介紹了Python 抓取微信公眾號(hào)賬號(hào)信息,需要的朋友可以參考下

搜狗微信搜索提供兩種類型的關(guān)鍵詞搜索，一種是搜索公眾號(hào)文章內(nèi)容，另一種是直接搜索微信公眾號(hào)。通過(guò)微信公眾號(hào)搜索可以獲取公眾號(hào)的基本信息及最近發(fā)布的10條文章，今天來(lái)抓取一下微信公眾號(hào)的賬號(hào)信息

爬蟲(chóng)

首先通過(guò)首頁(yè)進(jìn)入，可以按照類別抓取，通過(guò)“查看更多”可以找出頁(yè)面鏈接規(guī)則：

import requests as req
import re
reTypes = r'id="pc_\d*" uigs="(pc_\d*)">([\s\S]*?)</a>'
Entry = "http://weixin.sogou.com/"
entryPage = req.get(Entry)
allTypes = re.findall(reTypes, getUTF8(entryPage))
for (pcid, category) in allTypes:
  for page in range(1, 100):
    url = 'http://weixin.sogou.com/pcindex/pc/{}/{}.html'.format(pcid, page)
    print(url)
    categoryList = req.get(url)
    if categoryList.status_code != 200:
      break

上面代碼通過(guò)加載更多頁(yè)面獲取加載列表，進(jìn)而從其中抓取微信公眾號(hào)詳情頁(yè)面：

reProfile = r'<li id[\s\S]*?<a href="([\s\S]*?)" rel="external nofollow" '
allProfiles = re.findall(reOAProfile, getUTF8(categoryList))
for profile in allProfiles:
  profilePage = req.get(profile)
  if profilePage.status_code != 200:
    continue

進(jìn)入詳情頁(yè)面可以獲取公眾號(hào)的名稱/ID/功能介紹/賬號(hào)主體/頭像/二維碼/最近10篇文章等信息：

注意事項(xiàng)

詳情頁(yè)面鏈接： http://mp.weixin.qq.com/profile?src=3&timestamp=1477208282&ver=1&signature=8rYJ4QV2w5FXSOy6vGn37sUdcSLa8uoyHv3Ft7CrhZhB4wO-bbWG94aUCNexyB7lqRNSazua-2MROwkV835ilg==

1. 驗(yàn)證碼

訪問(wèn)詳情頁(yè)面時(shí)有可能需要驗(yàn)證碼，自動(dòng)識(shí)別驗(yàn)證碼還是很有難度的，因此要做好爬蟲(chóng)的偽裝工作。

2. 未保存詳情頁(yè)面鏈接

詳情頁(yè)面的鏈接中有兩個(gè)重要參數(shù)： timestamp & signature ，這說(shuō)明頁(yè)面鏈接是有時(shí)效性的，所以保存下來(lái)應(yīng)該也沒(méi)用；

3. 二維碼

二維碼圖片鏈接同樣具有時(shí)效性，因此如需要最好將圖片下載下來(lái)。

用 Flask 展示結(jié)果

最近 Python 社區(qū)出現(xiàn)了一款異步增強(qiáng)版的 Flask 框架： Sanic ，基于 uvloop 和 httptools ，可以達(dá)到異步、更快的效果，但保持了與 Flask 一致的簡(jiǎn)潔語(yǔ)法。雖然項(xiàng)目剛起步，還有很多基本功能為實(shí)現(xiàn)，但已經(jīng)獲得了很多關(guān)注（ 2,222 Star ）。這次本打算用抓取的微信公眾號(hào)信息基于 Sanic 做一個(gè)簡(jiǎn)單的交互應(yīng)用，但無(wú)奈目前還沒(méi)有加入模板功能，異步的 redis 驅(qū)動(dòng)也還有 BUG 沒(méi)解決，所以簡(jiǎn)單嘗試了一下之后還是切換回 Flask + SQLite，先把抓取結(jié)果呈現(xiàn)出來(lái)，后續(xù)有機(jī)會(huì)再做更新。

安裝 Sanic

Debug Sanic

Flask + SQLite App

from flask import g, Flask, render_template
import sqlite3
app = Flask(__name__)
DATABASE = "./db/wx.db"
def get_db():
  db = getattr(g, '_database', None)
  if db is None:
    db = g._database = sqlite3.connect(DATABASE)
  return db
@app.teardown_appcontext
def close_connection(exception):
  db = getattr(g, '_database', None)
  if db is not None:
    db.close()
@app.route("/<int:page>")
@app.route("/")
def hello(page=0):
  cur = get_db().cursor()
  cur.execute("SELECT * FROM wxoa LIMIT 30 OFFSET ?", (page*30, ))
  rows = []
  for row in cur.fetchall():
    rows.append(row)
  return render_template("app.html", wx=rows, cp=page)
if __name__ == "__main__":
  app.run(debug=True, port=8000)

總結(jié)

以上所述是小編給大家介紹的Python 抓取微信公眾號(hào)賬號(hào)信息,希望對(duì)大家有所幫助，如果大家有任何疑問(wèn)請(qǐng)給我留言，小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持！
如果你覺(jué)得本文對(duì)你有幫助，歡迎轉(zhuǎn)載，煩請(qǐng)注明出處，謝謝！

您可能感興趣的文章: