如何爬取微信公众号文章(一)

微信公众号是目前最为流行的自媒体之一,上面有大量的内容,如何将自己感兴趣的公众号内容爬取下来,离线浏览,或者作进一步的分析呢?
下面我们讨论一下微信公众号文章的爬取。


image.png

环境搭建

  • windows 7 x64
  • python3.7 (Anaconda 3)
  • vscode编辑器
  • Firefox开发版

爬虫原理分析

首先网页登陆微信公众平台(https://mp.weixin.qq.com/),登陆成功后,点击新建群发->自建图文,插入超连接在如下的对话框中,点击选择其他公众号。

编辑超链接

在弹出的编辑超链接的对话框中,输入想要爬取的公众号名字,回车
搜索公众号

下拉列表中第一个就是我们想找的,点击它,弹出的这个公众号的文章列表,是按照时间排序的。
文章列表

我们看一下这个过程中前后端交互的HTTP请求和响应。

检索公众号

请求url: https://mp.weixin.qq.com/cgi-bin/searchbiz
方法: GET
提交的参数为

{
   "action": "search_biz",
   "begin": "0",
   "count": "5",
   "query": "地球知识局",
   "token": "138019412",
   "lang": "zh_CN",
   "f": "json",
   "ajax": "1"
}

请求中的字段

action 动作
begin 列表的起始
count 列表的数目
query 查询的字符串
f 参数格式 这里为json
ajax 应该代码ajax请求
lang 语言 这里是中文
token 这应该是授权信息,下文会深究

得到的响应为

{
    "base_resp": {
        "ret": 0,
        "err_msg": "ok"
    },
    "list": [
        {
            "fakeid": "MzI1ODUzNjQ1Mw==",
            "nickname": "地球知识局",
            "alias": "diqiuzhishiju",
            "round_head_img": "http://mmbiz.qpic.cn/mmbiz_png/DCftNYRGoKWLHFETxuTzGBguTwAibl0p8BpXmNIkBTmNth2Vd6vEWibtT8mLYWG6e5aiaa97u5LmjhbXn19a8Cr6g/0?wx_fmt=png",
            "service_type": 1
        },
        {
            "fakeid": "MzU5MjI3MzIyMg==",
            "nickname": "地球知识局库",
            "alias": "",
            "round_head_img": "http://mmbiz.qpic.cn/mmbiz_png/b5kRqlMaRNHJnJ1ibFUPOichbvtVGk7CWicj406ZAccBuOpr2JibShHSAvUN7iaSuQj3rN66P8akeKa63rjy11NNkicw/0?wx_fmt=png",
            "service_type": 2
        },
        {},
        {},
        {}
    ],
    "total": 45
}

响应中各字段的含义不难看出

fakeid 为该公众号的唯一的id,为一串bs64编码
nikename 为公众号的名称
alias 为别名
round_head_img 为圆形logo的url
service_type 服务类型 不太清楚 没必要深究用不到

获取公众号文章列表

请求网址:https://mp.weixin.qq.com/cgi-bin/appmsg
请求方法:GET
提交的参数:

{
    "action": "list_ex",
    "begin": "0",
    "count": "5",
    "fakeid": "MzI1ODUzNjQ1Mw==",
    "type": "9",
    "query": "", 
    "token": "138019412",
    "lang": "zh_CN",
    "f": "json",
    "ajax": "1"
}

action 行为
begin 列表开始索引
count 列表返回的公众号的时间区间长度,如5表示返回5天的数据
fakeid 这个公众号的ID
type 不知道
query 检索的关键字,这里为空
token 用户的token
lang 语言
f 数据格式,这里为json
ajax

响应为

{
    "app_msg_cnt": 919,
    "app_msg_list": [
        {
            "aid": "2247518136_1",
            "appmsgid": 2247518136,
            "cover": "https://mmbiz.qlogo.cn/mmbiz_jpg/DCftNYRGoKWG0USHVfs1FG2pGKfz0BMUI3FLibHTrYe1a7WMKzZnazCKDJ9OUfuibGbewFqIiakic8MEqDkNiaXHH7w/0?wx_fmt=jpeg",
            "create_time": 1578235906,
            "digest": "三不管地带容易出问题",
            "is_pay_subscribe": 0,
            "item_show_type": 0,
            "itemidx": 1,
            "link": "http://mp.weixin.qq.com/s?__biz=MzI1ODUzNjQ1Mw==&mid=2247518136&idx=1&sn=812ec79199ae793f28770287969d0f2b&chksm=ea0462d2dd73ebc40f6ecc4f1f52fb2a3e0c798ca152aa89cc42b8e77ef6e54234695ad43025#rd",
            "tagid": [],
            "title": "肆虐非洲的“博科圣地”究竟是什么?",
            "update_time": 1578235905
        },
        {},
        {}
           
    ],
    "base_resp": {
        "err_msg": "ok",
        "ret": 0
    }
}

响应的字段

app_msg_cnt 表示这个公众号已经发布了919次文章,不代表919篇文章
aid 文章唯一的id,应该是
appmsgid 代表一次群发,如三篇文章是一次性群发的,其appmsgid相同
cover 文章封面图片的url
create_time 创建时间戳
digest 文章的摘要信息
is_pay_subscribe
item_show_type
itemidx 在这次群发中的序号
link 文章的url
tagid 为一个列表
title 文章的标题
update_time 文章更新的时间戳
这些已经包含了一篇文章的元数据了。

token从哪儿来

上面的GET方法提交的参数有中都有个token字段,这个字段的用途应该鉴权用的,这个值从哪儿来的?我们在前面的HTTP请求中找,发现几乎所有的请求中的都带有这个token,我猜测这个token是用户登陆时从后端返回来的。
为了印证这个判断,重新登陆一次,发现了有这样的一个HTTP请求。
请求网址:https://mp.weixin.qq.com/cgi-bin/bizlogin?action=login
请求方法:POST
表单数据:

{
    "userlang": "zh_CN",
    "redirect_url": "",
    "token": "",
    "lang": "zh_CN",
    "f": "json",
    "ajax": "1"
}

响应:

{
    "base_resp": {
        "err_msg": "ok",
        "ret": 0
    },
    "redirect_url": "/cgi-bin/home?t=home/index&lang=zh_CN&token=1193797244"
}

后端返回了一个重定向的uri,其中就包含了token的值。
完成这个请求后,页面进行了重定向,并且以后的每次请求都有会有lang=zh_CN&token=xxxx这两个参数。

代码实现

完成了上面这些分析,下面我们进行代码实现。

# -*- coding:utf-8 -*-
# written by wlj @2020-1-6 23:12:47 
#功能:爬取一个公众号的所有历史文章存入数据库
#用法:python wx_spider.py [公众号名称] 如python wx_spider.py 地球知识局
import time
import json
import requests,re,sys
from requests.packages import urllib3
from pymongo import MongoClient
urllib3.disable_warnings()

#全局变量
s = requests.Session()
headers = {
    'User-Agent':"Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",
    "Host": "mp.weixin.qq.com",
    'Referer':'https://mp.weixin.qq.com/'
}
#cookies 字符串,这是从浏览器中拷贝出来的字符串,略过不讲
cookie_str = "xxxx"
cookies = {}

#加载cookies,将字符串格式的cookies转化为字典形式
def load_cookies():
    global cookie_str,cookies
    for item in cookie_str.split(';'):
        sep_index = item.find('=') 
        cookies[item[:sep_index]] =item[sep_index+1:]

#爬虫主函数
def spider():
    #本地的mongodb数据库
    mongo = MongoClient('127.0.0.1',27017).wx.gzh
    #加载cookies
    load_cookies()

    #访问官网主页
    url = 'https://mp.weixin.qq.com'
    res = s.get(url=url,headers=headers,cookies = cookies,verify=False)
    if res.status_code ==  200:
        #由于加载了cookies,相当于已经登陆了,系统作了重定义,response的url中含有我们需要的token
        print(res.url)

        #获得token
        token = re.findall(r'.*?token=(\d+)',res.url)
        if token:
            token = token[0]
        else:#没有token的话,说明cookies过时了,没有登陆成功,退出程序
            print('登陆失败')
            return

        print('token',token)

        #检索公众号
        url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz'
        data = {
            "action": "search_biz",
            "begin": "0",
            "count": "5",
            "query": sys.argv[1],
            "token": token,
            "lang": "zh_CN",
            "f": "json",
            "ajax": "1"
        }
        res = s.get(url=url,params = data,cookies=cookies,headers=headers,verify=False)
        if res.status_code == 200:
            #搜索结果的第一个往往是最准确的
            #提取它的fakeid
            fakeid = res.json()['list'][0]['fakeid']
            print('fakeid',fakeid)

            page_size = 5
            page_count = 1
            cur_page = 1

            #分页请求文章列表
            while cur_page <= page_count:
                url = 'https://mp.weixin.qq.com/cgi-bin/appmsg'
                data = {
                    "action": "list_ex",
                    "begin": str(page_size*(cur_page-1)),
                    "count": str(page_size),
                    "fakeid": fakeid,
                    "type": "9",
                    "query": "", 
                    "token": token,
                    "lang": "zh_CN",
                    "f": "json",
                    "ajax": "1"
                }
                res = s.get(url=url,params = data,cookies=cookies,headers=headers,verify=False)
                if res.status_code == 200:
                    print(res.json())
                    print('cur_page',cur_page)
                    #文章列表位于app_msg_list字段中
                    app_msg_list = res.json()['app_msg_list']
                    for item in app_msg_list:
                        #通过更新时间戳获得文章的发布日期
                        item['post_date'] = time.strftime("%Y-%m-%d",time.localtime(int(item['update_time'])))
                        #插入数据库,如果已经存在同aid的话,更新,不存在,插入
                        mongo.update_one(
                            {'aid':item['aid']},
                            {"$set":item},
                            upsert=True
                        )
                        print(item['post_date'],item['title'])
                    
                    if cur_page == 1:#若是第1页,计算总的分页数
                        #总的日期数,每page_size天的文章为一页
                        app_msg_cnt = res.json()['app_msg_cnt']
                        print('app_msg_cnt',app_msg_cnt)
                        #计算总的分页数
                        if app_msg_cnt % page_size == 0:
                            page_count = int(app_msg_cnt / page_size)
                        else:
                            page_count = int(app_msg_cnt / page_size) + 1
                    
                #当前页面数+1
                cur_page += 1
                

            print('完成!')
    

spider()

结果

爬取的结果

可以看到,所有文章的元数据已经存入数据库了。
下一节,我们讲如何利用文章的url来爬取文章内容,这个比较简单。
这儿还存在一个问题,腾讯的这个接口有频率限制,当爬取的次数太多,频率太快时,就请求不到数据了,会返回这样的信息。

{'base_resp': {'err_msg': 'freq control', 'ret': 200013}}

至少间隔一天,这个账号才能继续爬取,不知道如何破解。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容