爬虫|使用python爬取微信公众号全部的文章(永久链接)——技术难点

前一篇文章我利用Anyproxy爬取微信公众号文章及临时链接转永久链接,这个方法可以获取到文章的点赞数,阅读数之类的信息。如果你的需求只是需要获取某个微信公众号的所有文章,并且文章的链接是永久链接,那么看看我这篇文章上介绍的方法吧。

一、先说破解之道

破解的关键就是利用微信公众号后台素材管理-新建图文素材-超链接-查找文章(公众号)的接口。如下图:

进入微信公众号后台-素材管理-新建图文素材-新建图文消息
超链接-查找文章(公众号)

二、具体破解方法

2.1 通过selenium+webdriver获取公众号的Cookie

因为在公众号后台请求“查找文章(公众号)”接口时需要一个微信公众号的Cookie,所以在爬文章内容之前需要先获取一个可用的Cookie。这块相对来说比较简单,我就直接贴上我写的代码。PS:尽情优化完善吧。

获取Cookie

2.2 通过微信公众号获取公众号文章接口获取文章

1)微信公众号登陆地址:https://mp.weixin.qq.com/

2)登录之后获取token。

3)利用微信公众号后台新建图文消息,搜索公众号名称,需要上一步的token。

搜索公众号

并且通过接口返回的内容获取公众号的fakeid。

获取公众号的fakeid

4)选定要爬取的公众号,获取文章接口地址,需要上一步的fakeid。

5)文章列表翻页及内容获取。

文章列表第一页


翻页和内容

三、完整代码

完成代码

四、这个可是技术难点呢,点个赞呗

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容