Python抓取微信公众号全部文章

这是我第一条写关于爬虫的文章

一、抓取微信公众号的文章有如下几点需要注意的地方

1、利用微信接口进行抓取，每天-每个公众号只能调用1000次，而且，不能连续调用，也就是说，你调用300次左右，可能会被封一个小时左右，但总的来说，一天调用的上线是1000次

2、可能在你调用100多次的时候，会出现一个反爬的情况，就是当你获取文章列表的时候，点击获取，发现返回来的是空值，这时候，就要写个递归，继续调用，经过3-4次就会成功（亲身经历）

3、ip代理是必要的，无论是调用微信的接口还是搜狗微信，如果想持续并且获得大量的数据，没有ip，爬不了多少数据的

4、接下来，我将贴出我的代码

4.1 引入用到的库：

4.2 初始化一些信息：

定义抓取成功的时候，通过邮件通知：

利用selenium进行模拟登陆：

内容的抓取，以及对反爬手段的处理：

程序执行的入口：

代码就如上面所示了，操作步骤:

注册登陆后：

1、在首页的，点击素材管理：

2、点击：

3、点击：

4:根据下图操作：

点击公众号的名称，就会显示所有的历史文章信息

上面的代码就是我爬取微信公众号的代码，如有疑问，可以评论或者私聊我

尚未解决，需要等高人指点：

微信公众号登陆的有效期，好像不到24小时，超过这个期限，就要重新扫码登陆，这是有点不方面的，未能做到全自动，这个需要等待有缘人来帮忙解决了

本人知乎链接（源码链接）：知乎源码链接

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。