Python抓取微信公众号全部文章

这是我第一条写关于爬虫的文章

一、抓取微信公众号的文章有如下几点需要注意的地方

1、利用微信接口进行抓取,每天-每个公众号只能调用1000次,而且,不能连续调用,也就是说,你调用300次左右,可能会被封一个小时左右,但总的来说,一天调用的上线是1000次

2、可能在你调用100多次的时候,会出现一个反爬的情况,就是当你获取文章列表的时候,点击获取,发现返回来的是空值,这时候,就要写个递归,继续调用,经过3-4次就会成功(亲身经历)

3、ip代理是必要的,无论是调用微信的接口还是搜狗微信,如果想持续并且获得大量的数据,没有ip,爬不了多少数据的

4、接下来,我将贴出我的代码

    4.1 引入用到的库:

4.2 初始化一些信息:

定义抓取成功的时候,通过邮件通知:

利用selenium进行模拟登陆:

内容的抓取,以及对反爬手段的处理:

程序执行的入口:

代码就如上面所示了,操作步骤:

url: 微信公众平台

注册登陆后:

1、在首页的,点击素材管理:

2、点击:

3、点击:

4:根据下图操作:

点击公众号的名称,就会显示所有的历史文章信息

上面的代码就是我爬取微信公众号的代码,如有疑问,可以评论或者私聊我

尚未解决,需要等高人指点:

微信公众号登陆的有效期,好像不到24小时,超过这个期限,就要重新扫码登陆,这是有点不方面的,未能做到全自动,这个需要等待有缘人来帮忙解决了

本人知乎链接(源码链接):知乎源码链接

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容