简书用户的抓取也持续了几天,由于是单线程所以跑起来太慢了,到现在也只有40万+数据,本想做一个web使简书的小伙伴们可以检索自己的排名,奈何最近事情太多,就先简单的来谈一下简书用户数据的抓取,等数据量上来之后在具体列排行榜。
整体思路
一个网站的用户很多,并且想要全部抓取也是不可能的,能做的就是尽可能抓取多的用户信息,所以我的想法就是有两条线:
- 1.解析一个作者关注的人,然后再去解析作者关注的关注,一层层解析
- 2.和第一点同理,解析作者的粉丝,接着去解析粉丝的粉丝。
想好了这样的一个思路接下来就要考虑从哪些作者入手
选定抓取入口
因为不管是解析粉丝还是关注,都需要这个的粉丝量或者关注量比较大,这里我就想从粉丝或者关注数量比较大的入手,想到简书有推荐作者,并且推荐作者的粉丝量必然不小。
一个人的粉丝数量就是4万+,逐层解析之后用户数量肯定不少,决定以这个方式去爬取数据之后,就准备开始整代码。
实现方法
这里说一下我自己考虑的不是很周到的问题:
- 1.这里我是采用了单线程,没有使用scrapy,导致效率降低了非常多
- 2.爬取的字段太少,综合逻辑可能存在问题
具体代码后续再上,页面分析都是通过抓包构造URL进行分页处理,然后再去通过唯一id构造个人主页URL信息,去爬个人信息,差不多就是这个思路,可以参考一下。