用爬虫获取简书总用户数和总文章数随时间的变化曲线

思路

关键在于如何得到一系列的文章、用户全局编号以及文章发表和用户注册的时间戳,作为时间-数量曲线上的二维点。希望这些点能够随时间较为均匀地分布,这样,几百个采样点足矣。

然而用来访问简书文章和用户页面里是编号的hash值,因此不可能简单通过编号递增的方法产生访问地址来获得时间戳。

但稍加分析可发现,用户的文章列表中有个note-id字段,似乎就是文章本身的全局编号。那么,找一个简书创立之初就开始连续发表文章的用户,例如@简书,那么,遍历文章列表获得note-id和对应发表时间就可搞定文章总数的时间曲线。

对于用户数量,发现搜索用户的功能里ajax请求可返回包含用户全局id的json信息,而用户主页的动态中,第一条为用户加入简书的时间。那么,可搜索常用用户名的单字,例如“小”,“的”之类,可保证较为均匀地获得简书创立之初直到现在的用户信息。

获取方法

根据前述思路,写js脚本,在chrome浏览器中,简书页面之下运行即可,好处是不用写登录逻辑,且满足同源策略方便ajax。细节比较简单,不赘述。

结果

把结果按照时间排序,绘制得到:

简书用户数、文章数的时间曲线

可见目前文章数超过1200万,用户数超过600万。总体而言,曲线平稳上升。对比之下,文章数上升更快,说明大家的创作热情越来越强了。
另外,看到2015年7月附近有些跳变,推测是做了推广吧。

思考题:如何获得简书的日活?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,046评论 25 709
  • 江水两岸风景旧,满园春色香几里,伊人隔水,无船无桨,情路长,尝断肠。 茜纱窗下,我本无缘,黄土垄中,卿何薄命。
    lrfc_adbe阅读 643评论 0 0
  • 引言 依赖注入,有后端背景的童鞋(尤其是熟悉java spring框架的)应该不会陌生,提到依赖注入,就不得不说一...
    OnePiece索隆阅读 8,804评论 0 4
  • 女儿期末考试成绩出来了,班级第32名,距上次班级第4名下滑了28名。从当天早上开始朋友圈的各路好友就开始晒各自家...
    sophie的二次学习日志阅读 4,704评论 0 0
  • 《刘润商学院》6.21 热炉法则,一碰就烫手,在管理中规章制度必须像热炉,让执行者一旦触碰就会烫,那么他在执行时才...
    台一DDM路静娟阅读 1,215评论 0 0