思路
关键在于如何得到一系列的文章、用户全局编号以及文章发表和用户注册的时间戳,作为时间-数量曲线上的二维点。希望这些点能够随时间较为均匀地分布,这样,几百个采样点足矣。
然而用来访问简书文章和用户页面里是编号的hash值,因此不可能简单通过编号递增的方法产生访问地址来获得时间戳。
但稍加分析可发现,用户的文章列表中有个note-id字段,似乎就是文章本身的全局编号。那么,找一个简书创立之初就开始连续发表文章的用户,例如@简书,那么,遍历文章列表获得note-id和对应发表时间就可搞定文章总数的时间曲线。
对于用户数量,发现搜索用户的功能里ajax请求可返回包含用户全局id的json信息,而用户主页的动态中,第一条为用户加入简书的时间。那么,可搜索常用用户名的单字,例如“小”,“的”之类,可保证较为均匀地获得简书创立之初直到现在的用户信息。
获取方法
根据前述思路,写js脚本,在chrome浏览器中,简书页面之下运行即可,好处是不用写登录逻辑,且满足同源策略方便ajax。细节比较简单,不赘述。
结果
把结果按照时间排序,绘制得到:
可见目前文章数超过1200万,用户数超过600万。总体而言,曲线平稳上升。对比之下,文章数上升更快,说明大家的创作热情越来越强了。
另外,看到2015年7月附近有些跳变,推测是做了推广吧。
思考题:如何获得简书的日活?