为啥要分析?
喜欢数据分析,最近在研究python爬虫和数据分析,也喜欢在简书上面写文章,于是设计了一个爬虫系统,来玩玩我每天都看的‘每天1000字’专题。声明:所有数据都通过网络爬取,只代表个人意见,并无任何权威支持。
数据来源:简书.每天1000字 专题
数据时间:2016.3.30-2016.5.09
数据量:27000篇文章的信息
什么类型的文章最受欢迎?
通过对每篇文章的阅读量的排序,我选取了阅读量前50的文章,其中,与职场有关的工具类文章大受欢迎。PS(欢乐颂真的火得不要不要的)
要想自己的文章获得更多的阅读量,不妨参考一下阅读量TOP50
哪个时段用户最活跃?
这个问题其实很好回答,常理来说就是晚上时段,但是为了严谨科学的态度证明,对各个文章的发表时间进行了分析。
作者角度
42天内,一共有6984篇文章是发布于晚间,也就是说27.5%的作者会选择在晚上9点到12点这段时间发表文章。
读者角度
在过去的一个多月中,27.5%的阅读点击量是阅读在晚上9点到12点时候发布的文章。
虽然不能直接说明读者是在晚上9点到12点阅读的文章,但至少从作者和读者两个角度可以为证明“晚上是简书用户最活跃的时候”这一论点提供证明。
啥时候发表文章被阅读可能性大?
既然活跃时间是在晚上,那当然是晚上发表文章比较好啊?慢着,我们现在在讨论数据分析,任何分析都是基于现实的。我们先分析一下简书《每天1000字》用户的阅读习惯,这部分用户阅读这一专题一般都是刷到哪里读到哪里,简书的设计一页9篇文章,很少有人刷个几百页去翻前几天的文章,也就是说,我什么时候打开文章,看到的那篇文章被阅读的可能性就更大。
那到底是不是在晚上这段时间发表文章最好呢?
很神奇是吧?这就是我数据的魅力,数据往往能告诉我们很多表面上看不见的事情:最活跃的时段发表的文章的平均阅读量居然是最低的。夜间用户活跃,但是发表文章多,更新快,因此很快被更新的内容刷新页面。
也就是说,如果作者有很多关注者,可以选择在晚上发表文章,因为在线用户多。然而,如果你只是像我一样写文章为了好玩,阅读量多或少都随缘,就可以在早上06:00-09:00时发表文章。这个时间段,作者一般没时间写文章,然而读者可能在通勤的路上会进行刷新阅读。
谁是劳模?——相信坚持的力量
这个专题的主要推动大家每天都写一点文章,我分析了一下作者和所发表的文章数。
劳模“赵泽清”阅读量最多的12篇文章
发表文章最多的“赵泽青”,42天内发表了203篇文章,堪称劳模。数据库中共有9800位作者,而真正能做到每天发表一篇文章的十个都不到。所以能把一件事情一直做下去,风雨不改,内心的坚韧和热爱足以让我敬佩。
谁是大作家?谁的文章最受欢迎?
总阅读量就是写得好的指标之一。很多人也许希望关注一些作者,却不知道在鱼龙混杂的作者中关注谁,我通过对每个作者的文章的平均阅读数进行了排序,大家不妨参考下表,多多关注高水平作家
好作家指标——文章平均阅读数TOP15
27000篇文章的平均的阅读量239
如果你发表文章的阅读量在239以上,恭喜你,你超过了得到了average以上人的青睐。
做了两天的数据爬虫和分析,作为一个数据初学者着实不容易,之后几天可能会出简书热门文章的分析,或者简书首页投稿专题的数据分析。时间匆忙,图表和排版尚没有时间进行好好编排,敬请担待!
python爬虫代码:https://github.com/hayleyhou/jianshu-spider