今天看到了一篇文章:
《我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!》**
原作者写了一个爬虫,以自己为源头抓取好友的QQ,并根据抓取到的QQ数据,总结出了一份报告。
但是仔细阅读后,感觉这份报告趣味有余但是分析不足,还只是停留在看图说话的阶段,原作者还需要一个产品经理!
此言一出,就被朋友甩来一句:“you can you up”。
好吧,鉴于我没有亲自写爬虫抓数据,那么就用原文里的统计图,试试看图说话吧,帮助原作者发现更多内容。
1.活跃时间分布?
- “夜猫子”比“早起的鸟”的数量还要多:凌晨1点的说说数量比早晨7点的多
- 凌晨4点,大多数人睡得正香,熬夜的人也几乎要睡了,通宵的人也大概十分疲惫了
- 大部分人的起床时间在6点到7点之间,因为斜率最大
- 大部分人在8点后开始工作/上课,因为8点前后的两段时间的斜率变化十分明显
- 越是临近中午,人们对工作越是会心不在焉。因为8点到12点之间的说说数量一直在增长(还记得学生时代,上午最后一节课的最后10分钟有多难熬嘛?)
- 吃午饭时间玩手机刷空间,已经是生活常态了吧?
- 午饭之后有人午睡、有人散步、有人读书、有人聊天,总之发说说的人少了
- 当然,也有人午饭后直接开始了紧张的工作/学习,持续到下午饿/下班的时候
- 相比晚饭,人们吃午饭的时间更加集中。发布说说的数量从25000+到28000+的规模,午饭用了一个小时(11-12),晚饭用了两个小时(17-19)
- 22点的说说数量达到最大值,果然人到了深夜容易多愁善感
- 22点之后,大多数人就开始睡觉了,说说数量迅速下降,下降幅度十分惊人
如果不看原文的话,看到这里,我大胆推测原作者的年龄大概在25岁左右,好友里面学生和已经工作人都有一些,且学生较多,在北京上海的工作人群也不会是样本的主流。因为从22点到23点的情况来看,似乎活跃度受到了某种外力的影响而急剧下降,我猜是学校里的熄灯制度造成的。从8点和17点之间的情况看,应该是标准的工作时间。如果在京沪早八点上班的话,一定会被拥堵的交通折磨直至迟到的。
2.生日分布?
10月份生小孩的多好理解,一年忙差不多了,天气也不冷不热正是生小孩的好时候。 但1月份最高且和2月落差很大有点不好理解,那么冷的天生不怕冻吗? 我估计是1月份也快过年了,以前没聚一起的好不容易聚一起了,就容易冲动,冲动就啪啪啪。 4月份生日的最少也好理解,中国人不喜欢4这个数字呗。
还是看看我的分析吧:
- 为什么1月的人数特别多?答案其实很简单:因为QQ默认的生日就是1月1日,很多人都没改默认值呀!
- 为什么10月出生的人多?答案并不是原文中提到的“一年忙的差不多,天气也不冷不热正式生小孩的好时候”,真正的原因是……唉,原作者真是太可爱了……十月怀胎呀,那些十月份出生的孩子都是在前一年的年底“产生”的呀!那才是一年忙的差不多了的时候,而且天气冷也不方便出门,所以就……你说对吧?
- 至于4月份出生的人少,同样的道理,你要往前推10个月才能知道原因,前一年的六七月份才是真正的生产日期……而且,想想几十年前没有空调的六七月份的高温,人们应该很难专注于人口增长事业吧……(我听说过最奇葩的分手理由是俩人在一起太热了,大抵如此)
- 另外,如果把4月和10月的生日情况对应起来看,正好对应了前一年最冷和最热的时节,我仿佛已经看到了人口浮动的秘密……不过随着生活水平的提高,主要是取暖和制冷成本的降低,相信在未来,这条生日曲线会更加平缓
看到这里,我大胆推测原作者是南方人,因为4月出生的人实在是少的比较明显,说明夏天一定很热,如果再激进一点,大概可以把范围缩小到那几个著名的“火炉”所在的华中地区吧。
3.用户所在地分布
- 我在第二部分的猜测被证实了,原作者果然是南方人(福兰人)呢!
- 原作者统计了人数前5名的省份:广东、湖南、四川、江苏,然后好奇为什么在四川人多……
- 其实,答案很简单,因为四川人多呀…你再看看人数第五位是河南,为什么?因为河南人多呀…而且四川和河南距离原作者都不是很远。
- 相比之下,人口大省山东,就没能大规模渗透到原作者的好友圈子,为什么?因为山东在北方,人们去霾都北京的意愿会更强烈吧。*
4.年龄分布
- 我在第一部分的猜测被证实了,原作者25岁
- 看图提问,为什么1991年的人口突然会比前后两年的人少呢?
- 因为1991年是农历的羊年,有传言说“属羊的人命不好”、“十羊九不全”,所以羊年出生的人就比较少了…当然,我们都知道这其实只是谣言,并没有科学依据。唉,封建迷信害人呐… *
5.性别分布
- 考虑到有些女生会设置QQ空间的访问限制,以及有些女生会把性别改成男生用来防范骚扰,我们就当男女比例分别是60%和40%吧
- 鉴于这样的男女比例,我推测原作者大概是个理工男吧
- (无恶意的推测)原作者是单身吧 :D
原文还有一些语义和舆情的分析,在下短期内难以发现亮点,就不再继续了。
写在最后
- 会写代码人最帅啦
- 对数据敏感的人更帅
- 这是一个大数据时代,数据的重要性不言而喻
- 数据的确会说话,但是,数据也会骗人
- 面对海量数据的时候,我们要保持冷静,擦亮双眼
以上
本文源地址:墨刀 - 免费的移动应用原型与线框图工具**