从腾讯“偷”到的3000万数据,究竟要怎么看?

今天看到了一篇文章:
《我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!》**
原作者写了一个爬虫,以自己为源头抓取好友的QQ,并根据抓取到的QQ数据,总结出了一份报告。
但是仔细阅读后,感觉这份报告趣味有余但是分析不足,还只是停留在看图说话的阶段,原作者还需要一个产品经理!
此言一出,就被朋友甩来一句:“you can you up”。
好吧,鉴于我没有亲自写爬虫抓数据,那么就用原文里的统计图,试试看图说话吧,帮助原作者发现更多内容。
1.活跃时间分布?

  • “夜猫子”比“早起的鸟”的数量还要多:凌晨1点的说说数量比早晨7点的多
  • 凌晨4点,大多数人睡得正香,熬夜的人也几乎要睡了,通宵的人也大概十分疲惫了
  • 大部分人的起床时间在6点到7点之间,因为斜率最大
  • 大部分人在8点后开始工作/上课,因为8点前后的两段时间的斜率变化十分明显
  • 越是临近中午,人们对工作越是会心不在焉。因为8点到12点之间的说说数量一直在增长(还记得学生时代,上午最后一节课的最后10分钟有多难熬嘛?)
  • 吃午饭时间玩手机刷空间,已经是生活常态了吧?
  • 午饭之后有人午睡、有人散步、有人读书、有人聊天,总之发说说的人少了
  • 当然,也有人午饭后直接开始了紧张的工作/学习,持续到下午饿/下班的时候
  • 相比晚饭,人们吃午饭的时间更加集中。发布说说的数量从25000+到28000+的规模,午饭用了一个小时(11-12),晚饭用了两个小时(17-19)
  • 22点的说说数量达到最大值,果然人到了深夜容易多愁善感
  • 22点之后,大多数人就开始睡觉了,说说数量迅速下降,下降幅度十分惊人

如果不看原文的话,看到这里,我大胆推测原作者的年龄大概在25岁左右,好友里面学生和已经工作人都有一些,且学生较多,在北京上海的工作人群也不会是样本的主流。因为从22点到23点的情况来看,似乎活跃度受到了某种外力的影响而急剧下降,我猜是学校里的熄灯制度造成的。从8点和17点之间的情况看,应该是标准的工作时间。如果在京沪早八点上班的话,一定会被拥堵的交通折磨直至迟到的。

2.生日分布?

这幅图,作者使用的数据是QQ用户的生日资料。原文里,这个部分是一个十分巨大的槽点

10月份生小孩的多好理解,一年忙差不多了,天气也不冷不热正是生小孩的好时候。 但1月份最高且和2月落差很大有点不好理解,那么冷的天生不怕冻吗? 我估计是1月份也快过年了,以前没聚一起的好不容易聚一起了,就容易冲动,冲动就啪啪啪。 4月份生日的最少也好理解,中国人不喜欢4这个数字呗。

还是看看我的分析吧:

  • 为什么1月的人数特别多?答案其实很简单:因为QQ默认的生日就是1月1日,很多人都没改默认值呀!
  • 为什么10月出生的人多?答案并不是原文中提到的“一年忙的差不多,天气也不冷不热正式生小孩的好时候”,真正的原因是……唉,原作者真是太可爱了……十月怀胎呀,那些十月份出生的孩子都是在前一年的年底“产生”的呀!那才是一年忙的差不多了的时候,而且天气冷也不方便出门,所以就……你说对吧?
  • 至于4月份出生的人少,同样的道理,你要往前推10个月才能知道原因,前一年的六七月份才是真正的生产日期……而且,想想几十年前没有空调的六七月份的高温,人们应该很难专注于人口增长事业吧……(我听说过最奇葩的分手理由是俩人在一起太热了,大抵如此)
  • 另外,如果把4月和10月的生日情况对应起来看,正好对应了前一年最冷和最热的时节,我仿佛已经看到了人口浮动的秘密……不过随着生活水平的提高,主要是取暖和制冷成本的降低,相信在未来,这条生日曲线会更加平缓

看到这里,我大胆推测原作者是南方人,因为4月出生的人实在是少的比较明显,说明夏天一定很热,如果再激进一点,大概可以把范围缩小到那几个著名的“火炉”所在的华中地区吧。

3.用户所在地分布

这部分我没有找到太多能推测的信息。不过还是可以补充一些:

  • 我在第二部分的猜测被证实了,原作者果然是南方人(福兰人)呢!
  • 原作者统计了人数前5名的省份:广东、湖南、四川、江苏,然后好奇为什么在四川人多……
  • 其实,答案很简单,因为四川人多呀…你再看看人数第五位是河南,为什么?因为河南人多呀…而且四川和河南距离原作者都不是很远。
  • 相比之下,人口大省山东,就没能大规模渗透到原作者的好友圈子,为什么?因为山东在北方,人们去霾都北京的意愿会更强烈吧。*

4.年龄分布

这部分也没有太多好说的了,年龄跨度其实不太大。不过还是有几点可以谈:

  • 我在第一部分的猜测被证实了,原作者25岁
  • 看图提问,为什么1991年的人口突然会比前后两年的人少呢?
  • 因为1991年是农历的羊年,有传言说“属羊的人命不好”、“十羊九不全”,所以羊年出生的人就比较少了…当然,我们都知道这其实只是谣言,并没有科学依据。唉,封建迷信害人呐… *

5.性别分布

性别统计方面,没填的部分可以按照已知的男女比例进行分配。

  • 考虑到有些女生会设置QQ空间的访问限制,以及有些女生会把性别改成男生用来防范骚扰,我们就当男女比例分别是60%和40%吧
  • 鉴于这样的男女比例,我推测原作者大概是个理工男吧
  • (无恶意的推测)原作者是单身吧 :D

原文还有一些语义和舆情的分析,在下短期内难以发现亮点,就不再继续了。

写在最后

  • 会写代码人最帅啦
  • 对数据敏感的人更帅
  • 这是一个大数据时代,数据的重要性不言而喻
  • 数据的确会说话,但是,数据也会骗人
  • 面对海量数据的时候,我们要保持冷静,擦亮双眼

以上
本文源地址:墨刀 - 免费的移动应用原型与线框图工具**

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容