Will是何人?(酷炫的数据分析--多图预警)

<p>
今天突然回想起来,自己半年前参加的一个大数据入门培训(作为运营部门的人,是一定要时不时充实自己的水平的!)。当时有一个小程序展示,真是让我鸡皮疙瘩掉一地,这里就来和大家分享一个下。
</p>
<p>
这次大数据分析呢,用的是国内外还是比较出名的分析系统(价格真是的很吓人……),它的名字叫Tableau。今天我们就要用它来分析一位路人甲--Will的生活。
</p>
<p>
这次分析的数据来源是一个本地的报纸做的数据分析竞赛,报纸网站上提供了一个路人甲Will掩盖过的手机数据(包括通话类型,数据流量,联网世界和链接的信号塔位置等),可惜竞赛已经结束了数据自然也没地方下载啦,不然我一定亲自操刀演练一遍。
</p>
<p>
好,让我们来用<strong>几分钟</strong>的时间搞清楚路人甲的“隐私”。
</p>
<p>
先来看看这位仁兄的通话量:


总量

可以看得出来,从2014年9月中旬开始数据量突然就增加了许多,在12月底更是到达了顶峰。我们猜测Will一定是在9月购买了一台新的智能手机(说不定还是Iphone,因为苹果往往是9月发布新机嘛),突然多出来的应该是手机的流量。
</p>
<p>
让我们用不同的颜色来区分一下数据类型:


总量分类

果然,通过左边的comm type(communication type),我们就能看出来,确实在14年9月之前,他是没有用手机上过网的……可以猜测出主人公的年龄应该不小了吧
</p>
<p>
经过简单的排列,我们还能发现,15年2月份有一大片数据是空白的:
总量分类2

这是个分析竞赛提供的数据,按理说是不会有数据丢失的问题,所以这个空白一定也是有什么特殊原因的,我们待会儿再看。
</p>
<p>
看完了数据量的情况,我们来看看数据采集的地理位置:
省份级别地图

由于是澳洲的数据,Tableau根据根据数据中的省份和邮编自动将数据分割到了3个省,分别是新南威尔士,维多利亚和塔斯马尼亚。由于71%以上的数据都是在新州采集的,我们假设这位兄台平时生活在新南威尔士,放大到这块区域来看看能发现什么。
</p>
<p>
左手边是Tableau根据信号塔位置和数据量显示出的地图,点的大小显示除了数据量的大小,右上是根据周来分割的数据量,右下的数据量是根据小时来分割的,颜色区分了通话的类型(在地图中点亮了数量的大小):
悉尼-时间分类

可以轻易看出,图中最密集的地方是悉尼市中心,其次是北悉尼的海边。通过右下的图来分析,我们也能猜测出Will早上6点多起来,出门上班,晚上21点以后就不打电话了,在床上玩会儿手机就睡了。
</p>
<p>
还是同一张图,如果我们把数据的范围(右下)缩小到0点到4点,也就是睡觉时间:


悉尼-0到4点

我们会发现,地图上少量数据在悉尼市中心(加班?)主要的数据都是在北悉尼采集的,这就说明了这位志愿者他家就住在那附近,是个大土豪啊!(注:北悉尼房价高,富翁多)
</p>
<p>
反过来看看市中心的数据:
悉尼市中心

果然,Will大都是周一到周五在中心活动,也说明了他确实是在市中心上班的。
</p>
<p>
回到上面说的2月消失的数据,我们把时间焦距到消失前的最后一天2月9日和再度出现的那一天3月3日:
离开
到达

地图1上的大点是悉尼国际机场,右下的时间告诉了我们,他9点到的机场,12点信号消失了。提早3小时到达机场?那可不是出国旅游了吗?
图2来看,他回来的时间是早上7点,8点清关出来,然后直奔回家休息了。
了解本地飞机的朋友可能还能发现另一个信息,悉尼机场一般同时满足在12点附近起飞,7点左右到达的通常都是去新加坡或者美国的航班。
<strong>你们看,只要这几分钟时间,一个人住哪,在哪工作,去哪度假基本都可以被挖掘出来。</strong>
</p>
<p>
看完了新南威尔士,咱们迅速的看看别的省:


塔斯马尼亚

Will出现在塔斯马尼亚最频繁的时间是圣诞节前后,和我们中国人一样,人家过年过节也要回老家庆祝的嘛,说明他的亲戚住在塔州,是个塔斯马尼“乡村”土豪啊……


维多利亚

再来看看维多利亚省的,一共就3天,而且在一个周末,地理位置也不是市中心,可以简单的猜测出这个是他全家某个周末出游的地方。
</p>
<p>
最后呢,我们来看看主人公都是谁联系过:
通话对象

第一纵列是联系人电话,由于是公开的数据,所以都被遮掩了,假设是联系人a,b,c,d……吧。
这个图我们也能比较直观的看出来,和a的联系通常都是用短信,下午下班后的联系比较多。不知道大家的习惯是怎么样的,我自己的偏向于和(女)朋友发短信多于打电话的。
再看看b,c这两位,基本都是在打电话,而且通话的时间段覆盖了上班时间,这也就说明了b和c估计和主人公是同事关系吧?

</p>
<p>
到此,我们仅仅通过几分钟的时间,就搞清楚了有关Will的很多隐私信息。如果我们继续深入,比如通过地理位置来分析通话时间地点猜测通话对象和Will是什么关系等等,我们就会发现个人隐私在正确的分析下是多么的没有保障……联想到淘宝上叫卖的各种客户信息,我便不再天真的以为21世纪的人是可以有隐私的了:(
</p>
<p>
发这篇文章的原因呢,纯粹是出于对这个行业的热爱,认为新鲜有趣的东西就应该搬回来和大家分享分享。有兴趣的朋友可以在<a href="https://vimeo.com/136721058">这里</a>找到原视频,希望这篇文章对不知道怎么用数据来<strong>帮助决策</strong>的人有所启发。
</p>
<p>
多谢支持
</p>
<p>
</p>

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容