从《东方快车谋杀案》 跟“阿婆”一起玩儿探索性分析

提到“探索性数据分析”大家可能会觉得有些陌生,这个专业名词似乎离我们的生活很遥远,其实不然,在热映电影《东方快车谋杀案》中,神探波洛正是利用探索性分析的思维方式完美破案,而在现实生活中企业也可以利用探索性思维解决工作难题。

来自:数据观 https://www.shujuguan.cn/?from=jianshu

“面对那些我们坚信存在或不存在的事物时,‘探索性数据分析’代表了一种态度,一种方法手段的灵活性,更代表了人们寻求真相的强烈愿望。——探索性数据分析创始人约翰•怀尔德杜克”

一个侦探如何办案?

人们总形容侦探“目光犀利、嗅觉敏锐”,好像侦探是条犬科动物。然而侦探本人通常不会仅仅靠着自己的眼睛和鼻子办事儿。她的做法看起来科学得多——将所有能够搞到的证据搜集到一起,所有能拿到的数据拿到手里,然后在其中寻找规律。

作为作品销量仅次于《圣经》的侦探小说女王,阿加莎-克里斯蒂显然深谙此道。在《东方快车谋杀案》中,她借波洛侦探之名,完美地为我们演示了一遍如何收集证据与数据,然后从中获得洞察的全过程。

在一个下着雪的深夜,一个男人离奇而死。没有目击证人,身上的刀疤参差不齐,就连宿在附近车厢的侦探本人也没有在惨案发生时发现端倪。

不过,就像在旅途中也要保持得体装扮一样,波洛侦探面临谜题,表现得同样有条不紊。

首先,他挨个盘问了列车上的每一位乘客,不管对方人设是冷静缜密、还是神经兮兮。然后,他将这些人的语言与行为如拼拼图一般,拼在了一起,并理出了一个时间线。在这个过程中,他不断地思考:哪些信息能支持自己的假设?哪些信息互相矛盾?我还需要回答什么问题?还有——之后我需要做什么,才能回答这些问题?

“想来你对我这种询问方式很不以为然,“波洛侦探对玛丽说:“你原来想的不是这种,而是英国式的。凡事都该准备停当——摆出事实,按部就班。可是小姐,我这人倒有点儿与众不同。首先我得先见见证人,摸清他或她的脾性,然后再相应地提出问题来。”

波洛列出的问题足足有10条:

1、绣着首字母H的手帕,是谁的?2、烟斗通条,是谁的?3、谁穿鲜红色、绣着龙的睡衣?4、谁把自己伪装成列车员,男人还是女人?5、为什么死者的表针会指到一点一刻?6、谋杀发生在那个时间吗?7、还是在那个时间之前?8、或是之后?9、能确信杀手不止一个人吗?10、死者身上的刀伤还有其它解释吗?

这些是否也是你的疑问?或者说,在听过各位乘客的回答后,你是否也产生了一些疑问?如果答案是“yes”,恭喜你,你已经在做探索性分析了!

EDA-探索性数据分析

探索性数据分析(EDA)是数据分析过程的第一部分。 在这个阶段有几件重要的事情要做,但归结起来就是:

1、弄清楚数据是什么;2、建立你想问的问题以及如何表达它们,3、提出最好的展示和操作数据的方式,以得出重要的见解。

EDA与IDA的区别:

探索性数据分析有别于初始性数据分析(initial data analysis –

IDA)。初始性数据分析的聚焦点是分析鉴别统计模型和科研假设测试所需的条件是否达到,以保证验证性分析的可靠性。在这个分析过程中对不符合条件的数据进行缺值填补、数据转换、异常值舍弃等处理以增强分析的准确性。探索性数据分析包含初始性数据分析,但它的出发点不仅是确定数据质量,而且更重视从数据中发现数据分布的模式(Patten)和提出新的假设。

你在探索 – 寻找线索。 就像波洛做的那样,通过定量和可视化的方法,你不仅梳理出趋势和模式,还能发现偏离模型,离群值和意想不到的结果——它们也很重要。你现在发现的东西将帮助你决定提出的问题,研究领域,以及下一步采取的措施。

过去,在以抽样统计为主导的传统统计学中,探索性数据分析对验证性数据分析有着支持和辅助的作用。但由于抽样和问卷都是事先设计好的,对数据的探索性分析是有限的。

到了大数据时代,海量数据从多种渠道源源不断地涌现出来,已不受分析模型和研究假设的限制,如何从中找出规律、并产生分析模型和研究假设成为新挑战。这时候,探索性数据分析在对数据进行概括性描述、发现变量之间的相关性以及引导出新的假设方面大显身手。

CDA-验证性数据分析

通常,侦探结案并不是故事的结束,还需要将罪犯以及罪证交给法庭,进行审判。

我们将这个“审判”的过程称为验证性数据分析。

验证性数据分析是您使用传统统计工具(例如显著性,推断和置信度)来评估证据的部分。

在这一点上,你真的在挑战你的假设。验证性数据分析的很大一部分就是对事物进行量化,比如,你所建立的模型的任何偏离都可能偶然发生,在什么时候需要开始质疑你的模型呢?

CDA的内容:测试假设,以特定精确度产生估计,回归分析和方差分析。

验证性和探索性数据的使用

实际上,探索性的和验证性的数据分析不是一个接一个地进行,而是不断地交织在一起,帮助您创建最好的分(破)析(案)模(套)型(路)。

我们举一个例子来说明实践中的EDA与CDA。

最近几个月,流失用户的数量一直在激增。产品一直在保持更新,性能也算稳定,活动也没停,这种流失简直称得上是一桩密室丢人案了。究竟发生了什么?

发现问题——密室丢人案,比密室杀人案更让运营感到棘手的案件

你开始利用数据探索原因(EDA)。你调取了这些流失用户的所有数据然后开始寻找线索。在用了各种饼柱线气泡树从不同角度分析了数据之后,你发现丢失的用户大多都是在同一个月内注册的。

锁定异常——虽然每个月注册的用户都有流失,但很容易看出7月的问题

经过仔细调查,你发现在这个月中,虽然产品一直在保持更新,性能也算稳定,活动也没停,但是你们自己却把常用的CRM系统给换了。结果,一部分客户没有收到产品的入门教程。

现在你产生了一个大(合)胆(理)的假设:这些人是因为没有得到入门教程而流失的。要想停止这个死亡游戏,必须连夜派发入门教程大礼包!

但首先,你需要确定这个原因是正确的。根据探索性数据分析,你现在可以建立一个新的预测模型,以比较收到教程和没收到教程的差异率。 这根植于验证性数据分析。

结果显示了两者之间的广泛相关性。破案了!

探索性数据分析和大数据

当然,20世纪的案件跟21世纪的案件还是有很大不同。20世纪的作案团伙可能被一场大雪堵住去路,疑云再重也仅限于一节车厢;而21世纪的作案团伙可以像水滴融入大海一样藏身于庞大的数据池中。整个侦探游戏变得非常艰巨。

就算是大侦探波洛,也需要有适当的技术/工具来应对这个问题,以保证自己能够实时访问所有需要的信息,让数据跑得跟思路一样快,让案子破的时候“凶手”还没跑远。这对于销售、运营、产品、财务、HR等各种工作模块都至关重要。

为什么侦探小说这么火?因为我们都需要知道答案,并对探索答案过程中的智力挑战而感到惊心动魄。

那为什么,不让数据侦探成为你的“第二人格”

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容