数据分析方法论

理解数据分析

我认为在商业中,数据分析就是以数据为桥梁,用科学的分析方法和做事步骤,对商业现象进行研究分析,从中获得足够多真实信息的过程。

首先,要注意的是,研究分析的对象是商业现象。与这个要点对应的常见错误理解,是把数据当作研究分析的对象,这样很自然地就会只把挖掘算法作为分析手段,把从数据中得到与众不同的,鲜见的规律作为分析目的。这样的认知,表现为将算法或者数据挖掘看得非常重,认为算法能解决一切,从而导致忽视数据质量的建设,忽视数据与业务的结合,最终造成了数据和业务的割裂,失去用数据优化改进业务的机会。

其次,研究的资源和桥梁是数据,研究的方法是以假设和测试验证为核心的分析,目的是尽可能让我们对世界运行的理解逼近世界的真实运行,从而获得对未来的洞见,这样就能更准确地选择判断,做出更有利的决策,取得更大的竞争优势和利益。

数据之所以能在理解真实世界方面发挥作用,是因为数据是一种连接,它连接了商业现象中的4个基本元素,即时间,地点,人物和事件。时间比较好理解,其他3个元素的具体意思会随着商业现象和分析角度的不同而有所不同。例如地点可以是用户现实中所处的地理位置,也可以是移动应用中的某个页面,甚至可以是某个按钮;人物可以是企业的用户,也可以是企业的员工;事件可以是用户的行为轨迹,也可以是外部的商业事件,甚至自然现象。数据的重要作用还体现在记录上,它将商业现象中基本元素之间的顺序,承接关系都真实的记录下来了。从这些记录中,我们能发现故事,能发现规律,能发现苗头机会。

当我们研究、认识世界时,可以将我们面对的世界做一个二维四象限的划分:我们知道我们知道的,我们知道我们不知道的,我们不知道我们知道的,我们不知道我们不知道的。数据在这四个象限都有重要应用,面对我们知道我们知道的这个象限的时候,我们需要用数据来检验我们知道的事实和假设,确保事实不是自欺欺人,假设是切实有效的;面对我们知道我们不知道的这个象限的时候,可以通过调研和统计来获得信息;面对我们不知道我们知道的这个象限的时候,这其实是所说的直觉,需要用正向数据来训练直觉的高效率;面对我们不知道我们不知道的这个象限的时候,其中可能蕴含着我们的独特优势,需要我们用数据去探索,发现机遇或得到顿悟。

数据分析方法论

从哪里开始数据分析,是一个复杂的问题,并不存在一个完美的答案,不同的实战者,会发展出许多自己的方式。但是,所有的方法,都基于下面的两个观点。

第一个观点,是每家企业都是拥有许多活动的复杂黑盒系统,包括最有经验的雇员在内,没有人完全理解它。对企业的理解和企业真正的运作状况之间存在着鸿沟,且由于企业的内外部环境一直在变化,这条鸿沟会不断变宽。第二个观点,是任何你所拥有的有关企业的数据,都只是描述了这个复杂系统运作的某个侧面。

为了获得企业系统运作的真实信息的更多理解,借鉴科学中的研究方法,数据分析方法论可以分为4个步骤:第一步,在对企业现在的运转理解基础上,做出一个确定的预测;第二步,检查已有数据,或者设计试验收集数据,确定数据是否与预测相匹配;第三步,如果不匹配,深入研究到底发生了什么,并且更新对系统的理解(修正理论);第四步,用修正的理论做出新的预测,重复循环。

具体地,也有4个做事步骤:第一步,探索数据前,写下期望从数据中所见的一个清单,包括主要变量的分布,重要变量间的关系等;第二步,分析数据,画图,总结,做任何需要做的事情来看它是否和你的期望相符;第三步,找出不匹配的事物,或者让你感到奇怪,不符合情理的规律;第四步,放大看,尝试理解企业中哪个部分产生了这个奇怪的事物,从而获得对企业的新洞见。第四步是非常重要的步骤,也许会找到对企业的洞见,增进对企业理解,也许会发现数据在收集或计算过程中出错了,总之都能提升对企业的认知。

利用科学的分析方法论和方法来分析商业现象,就能让我们获得对商业现象现状的理解和未来的洞察。

我们可以结合数据驱动业务中的分析流程,来理解分析方法论。可以看到,虽然略有差异,但是实质上却是类似的。数据驱动业务的核心是找到一个有意义的指标,然后通过试验改善它直到满意。之后用同样的方法解决下一个问题,或进入业务的下一阶段。整个分析周期流程分三步。

首先选择一个你希望改进的关键指标,比如留存率,并且基于所处商业模式,为该指标确定一个标准。

第二步,找出提升指标的方法。具体的方法分两种情况,没数据时的第一种情况,可以通过头脑风暴,用户的反馈,他人的建议等途径,找到一个想要尝试的好想法,然后设计A/B测试或多变量试验等来进行谨慎的测试,最终找出最好的提升方法。第二种情况,有数据时,可以根据数据对好客户给予数学上的定义,即那些按照你的希望进行购买、注册和分享等行为的人,然后研究这些好客户的共同特点,从中找出好客户共有的,与希望改变的关键指标高度相关的属性,根据这些共性特点对公司的产品市场定价等商业行为进行调整。

第三步,衡量所做的调整和改变对关键指标提升的效果,并分析同期群的变化,关键指标有没有超过事先设定的准绳,如果是,则完成一次循环,如果没有则确定新准绳,或用另外的提升关键指标的方法再试一次。

测试的几种方法

测试是数据分析中的重要手段,测试就是比较两个样本的不同,从而证明某种改变的合理性。方法有市场细分,同期群分析,A/B测试和多变量分析。

市场细分。细分市场就是一群拥有某种共同特征的人,比如说去餐馆喜欢先预约的一群人。以运营一个产品为例,可以按照用户的人口属性,使用偏好等进行细分,然后比较各个细分市场的差异,再进一步找出背后的原因,这样就可以复制推广有利因素,改进或者绕开不利的影响因素。

同期群分析。同期群比较的是相似群体随时间的变化。产品会随着开发和测试而不断迭代,这就导致不同时间加入的用户有着不同的体验。同期群分析能观察处于生命周期的不同阶段的客户的行为模式,而非忽略个体的自然生命周期,对所有用户一刀切。适用于营收,客户流失率,口碑的病毒式传播,客户支持成本等任何想关注的数据指标。

每个用户都会经历一个生命周期,从免费到试用,到付费使用,最后停止使用,同时,在这期间里,你还在不停地对商业模式进行调整,这对用户流失率会有什么影响?这种问题就可以用同期群分析来寻找答案。每一组用户构成一个同期群,参与整个试验过程,通过比较不同的同期群,你可以获知,从总体上看,关键指标的表现是否越来越好了。

假设你有一家网店,每月能获取1000个新客户,前5个月每位客户带来的营收分别为5;4.5;4.33;4.25;4.5.以这个视角来看的话,传递的信息非常有限,网店的生意究竟是变好了还是变好了,并不能回答。因为在这个视角中,新用户和老用户是混在一起的观察的。此时就可以用同期群来分析。将客户按首次光顾的月份分组,首次光顾在1月的,可以看到第二月(2月),第三月(3月)等共5组数据,首次光顾在2月的,可以看到第二月(3月),第三月(4月)等共4组数据,要比较1月和5月生意变好还是变坏就可以看首次光顾在1月的客户的一月份数据和首次光顾在5月份的5月份的数据。

A/B测试。同期群比较的数据是沿着客户群体的自然生命周期收集的,被称为纵向研究,同样也有横向研究,也就是对同一时间段的不同客户群提供不同的体验,观察不同体验的效果,被称为A/B测试。例如对半数用户展示一个绿色链接,对另外半数用户展示蓝色链接,观察哪种颜色的链接点击率更高。A/B测试的劣势在于只有流量巨大的网站才能对单一因素快速测试得到答案。

多变量分析。A/B测试是对单一条件进行测试,如果要测试很多因素,一连串的单独测试将会耗费过长的时间,因此可以用多变量分析法对多个属性进行测试,观察哪个因素与结果的相关性最大。

商业数据分析的目的

商业数据分析的目的是支持商业策略中的决策。决策就是与世界的博弈,如果能知道世界的底牌,就更有可能赢得比赛。这个世界的底牌,就是信息,而信息的载体,就是数据。

商业中使用数据分析,核心目的是帮助做出商业决策。在商业中,需要利用数据揭示信息、指明方向,帮助改进商业模式,决策下一步行动。具体地说,是基于对业务或商业的理解,先假设一个结论,然后通过数据寻找论据,验证假设结论的对错。

基于数据决策,有四种方法供使用:对显性数据的统计,对隐性数据的调查,对全体数据的分析,以及对新数据的试验设计。在信息匮乏的时代,可以用统计的方式获得显性数据,用调查的方式获得隐形数据。在信息泛滥的时代,可以用分析的方式,从大数据中获得决策支持;可以通过产品设计等获得对假设的验证数据。

分析过程中的注意项

LinkedIn的一位数据科学家总结了10条需要避免的数据圈套:假设数据没有噪音;忘记归一化;排除异常点;包括异常点;忽视季节性(短周期,行业趋势是长周期);抛开基数奢谈增长;数据呕吐;谎报军情的指标;只看单一来源数据;关注噪音。

应该把数据分析当做达到企业愿景的必经过程。在寻找一个成熟可持续的商业模式或在打造一个产品时,要认识到你并不是打造一个商业模式或产品,你其实在打造一个认知:你在打造一个能帮助你认知自己该打造什么的工具。

数据分析的局限

数据确实是个好的资源,但是也有其局限:滥用数据容易导致局部优化,进而忽视大局。优化的核心是找到给定函数的最大值或最小值,机器虽然具有一定寻找最优解的能力,但是其解的范围不可能超过约束条件所规定的区间。

如果优化只是为了取得局部的极限,那代价可能是错失一个更大,更重要的机会。单纯依靠机器,以数据为导向进行的产品优化可能会导致许多问题发生。渐进式的改变可以达到局部极限,创新则可能导致全局洗牌。

数学在优化已知系统方面可以做得很好,而人类更善于发现新系统。数据是检验假设的极佳工具,只有结合人类的反思和创造,才能产生新假设。正确的做法应该是人类提供灵感,机器负责验证。人的职责是做数据优化背后的设计者,放眼更大的市场,重视正在解决的问题及基础商业模式,避免毫无灵魂、单纯机械式的优化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容