数据思维之藏在糖罐里的秘密

糖豆试验

画面上是一只普通的糖罐，里面装满了糖豆，我曾经看过一个视频：有个教授拿着这个糖罐给办公室里的白领们看，问他们里面有多少粒糖豆。有的人看了一眼，说有600个，另外一个人说有10000个，有的人仔细地看了一下糖罐，有的人在手里掂了一下糖罐的重量，有的人摇了摇糖罐，听听里面的声音，每个人都报出了自己的估算数量，调查结束后教授把这些数字加起来做了一个简单的算术平均，得到的数字是4514.89688，然后教授把罐子打开，仔细地数了一下里面的糖豆数量，这个时候奇迹发生了，糖豆的真实数量是4510，和之前计算的算术平均值非常的接近，我当时看完这个视频有种三观重塑，细思极恐的感觉。这说明那些看似遥不可及的未知变量，也能通过数学方法无限地接近。

在这个月的第一次数据运营周例会上，彦宏同学提出要给公司做五年规划，当时与会的都是数据运营的小伙伴，平时主要做的工作都是数据抓取、转换以及可视化，别说给公司做五年规划了，就连给自己的个人工作做五个月的规划都困难。那么遇到这种近乎无厘头的问题，该如何解决呢？我们人脑天生有一种很好的保护机制，它们遇到困难的问题，从来不硬着头皮上，因为从进化论的角度来看，那些遇到问题就蛮干的祖先，在漫长的历史中，已经退出了人类的基因库，所以在座的各位都是继承了极其优秀的基因，才能带着一颗聪明的脑袋来到这个世界上。（我以为说到这里，大家会给我鼓掌的）人脑的保护机制在于把困难的问题分解为简单的问题，五年规划是个困难的问题，但是五年后的用户保有量是一个相对简单的问题，当然这种简单也并非唾手可得，而是那种垫垫脚就能够得着的高度。在预测五年后的用户保有量时，我们人脑再次发起了它作为智慧器官的强大力量：锚定效应。我们不是专业的分析师，但这个世界从来不缺优秀的咨询公司，比如刚刚给我们上调股价的摩根史丹利，我们在他们的报告里发现了对于我们五年后销量的预测，在场的所有小伙伴基于这个值利用糖豆试验的办法，每个人预测了一下五年后的用户保有量，最后得出的算术平均值是120万，这个值非常的接近Pony他们的预测，120万不一定是准确的预测，但在回答这个预测值上，我们很巧合的和阿里全球执行委员会保持了一致。

在说完这个糖豆试验的故事后，我向在场的小伙伴提出了一个问题：为什么糖豆试验会如此准确？这背后有什么数学原理在支撑呢？有个小伙伴当时提到了贝叶斯原理，这一下子就打开了我的思路。我们知道人脑在回答复杂问题时会有锚定效应，那么所有的锚定都不是天花乱坠的，因为不管是在预测糖豆数量，还是在预测蔚来用户保有量，所有的测试者都尽量锚定那个准确的值，没有人预测糖豆的数量是1，也没有人预测糖豆的数量是1亿，测试者在锚定的时候都用了丰富的先验概率，比如单个糖豆的大小、重量等等，在此基础上他们的大脑经过多次贝叶斯运算，有的人还多次调整了自己的预测值，为了就是精确计算出后验概率。

贝叶斯

这张图片上的男人全名叫托马斯-贝叶斯，英国数学家和统计学家，出生于1702年。关于贝叶斯公式今天不详细讲了，知乎上有篇文章说真正的高手，一生都在贯彻贝叶斯定理，大家可以参考一下，贝叶斯定理基本上就是解决后验概率的问题，比如说狼来了的故事。一个普通的男孩说谎的概率是先验概率，当他第一次说谎的时候，人们对他的信任程度就会下降，这个就叫后验概率。

狼来了

之前讲的统计学的故事，是为了让大家对数据思维产生兴趣。那么言归正传，什么是数据呢？清华大学统计学教授王汉生在他的《数据思维》一书中，是这样定义数据的：所有可以电子化的信息都可以作为数据来使用，有常见的数字信息比如公司的股价、每个月的销量；也有文字的信息，比如公司的财报和政府鼓励行业发展的政策文件；也有视频和图片，比如海峰哥在用户见面会上的演讲或者机床加工件上下表面的照片等。数据思维的使命是把获取的数据转化成商业价值。我本人是没有商科背景知识的，但我们部门的kevin和Josef他们都有商业教育背景，他们站在战略岗位上对商业价值会有更透彻的理解。在此，我想分享一下我对于商业价值的理解。商业的本质是为了让企业担负与生俱来的四种责任，即用户责任、股东责任、社会责任和员工责任。用户责任是指企业需要向购买者提供实用的商品和服务，股东责任则要求企业不能是一个慈善机构，企业必须盈利，必须向股东回报利润。社会责任则要求企业在经营活动中承担社会的普遍责任，比如行业健康发展、生产技术革新、人类生活水平的改善等等。员工责任要求企业向他们的员工提供用于保障生活的薪水、健康的工作环境以及职业发展空间等等。上面讲的企业的四种责任，从另一个角度看，也是企业的四种角色或者叫四个组成部分。

谈到价值，我们可以将价值分解为三个要素：收入、成本和风险。比如企业在履行用户责任的时候，收入就是用户支付的金额，而成本是企业用于生产商品或提供服务的支出，创造价值的本质是提高收入、降低成本和控制风险。我们通过企业的四种责任和价值的三个要素，可以将数据思维的商业价值扩展到12个维度，这将方便我们分析日常工作中的Value。

对于商业价值有了正确的认识后，我们将基于数据提出自己的业务目标，这个业务目标在数据思维中叫因变量Y，比如大家经常提到的某产品FFT，微信用户留存率等等，运营和运维部门的指标容易浮现，所以大家没有这方面的困扰。有些岗位的因变量就不像运维部门这样好找，比如说产品经理，按照稻盛和夫的说法，产品经理要打磨的是一个完美极致、毫无瑕疵的商品或者服务，这样的完美要好到什么程度呢？当一个非常理想的完成品呈现在眼前时，人们欣赏它，出于对它的敬畏之心，犹豫着，甚至不敢用手去碰它。理想的、没有任何瑕疵的、无可挑剔的产品，让人不忍心用手摸一摸而玷污它。如果冒犯它，手甚至会被划破。现在流行一种说法，即人人都是产品经理，大家在日常工作中有时会不自觉地转换到产品经理的角色，比如harry心目中的智慧工程，他在这个项目中就要担当产品经理的角色。如果我们实在无法理解稻盛和夫的“会划破手”的说法，不妨试一试另一种思维模式。这种思维模式也是伯克希尔哈撒韦公司联合创始人查理芒格所提倡的逆向思维。当我们无法定义一个完美的产品时，使用逆向思维，就会定义一个不完美的产品。我们如果无法预测五年后的产品长什么样子，行业会发展到什么程度，但我们可以预测五年后的产品一定不会长什么样子，行业一定不会出现哪些问题等等。

上面说的价值目标是我们主动提出来的，有时候，我们在工作中也会遇到一些被动的指标，这些指标都是很直白的因变量Y，比如说有一天开会的时候，业务部门抱怨：咱们的A产品故障率太高了。从数据思维的角度来看，这不是一个事实表述，而是一种观点，我们拿出数据思维的作业指导书，第一步是分解业务目标，要理解业务部门的抱怨，就要分析以下几个问题：所谓的A产品是A1产品还是A2产品，故障率量化后是多少，太高是基于哪个参照系，这位业务人员是从哪个渠道获取的故障率数据。

对业务目标因变量Y进行充分的理解和分析后，我们会尝试寻找跟因变量相关的X，即自变量。通过业务流程分解，可以获取多个自变量，基于这些自变量以及从自变量提取的特征，我们使用描述性分析和数据可视化技术，能够找出自变量和因变量之间的相关关系和因果关系。这个过程一般称之为建模，我们在做数据分析的时候会遇到几个陷阱。

牛顿

第一个陷阱是小样本陷阱，我们知道经典力学中物体的运动遵守牛顿三大定理，但是当物体在高速运动时，比如接近光速时，它的运动规律就不再遵守牛顿三大定理了，这是因为牛顿三大定理只能应用于低速运动的小样本空间。小样本陷阱常见的形式是经验主义，凭借过去的经验就对未来进行预测，经常会出错。塔勒布在他的一本书，叫《反脆弱》中不建议大家对未来做预测，但是互联网公司一定要做规划，我们不一定要预测5年后会有多少个用户，但我们可以规划5年后的用户体验一定会做到极致安心。

打鸣的公鸡

数据分析的第二个陷阱是把相关系误解为因果关系，比如一个农夫每天观察公鸡打鸣，通过归纳发现公鸡打鸣后不久，天就会亮，于是农夫把公鸡打鸣和天亮理解为因果关系，有一天农夫想睡懒觉，于是把家里的公鸡藏在了地窖里，但是第二天，天还是亮了。

圣诞节的火鸡

再举一个归纳推理的反面例子，在一个火鸡饲养场里，一只火鸡发现，不管是艳阳高照还是狂风暴雨，不管是天热还是天冷，不管是星期三和星期四，每一天上午的9点钟，主人都会准时出现，并给它喂食。于是，它得出了一个惊天大定律：“主人总是在上午9点钟给我喂食。”时间来到圣诞节的前一天，上午9点，主人又一次准时出现，但是这一次，主人带来的并不是食物，而是把它变成了食物。

在数据分析过程中，我们最好大胆假设，然后小心论证。统计学在对假设进行检验时，有两个常用的检验办法，即对大样本数据的Z检验、对小样本数据的T检验。我们在日常交流中会听到证实和证伪这样的词，在统计学里它们有着非常拗口的解释：当我们没有足够的证据拒绝A假设时，这不等于我们就接受A假设，有些人会利用这个漏洞去散布一些伪科学，因为伪科学都是无法证伪的，如果普通人不经过思考，就会直觉性地接受这些伪科学。

数据思维之藏在糖罐里的秘密

推荐阅读更多精彩内容