从小就与数据结缘,虽然是女生但是数据成绩一直都很好,小学获得了几次数据竞赛奖,到大学进入数学系,再到工作从事数据分析工作,这么多年的工作积累和自己的感悟,觉得数据这个东西很奇妙,或更准确的是微妙。如果按照数据的性格特点赋予它一种颜色的话,那我会选择黑色,就像吴伯凡老师说的,它是一种高级黑,蕴含着某种解读世界的能力,同时它包络万象又有可能吞并万象,就像霍金所说的宇宙黑洞一样。
而数据具体的又是什么?北大的王汉生老师给出了一个定义,即能被记录的都是数据,也就是数据是随着时间的变化,范围也跟着变化的,例如从前的音频视频就不是数据,而现在可被记录,这时它们就是数据。随着时代的发展数据越来越多,而数据在谁手里,怎么用,产生什么作用效果就因人而异,它有时像一把手术刀能救死扶伤,一些时候也会变成砍刀伤害很多人,多年从事数据分析工作,我形成了自己的数据观,在这里分享给大家。
纯良的数据观:
1、数据不是花拳绣腿,数据是为了解决实际问题
写了一份报告,各种角度,各种模型的去描述一种现象,然后呢?然后就没有然后了。数据最根本的价值就是解决问题,以问题出发,用科学客观的角度去发现事件的相关性和规律性,从而创造出更多的商业价值和社会价值,这里以商业为例更具体的来说,可以分为三个方面,1是增加商业收入,2是降低商业支出,3是控制商业风险,无论在哪方面,发挥作用这个数据分析就是有价值的。例如,数据告诉你,每天晚上10点后来店的人数几乎为0,那么你的营业时间就可以从24小时缩短到10小时,当然你可以继续点亮你的门头,以发挥广告宣传效益。
2、数据并不是谁的枪,数据是让世界变得更美好
数据本身是客观的,是一种事实的记录,但这里有一个陷阱就是,当一件事只展现部分事实,虽然这些事实都是客观的,但导向却可能跟实际情况有较大差异,甚至逆转。回想一下,你在工作中是否遇到这样的情况,某人先给结论,然后让你找数据支持,而这个结论有的时候是带有政治色彩的,有时甚至是用来否定他的对手的,说实话,用数据来支持某个观点,或是挑一个人的错太容易了,这时数据分析就变味了,成了别人的帮凶。数据之于每个人应该回归其本源,既让人类更清楚的记录世界,认识世界和改善世界。例如数据告诉我们孩子的童年父母的爱和教育,之于其他阶段能产生更大的影响,那我们就该在这个阶段分配更多的时间在教育孩子上。
互补的数据观:数据是对人类感性的一种理性补充
1、人类有时是非理性的
经济学总是假设人是理性的,会自觉不自觉的按成本-收益原则来行事,绝大多数情况是这样的,但仍存在大量的非理性的经济行为,例如股市和房价的暴涨暴跌。回落在我们日常生活,人们在感性上总是会选择性的忽视一些东西,例如,一个人买车就是为了节省打车的钱,心里上可能会忽略因新买车带领的成本增加的问题,例如每年的车检,小区的车辆停车费,车的各种保险等,如果把这些数据都列出来,他做出买车的选择就会更理性;另外,人们感性上对一些东西增加附加值。例如,你要卖掉你的房子,给房子定价的时候你就会想起当初买决定买这个房的时候,精挑细选了1年,而这个装修更是你和老公精心设计的,于是你出了一个很高的价钱,长时间无人问津,你要知道这些只是你对房子的感情,别人是没有的,如果这是你去网上查查一些硬指标例如地理环境,小区年限等和你们家相似的房价范围,你就能列一个更合理的价格。
2、人性是存在诸多弱点的
人们高于动物,但仍是一种动物,所以人自带的一些动物性,其中不乏一些人性的弱点,通过数据的理性来激发人性中的善。例如人性中,人们对别人的付出总是无感的,对别人的错误总是敏感的,于是有人犯了2次错误你就觉得这个人工作能力很差,但如果看数据的话,你可能会发现他很能出活,这个月的工作中出活率全组第一,犯错次数高于其他人,但犯错率却非常低,于是你就对这个人的工作能力就会有不一样的认识。
朴素的数据观:数据并不是万能的
1、世界是复杂的
大家都听说过蝴蝶效益上个世纪70年代,美国一个名叫洛伦兹的气象学家在解释空气系统理论时说,亚马逊雨林一只蝴蝶翅膀偶尔振动,也许两周后就会引起美国得克萨斯州的一场龙卷风。但我们却无法回演是哪只蝴蝶振动的翅膀,这个世界一个复杂的系统。数据之于这个系统会显得很无力。数据发挥更大的作用的地方在那些有规律的,经常发生的,且系统相对简单的,我们就可以进行数据模拟,进行描述或预测等。
2、收集数据是需要成本的
朴素的说,原则上有更多的数据,对于你对这个事情的研究更有帮助。但比如单从时间来看,收集这个数据需要1年时间,但1年后,市场发生了很大变化,这个数据的时效性和参考价值就会大打折扣;例如一个卖菜的老夫妻,你让他记录每天客户购买的菜的品种和价钱及时间,这些数据收上来,当然会对他有很大帮助,但前提是,单独对一个小店来说,如果每天记这个,再整理,也不用干别的了。说实话,没有数据的那些年我们的生活依旧,那数据又是做什么的呢,它是让你的生活更好,更上一个台阶。
警惕的数据观:一个错误的数据结论,比没有数据更有杀伤力
1、错误的认定因果关系
这里分为两个方面,一是人们容易将相关关系、前后关系错误的认定为因果关系。例如,公鸡叫太阳就升起,就是相关关系,如果错误的认定为因果关心,认为杀掉所有的鸡太阳就不会升起,那就大错特错了。二是人们容易忽视回归均值现象。回归均值是指某项指标的表现过高或是过低后会自然的回归平均水平,这只是一个自然的波动,如果忽视这种自然的波动的,我们进行错误的归因,就会出现错误。
2、我们看似随机的事情,可能具有相关性
马修斯在极简概率学里提到,当我们试图理解看似随机的事件时,不要先入为主的假定它们之间相互独立的。现实世界中很多事情并非相互独立。马修斯举了一个例子,一个人买到了6枚双黄蛋的奇闻异事被媒体竞相报道,为了证明这个概率极低,有的媒体还进行了相关数学计算。英国鸡蛋信息服务中心的数据显示,母鸡平均每下1000枚鸡蛋,才会出现1枚双黄蛋,一个记者写到按照这种推算,同时得到6枚双黄蛋的概率为1/10的18次方。一种可能是那一箱鸡蛋是由年轻的母鸡(年轻母鸡生双黄蛋的概率更高)所生,然后工作人员装鸡蛋的时候,很可能一个母鸡下的装在了一起,也就是说,这一箱鸡蛋很可能出自同一只年轻母鸡。我们看似随机的事情,可能具有相关性。
总结而言,数据是客观的,但对数据的应用和解读却是存在主观的,我们应用数据,无聊从解决问题还是规避人性的弱点上,都是朝着让这个世界更美好的方向努力的,在这条路上,我们要客观的认识到数据并非万能的,同时也要清楚的意识到,我们相信数据,但是并不迷信数据,数据解读和使用的错误会比没有数据带来更大的杀伤力。秉持着这些数据观,希望在用数据的创造美好生活的路上走的更远。