数据思维:操纵数据

“操纵数据”是数据思维课的第四大部分内容,这个模块主要从 行动、可视化、识别陷阱三个方面进行讲解,具体如下:

1.行动:如何用数据指导决策?

2.可视化:如何塑造受众的感觉?

3.误导:怎样识别数据中的认知陷阱?

===============================================================================

这里的“操纵”是个中性的概念,指的是我们如何利用数据做事情,达到自己想要的效果。

1.行动:如何用数据指导决策?

日常生活里,我们决策往往凭借的是感觉、经验。但很明显,感觉很多时候会不靠谱,让我们决策失误。如果能有个决策模型,确定的条件出现就触发特定的行动,那我们的决策水平就会高很多。比如,如果孩子发烧到38度以上,就给孩子吃退烧药;如果不到38度,什么都不做。在这里,体温就是设定的关键变量,体温的不同决定不同的行动,这就是决策模型。

这个案例,暗示了用数据指导决策需要解决的三个问题:

第一,如何理解你面对的挑战;第二,如何建立决策模型;第三,如何找到决策模型中需要的数据。

真正理解自己面对的挑战是建立模型和用数据指导决策的前提。究竟怎么才能理解面对的挑战呢?答案就是研究,用科学方法研究。

理解了挑战,知道自己面对的到底是什么问题之后,接下来是第二步,怎么搭建决策模型呢?决策模型的形式很简单,就是找到一个或者几个关键变量,建立变量的数值与行动之间的规则。但这只是表象。其中的关键是,从理解挑战到建立决策模型中间有一个重要的转换,就是从解决一个问题转换成理解一个机制

解决一个问题,只是解决一个症状,这个症状可能仅仅是一个机制的特别情况。不真正了解这个机制,你就没法解决这个问题。决策模型只是在通过操纵变量影响结果,但其实搭建决策模型的前提是全面理解这个机制。即使挑战的本质相同,但只要操控变量的选择不同,也会让决策模型不同。搭建模型时,还有一点要注意的就是对变量的选择。只有选择了准确的操控变量,模型才是靠谱好用的

如何找到决策模型中需要的数据?这个问题的本质就是,如何量化一个事物。这里,我希望你建立一个信念,没有不能量化的事物。当然,量化有专门的方法。量化的实质就是降低不确定性。

总结:

    (1)真正利用数据指导决策,需要做好三步:理解挑战,建立模型,量化变量。

    (2)建立决策模型时要学会转换思路,从解决一个问题转换成理解一个机制。只有彻底理解了挑战背后的机制,建立的模型才是可靠的。

    (3)一切事物皆可量化,而量化的实质就是降低不确定性。

2.可视化:如何塑造受众的感觉?

对数据进行处理之后,我们会得到很多的数据结果。但这些结果都是用方程、表格之类的东西表达的,非常抽象,很难理解。怎么能让受众对这些数据结果有感觉呢?这个时候,就需要一个技能——可视化。用数据可视化塑造受众的感受。

数据可视化必须基于数字数据的,这是关于数据可视化,我们要知道的第一件事。

信息图是一种间接数据可视化的方式。信息图虽然也属于数据可视化,但不是最直接的方式,也就是说,不是以数据驱动的方式展示的。这是关于数据可视化,我们要知道的第二件事。

基于观察的言论不是可视化,信息图也不是直接的可视化,那数据驱动的可视化到底是什么样子呢?数据驱动的可视化就是,按照事先确定的规则,挖掘出数据中的模式,并把这个模式展示出来,让受众看见并理解。看见并理解,是数据可视化的最高目的

如何进行数据可视化?

理解数据可视化的意思很简单,难点在于怎么做。对于同一个要传达的信息,总会有几个不同的方案可以选择。怎么选择最合适的一个呢?标准就是一个,选择那种既高效又美观的方案高效,指传达信息的效率高,能让受众迅速抓住重点,理解你要传达的信息。美观,是展示的方式看起来让人愉悦,有美的感受。

数据可视化不仅是一个传达信息的媒介,更是一个探索的工具。通过可视化,可以帮助我们发现存在于数据之中的原本很难发现的东西。

总结:

    (1)数据可视化是基于数据的,由数据驱动生成的图像,帮助受众看见并理解数据当中隐含的信息。

    (2)好的数据可视化作品要兼顾高效和美观。传达信息快速有力,过程又充满愉悦感和美感。

    (3)数据可视化是一个重要的探索工具,能让我们发现其他手段难以发现的新信息。

3.误导:怎样识别数据中的认知陷阱?

怎么防止别人操纵数据来误导我们?首先要澄清一点,虽然我们使用了“操纵数据”这个说法,但是我们不关心动机问题,到底是有意欺骗、存心误导,还是水平不够犯了错误,我们不做判断和分别。我们就是从数据思维的角度,看看如何防止被误导,不管对方是有意的,还是无意的。还要澄清的一点是,我们这里讨论的都是数据是真实的,只是被错误的使用造成了误导,不包括伪造数据的情况。

通过操纵数据来误导受众大致有三个方向,分别是操纵数据的使用操纵数据的产生操纵数据的解释

操纵数据的使用:

        用平均数掩盖分布、用百分比掩盖规模、用短期波动代替长期效应、遗漏变化的原因、偷换概念、定义不统一、忽略测量误差、差别过小没有现实意义、参照对象不清、比较时忽略基数、对象不同强行比较、变换基数让人产生幻觉、用数字游戏控制听众感觉

操纵数据的产生:

        算法采用的规则有差异、实验条件设置错误、提问的次序影响回答者的选择

操纵数据的解释:

        归因错误、因果关系不成立、理论适用错误

总结:

    (1)数字不会欺骗,是人会欺骗。西方有句俗语说,Don't hate the player,hate the game (别去恨玩家,要恨恨游戏)。

    (2)误导的具体方法很多,不可能完全举例说明,建议你发现一个就记下来一个,经验多了,就会提高识别的能力和速度。

    (3)遇到别人用数据得出的论断,建议先问自己五个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义吗?


==============================================================================================

操纵数据
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。