别被数据欺骗!《简单统计学:如何轻松识破一本正经的胡说八道》
炒股的人都知道一个名词:骗线!庄家用一些完美的技术形态,吸引散户的关注并买入或者卖出,而庄家从中坐收渔利,这就是图形欺骗!
信息时代,这样的事情会有吗?有,数据一样可以欺骗公众,这本书告诉我们,如何应对数据统计上的各种骗术,有些真的让人防不胜防,从书中我找了一些简单的例子,让大家看看如何进行数据欺骗。
比如,新保守主义者戴 维· 弗 鲁 姆( David Frum)在《纽约时报》上发表了一篇文章《欢迎,新富人》。以下是配图,咋一看,增长确实非常厉害,那么仔细研究一下呢,大家都发现了吧,作者的横轴时间有问题了,最后是1980-1990,而前面都是5年一格,最后一格是10年。
还有,只需要改变一下纵轴的单位,两幅图就截然不同,如下所示:
如果只是简单的看看图表,读读数据,相信大家很容易就被这样的数据欺骗了,怎么办?看看这本书,也许会有点收获-----《简单统计学》。
书有点深奥,如果数学不是很好的同学可能会觉得有点枯燥,不过认真细读以后,还是能够得到一些启发,比如,如何识别数据欺骗(数据欺骗的模式):
1.被模式诱惑:我们容易受到模式的诱惑,比如相信穿上什么衣服会带来好运,特别是低估了毫无理由的随机事件生成幸运或不幸运模式的容易程度,那么针对这种情况,我们应该保持怀疑,让新数据来检验。
2.具有误导性的数据:有些数据误导也许不是故意的,但是确实存在的,比如幸存者偏差。我们不仅要考虑看到的---比如在职工人的工资,受损的飞机,成功的公司,还要考虑没有看到的事情---离职的工人,坠毁的飞机,破产的公司等等。就是说看到的数据之外,还有没有看到的数据源。
3.变形的图形:不说了,看上面的图。
4.缺乏思考的计算:人类有一种自然倾向,那就是仅仅关注结果的准确性,而不去深入思考这些计算是否正确。
5.寻找混杂因素:当我们听到某种令人困惑的论断时,要去考虑是否存在混杂因素,比如瑞典女性死亡率高于哥斯达黎加---因为瑞典的老年女性比较多,同样,在这次新冠大流行中,印度的死亡率低于意大利西班牙等国,也是因为印度人口比较年轻,加上印度的统计数据不准确。
6.手气好:抛10次硬币,居然10次都向上---别不相信,有这个可能,所以别去找原因了,有时候就是因为手气好而已。
7.均值回归:一只涨停涨停再涨停的股票,值得买吗?疫苗,高科技,芯片......各种热门概念集一身,市场上火爆异常,这样的股票会一直涨上去吗?别被骗了,价格最后一定会回归价值的,类似均值回归,黄金永远都是黄金,垃圾就是垃圾!当然,均值回归不是说大家最后都平均,优秀的人确实超过了平均水平,这只是说他们的成绩是:能力+好运 与 能力-背运 中不断轮换。
8.平均定律:抛10次硬币,前五次都是正面向上,那么后面五次,背面向上的概率大增吗?守株待兔的人已经很久没有等到兔子撞树了,是不是代表未来兔子撞树的概率大增呢?
9.德克萨斯神枪手:数据挑选者---最危险的数据误导,专门把最有利的数据挑出来,去除所有不利的数据,你看到的只是他们想让你看到的。
10.当心经过修剪的数据:同上一样,他们也挑选数据区间或者分组,故意误导大众。
11.缺乏理论的数据仅仅是数据而已:抛10次硬币,8次向上,可以得出抛硬币大概率是正面向上的理论吗?别傻了,别试图在随机生成的数据中寻找规律了。同时,对某种理论的不合理一定要保持怀疑态度。
12.缺乏数据的理论仅仅是理论而已:人们可以被缺乏理论的数据欺骗,也可以被缺乏数据的理论欺骗。人有一种趋向,相信自己想相信的,并只关注证明自己是对的数据而忽略那些否定的证据。