统计数据就是用数字表达出来的证据。这样的证据可能看起来非常动人,因为数字让证据显得非常有科学性,非常精确,似乎它就代表了“事实”。但是,统计数据能,而且经常会,“撒谎”!它们并不必然就能证明它们想要证明的一切。
比如,这两天前程无忧发布了2021年第一季度薪酬调研报告,报告显示北京一季度平均工资11187元,是全国最高的,其次是上海和深圳,分别是10814元、10247元。很多网友纷纷表示自己被平均了,究竟是大家被平均了还是这就是实际情况呢?
我们再来看一下数据,一季度平均工资11187元。
平均数是怎么计算的呢?平均数就是把所有数值相加,然后用总数除以相加的数目。这就出现高收入人群提升了整体的收入水平。
但是,这是不是真相呢?大家的收入真有这么高吗?这是不是与我们的统计方式有关?一般数学里,有三种形式的平均数,我们这只是代表了其中一种,还有两种,是中位数和众数。
中位数:将所有数值从高到低排列,然后找到位于最中间的数值,这个中间数值就是中位数。有一半的数据比他大,有一半的数据比他小。
众数:将所有数值排列好,计算每个不同数值出现的次数或每个不同数值范围出现的次数,出现频率最高的数值就叫作众数。
我们再来看看一组数据:
北京2020年收入的中位数是6906元,大部分城市是不超过6000元的。基本与一季度调研的平均收入要相差一倍呢。
通过上面这个案例可以看到:选用不同的数据来表现收入,差异很大。显然,选用收入的中位数要比平均数更为接近实际情况。
所以,平均数有时候不一定是靠谱的。尤其学了《学会提问》后,看到平均数,要运用批判性思维,多问几句:“是平均数、中位数还是众数,平均值的含义不同会不会产生什么影响?”
不仅判断一个平均值是平均数、中位数还是众数非常重要,判定最小数值和最大数值之间的差距,即全距以及每个数值出现的频率,也就是数值分布,常常也显得异常重要。
一般来说,病人应该考虑国内不同的医院对于他的疾病的存活率是不是有不同的全距和数值分布。这样的话,他就应该考虑选择在那家有最乐观的数值分布情况的医院就诊。当我们遇到平均数的时候,记住全距和数值分布的一个总体好处,就是这样做会提醒你,大多数人或事并不完全符合确切的平均值,与平均数值差异极大的结果也在预料之中。
此外,针对上述数据,我们还可以再多问问:“调研了多大规模的样本?调研了哪些人群或行业?这些人群或行业能否代表其他人或行业?采取了怎样的方式进行调研?数据的有效性如何?”等等一些问题。