本来这周的安排是写方差和标准差。动笔之后,发现不先说清楚样本和整体,方差什么的就只是个名词而已。
先稍微讲一下数学,毕竟统计就是数学的一个分支。通过票圈大家知道了著名的装逼名言:世界有三类人,数学家、实现数学家预言的工程师,和…其他人。是不是特别像“一等男人开政府、二等男人开保险公司、剩下都是三等男人”,吼吼吼~
但是,数学给人感觉其实还是“没用”。这个直观的感觉是对的,纯粹的数学是没有什么“用”的。我们用等速螺线来描述鹦鹉螺壳的优美曲线,但鹦鹉螺的生长原则其实很简单,不过就是最大可能利用上一个空间的一条边的情况下,用最少的几丁质材料做一个尽可能大的新空间。这个“逻辑”的结果,就是一条近似完美的等速螺线。受重力影响足够大的物体几乎都是球体也是类似道理。所以数学是一种“逻辑”,表述了一种“原理”,阐述了对现实的一种“理解”或者“观点”。比较过分的是,为了高效,或者装逼,那些数学家硬生生把自然语言改成了代数公式,相当于把Python搞成了汇编,结果就是大部分人疯了。周诰殷盘,佶屈聱牙。
好了回到统计。不知道有没有人和我一样,第一次接触统计的时候会困惑为啥要研究这么个东西?后来学了经济学和心理学,这个问题才慢慢有点模模糊糊的答案。
第一个答案是:穷。对某件事情的了解,最直白莫过于普查。想要知道中国人口的情况,做人口普查最准确、最直接了。为啥不这么干呢?贵啊!老这么干GDP都拿去填人口普查的坑了。
第二个答案是:焦虑。人的本性就是好奇。越不知道越想知道,不知道的未来也非要加一个解释。还要问,这个解释靠不靠谱啊…
于是,穷且焦虑的人类,创造了统计。当然,我们这么有想象力的、穷且焦虑的人类还创造了很多“统计”,比如星座配对啊,摸骨测字算命啊~开会报数,撒谎耍赖,互相死怼,等等等等~
穷怎么解决呢?整体搞不定,那就划个小圈子呗,划圈子的动作就是“抽样”。这个小圈子呢,就是“样本”。对于这个样本,我们就可以进行各种自己看感兴趣的研究了。好了,研究来研究去,这个结果终究是样本的情况。那么样本对于整体意味着什么呢?这个就是统计解决的问题了,利用数学的逻辑,去“证明”整体的情况“类似于”样本。虽然预算少,我们也可以认为“基本”知道了整体情况。举个例子,想要知道下大学生毕业平均薪水的情况。可以抽样100个大学生毕业的薪水,计算这100个学生的平均薪水,然后再推论“所有符合条件”的大学生毕业薪水的平均数,就是“近似于”这100个样本的平均薪水。
细心点的读者马上就会发现,这“抽样”里的花样就多了。比如,你去知乎用户里抽样这100个,可能结论就是平均毕业薪水50万…呵呵,有没有被平均的感觉?这就涉及到了“随机抽样”的问题,这里不展开,留个#TODO。
除了经济上的原因,有时候整体的情况在当代的科技水平下,是真的不可知。比如天文学和天体物理学都会研究宇宙的恒星数量和物质总量,但是这个真不知道确切的数字。只能通过“可观测的宇宙”,再用统计的方式来推测整个宇宙的情况。
那么,焦虑怎么办?答案是概率。相信大家直觉上都马上就明白了,样本的情况(或者专业点讲:特征集合)一定是能“在一定程度上”表述整体的情况的。不然,我们不太蠢了么… 关键在于“多大程度上”。概率分布可以用了表达对某个️事件(比如样本平均数是否等于整体平均数)的可信程度(置信区间)。以前特别热门的Six Sigma概念就是基于正态分布的置信。
说起概率,大家一定会提到“抛硬币”。抛的次数多了,正反面出现的概率就慢慢稳定在了50%。这个就是古典概率里的频率稳定的方式来描述概率。其实,还有贝叶斯学派对概率的解释,认为概率是对某个事件的信心表述。贝叶斯的概念是个非常重要的概念,有兴趣的读者可以自己“深度学习”一下。
这么一想,统计的最浅层的存在意义就是:用加班和便当来描述诗和远方,再问你信不信这碗鸡汤。咳咳,用样本的情况来描述整体,并且给出这个情况的可信程度。
那么统计对你有啥意义?好吧,统计会改变你的思维模式。再举例说明。用过导航app都知道路线确定后,程序会给出一个预计到达时间。请问这个时间是怎么来的?我问过不少人,基本的回答就是距离除以(平均)速度。当然不是咯~ 现实中的方式是:假定“到达时间”是某些特征向量的函数,这些特征可以是“所在城市”、“路线现有拥挤指数”、“行驶方式”、“是否高峰期”等等,通过回归的方式来预测。