“不要轻视简单,简单意味着坚固,整个数学大厦都是建立在这种简单到不能再简单,但在逻辑上坚如磐石的公理基础上。” ——《三体》
作为一个正在向数据科学进军的软件工程师,基础决定了我能走多远。而数学毫无疑问是基础中的基础,核心中的核心。据我所知,数据科学领域用的最多的数学就是:高等数学,线性代数,概率论与数理统计,以及凸优化。其中统计思维最重要。于是我决定边学边写,将学习统计思维过程中的点点滴滴记录下来,利用“思维导图”将所有的知识点穿成线,然后使用“费曼技巧”将学会的东西写成文章讲给别人听,慢慢地将其内化到自己的灵魂中。像数学这样的内功修炼绝对不是一朝一夕之功,所以越早开始越好,每天进步一点点,这样日积月累,水滴石穿,有朝一日定能发挥大的作用。
对于这个系列的文章,我的定位是“知行合一”,我会不断地迭代每篇文章中的内容,以臻完善。一开始只有一些理论知识的总结,但随着学习的深入后续会慢慢加入一些实践的内容,比如Python/R的示例代码,用于演示统计规律在实际工作中的具体应用。
这篇文章主要介绍了什么是统计学,以及构成统计学的基本框架,是统计学这门学科的基本面貌。
一. 什么是统计学
《行为科学统计精要》一书对统计学的定义是:
“统计学是一套组织、总结和解释信息的数学过程。”
这句话实际上已经回答了“什么是统计学”这个问题,其中“组织”、“总结”和“解释”是关键词。作为一套数学工具,统计学可以拆分为两个部分,一个用于“整理总结数据”,另一个用于“解释信息”。
用于“整理总结数据”的统计方法被称为“描述统计学”,比如对于学生的数学期末考试成绩,我们可以通过计算平均分,用一个单一的数据就能了解这次考试的平均情况;通过计算标准差,我们可以了解学生考试成绩的集中趋势等等。
用于“解释信息”的统计方法被称为“推论统计学”,同样是数学期末考试的例子,假如为了提高教学质量,从全校某一年级学生中选出60个学生,分成两组,其中实验组A使用新的教学方法,控制组B使用原来的教学方法,一段时间后再次组织考试,然后我们得到两组学生的数学考试成绩,发现实验组学生的平均分比控制组的高,那么这种情况是偶然发生的?还是新的教学方法的确有效果?这个时候就需要使用推论统计学来进行评估了。
上面这个关于教学方法的实验,引出了统计学中的一个基础概念:总体和样本。
二. 总体和样本
总体表示的特定研究中所关注的所有个体的集合。对于有些研究来说,测量总体中所有的个体显然是不现实的。因此我们必须在研究中抽取出一定的样本来进行研究,这些样本被用来代表总体,我们需要从样本得出结论然后推广到总体。对样本特征的描述被称为统计量,比如样本平均分,而对总体特征的描述被称为参数,比如总体平均分,它们是一一对应的,然而样本统计量与总体参数是不可能完全相等的,总会出现差异,这个差异被称为“抽样误差”。所以推论统计学就是用来回答“实验中观察到的差异,到底是抽样误差引起的,还是实验方法的确有显著效果”这一问题的数学工具。
不同个体会变化或者有不同值的特征就叫做“变量”。
三. 变量
变量有两类,一类是个体的某个具体特征,比如身高,体重和血型;另一类是会影响个体的外部因素,比如温度,湿度和天气情况。当然,也可以将变量分为离散变量和连续变量。进行实验就是对这些变量进行测量和观察,并得到数据集。有一些变量是可以直接测量和观察的,比如上面列举的这些,然而另外一些变量是抽象的,无法直接测量,比如智商,是否感到开心快乐,记忆力等,被称为“假设构建”(Constructs)。
我们可以通过观察和测量一些代表构建的外部行为来完成对假设构建的测量。这样的外部行为被称为“操作定义”(Operational definitions)。比如通过智力测量分数来衡量智商,通过记忆和识别人脸的正确率来衡量记忆力等等。这些操作定义一方面描述了如何测量构建的操作,另一方面根据测得的结果定义构建。
那么对于变量的测量实际上就是分类或者获得数值。测量分类有两种尺度:称名量表和顺序量表。称名量表用于标注和分类,但没有数量上的含义,比如可以将大学生按专业分为化学,生物,艺术和计算机等等,但“化学”和“艺术”之间不存在“多”或“少”的关系;顺序量表在称名量表基础上多了一层“顺序”的含义,比如“上等”,“中等”和“下等”。测量数值也有两种尺度:等距量表和等比量表。等距量表具有相对零点,比如测量一组男性身高,以平均身高为零点,高于平均身高1厘米的记为+1,低于平均身高1厘米的记为-1,然而这个时候作为零点的平均身高其测量值的量并不是0;等比量表具有绝对零点,比如测量一组男性身高,仅以厘米为单位,这个时候零点就代表没有高度(绝对零点)。
系统地测量变量的过程,就称为“统计方法”。
四. 统计方法
如果我们需要测量每个个体两个非数值型变量之间的关系,我们可以用卡方检验。而如果是数值型变量之间的关系,那么我们可以使用“相关法”对其进行研究,最常见的就是绘制散点图来观察变化趋势。比如图4-1用散点图和线性回归拟合了白葡萄酒残糖量与密度之间的关系。但相关法的主要局限在于我们只能说明变量之间存在关联关系,但不能说明存在因果关系。其他数值型统计方法还包括假设检验,t检验和方差分析。要想说明因果关系,需要使用“实验法”。
如果我们想比较的是两组或多组的成绩,就要使用“实验法”和“非实验研究”。实验法可以建立两个变量之间的因果关系,它的特点在于“操纵和控制”,即操纵被试变量,并控制其他环境变量,降低其影响。比如将抑郁症病人随机分为两组,其中实验组的病人服用新药物,控制组的病人服用安慰剂,一段时间后观察病症改善状况,这个时候“服用新药物”还是“服用安慰剂”就是自变量,“症状改善的病人数量”就是因变量。
非实验研究与实验法的主要区别在于它仅仅观察,而不“操纵和控制”,常见的有非等效组研究和前后测研究。非等效组研究的一个例子比如以性别作为被试变量进行分组,因为性别是天生固有的性质,研究者并不是通过将实验对象分为两组,然后一组定义为女性,一组定义为男性来实现的,并没有“操纵和控制”,所以它不是实验研究;前后测研究常常与时间有关,比如对同一组病人测量治疗前后的康复情况,也属于非实验研究,理由同上。