概率论 统计学
常见数字特征
数学期望(均值)
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式为: :表示观察到随机变量的样本的值。:表示发生的概率。
数学期望反映的是平均水平。通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,首先是个体信息被压缩了,其次如果单纯看期望的话,是看不出样本的数量。(平均成绩为80,在1人班和100人班的含义是不一样的),通过这个问题想说明,在刻画群体特征的时候,多个数字特征配合才能达到效果。
方差
方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。
方差()计算公式如下:
标准差
标准差也是用于衡量一组数据的离散程度的。公式如下,可以看出标准差(表示)于随机变量处于同一量纲下,这为以及在同一公式中计算提供了很好的支持。
标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。
协方差
标准差,方差一般用来描述一维的,现实中我们遇到的大多是多维的,这时候虽然可以每一维独立计算出方差,但信息单一,这就引出协方差。前面一直在探讨单个随机变量(1维),但是事实上当我们考察一个群体的时候,往往事物的属性是多方面的(多维),这里只考察2维情况,形式如:。的意思这类事物具有两个方面的属性,更进一步来说,一个样本有两方面的值,体现在数据库中,有两列。当这两个属性出现在同一类事物中的时候,我们很自然想到之间有某种关系,但是如何来刻画这种关系呢?是2维的,只考虑1维会无法从整体把握问题。而如果进行关联分析,有时候却需要对维度拆分来进行研究,这就引出了下面的协方差公式:
均值描述的是样本集合中平衡点,因为信息是有限的。
标准差描述的是样本集合中各个样本点到均值之间距离的平均值
而方差则仅仅是标准差的平方。方差是协方差的一种特殊情况,即当两个变量是相同的情况
协方差矩阵
前面已经说了协方差的意义,协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差,不是样本之间的关联关系。协方差探索的是随机变量X,Y之间的相关性,是放在同一个样本中来进行的。举一个简单的例子,学生小明(年龄17岁,年级为高2),小红(年龄17岁,年级为高3),小明、小红就是我们所说的样本,而年龄、年级则是随机变量。计算协方差时,考虑的是小明年龄和小明年级之间的关联关系(一个样本自身属性之间的关联关系)。ps:未考虑小明、小红之间是否有关联关系(样本之间是否有关联关系)。
协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方,对于机器学习领域的PCA来说,如果遇到的矩阵不是方阵,需要计算他的协方差矩阵来进行下一步计算,因为协方差矩阵一定是方阵,而特征值分解针对的必须是方阵,SVD针对的可以是非方阵情况。协方差矩阵在主成分分析中主成分分析有关键作用。主成分分析就是把协方差矩阵做一个奇异值分解,求出最大的奇异值的特征方向。协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的,这点要记牢了。
当样本含有大量维度(随机变量多)的时候,我们就需要使用矩阵来刻画各个维度之间的关联关系。(每一行代表一个样本,每一列代表一个随机变量)
参考资料:https://www.jianshu.com/p/a6f8d992a0ab