今天天气很棒呀,所以也要是活力满满的一天鸭!今天回顾了之前看到的协方差和协方差矩阵,发现真的缺漏了很多,所以做如下记录。
协方差
学过概率统计的应该都知道协方差的定义,接下来就简单说明一下。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
(可以这样理解,我们高中所学的方差、标准差是适用于一维数据而协方差用于二维。两者呈正相关为正值,负相关为负值,举个栗子,也就是说比如房价越低人们越喜欢就是负相关了。这个时候就可以引入相关系数。)
协方差还分为 a.随机变量的协方差 b.样本的协方差
随机变量的协方差:
对两个随机变量联合分布线性相关程度的一种度量。公式表达为:
其他特点
样本的协方差:
在实际中,通常我们手头会有一些样本,样本有多个属性,每个样本可以看成一个多维随机变量的样本点,我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系的参数,由于不知道具体的分布,只能通过样本来进行估计。公式表达为:
协方差矩阵
协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
给出一个三维的例子
特点:
必须要明确一点,协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。
Matlab实现
先计算然后用Matlab里面的cov函数验证
(rand()用来生成随机矩阵,fix()像0方向取整,mean()取均值,size()获取矩阵的行数和列数,std()求标准差)
Finally~午餐时间到啦!