相关系数
相关系数是用于衡量两个变量之间,是否存在线性相关。其值范围介于 [-1, 1] 之间,为正则代表正相关 —— 一个变量随另一个变量的增大而增大;为负则代表负相关 —— 一个变量随另一个变量的增大而减小;系数绝对值越接近于0,表示两个变量之间的线性相关性越弱。
我们假设有两个变量 X 和 Y ,它们各自代表一组观测数据序列(例如,X代表身高、Y代表体重,(Xi, Yi)代表的是一个观测样本 i),那么它们之间的相关性可以用如下公式计算:
公式中的 Cov 是协方差,std 是标准差。
两组随机数序列的相关系数接近于0。
相关性 vs. 协方差
相关性是对协方差进行归一化转换后的形式。所谓归一,就是把数据范围限制在一定范围内,把有量纲表达式变为无量纲表达式。拿协方差矩阵来说,归一化转换后,矩阵中元素的值都被限制在了-1到1范围之间。(相关系数取自于归一化后的协方差,用于体现变量之间的相关程度。从这一点上来说,协方差本身是没有任何意义的。)
除此之外没有其他分别。在日常使用中,这两种指标可互换使用。我们在当谈及它们时,仅仅通过名字的不同将他们区分,但在概念上它们几乎相同。
应用实例:
我们构建 X 和 Y 两组序列,并计算一下它们的协方差。
如前所述,得到变量 X 和 Y 的协方差矩阵之后,我们要做的是将其归一化,使元素值的范围落在-1到1之间,之后进一步计算得到相关性系数,观察变量之间的相关性。具体实现公式如下:
为了加以说明,我们再来看一下例子:
我们来可视化展现一下X和Y的相关性,可以明显看到,两个变量之间呈现相性相关。
从Y和Z的构造中,我们注意到它们与X有很强的的线性关系。让我们来计算以下相关系数进行验证,可以看到,X与Y,Y与Z,X与Z的相关系数都是1。
为何cov和corrcoef函数返回的都是矩阵?
协方差矩阵是统计学中的一个重要概念。人们通常所说两个变量的协方差,实际上只是协方差矩阵中的一个元素。对于一个n*m的样本矩阵(n为变量个数,m为变量包含的样本点个数),得出的协方差矩阵C是n*n的矩阵,协方差矩阵每个元素Cij表示的随机变量Xi, Xj的协方差。矩阵的对角线表示变量本身的方差(即Cov(X,X)或Var(X))。协方差矩阵是基于对角线对称的。
现在让我们来可视化展现一下变量之间(假设为 X 和 Y )正相关的例子:
进一步地,我们通过增大“噪声”的偏离程度,来降低变量间的相关程度:
下面的例子展示了变量之间存在负相关的情形:
相关系数在金融领域中的应用
1、判断证券之间是否相关
当我们确定了两只股票价格存在相关性,便可以利用它来预测未来的股价。举例来说,让我们看一下苹果和半导体设备制造商泛林集团(Lam Research Corporation)的股价。
2、构建一个互不相关的股票投资组合
这个也是相关系数在金融领域的又一应用,其实并不难理解。如果股票之间互不相关,单只股票的下跌不会影响到其他的股票。这意味着,由诸多不相关的股票组成的投资组合,能够拥有相对稳定的收益。
相关性的局限
1、显著性
当变量不服从正态分布时,很难严格界定相关性是否显著(还起作用)。拿上例来说,苹果和泛林集团的相关系数接近1时,可以认为在选取的时间范围内,它们的股价是相关的,但并不能保证未来是否依然满足相关性。
同时,如果我们将这两只股票分别于标普500指数进行相关分析,也将得到很强的相关性。因此我们能够得出结论是:和平均股价(指标普500)的相关性比较,苹果和泛林集团的相关性略高。
根本问题在于,选择正确的时间段能够很容易地进行相关性数据采集。为了避免这种情况,一种方法是计算这两只股票以往多个历史时期的相关性,同时检测相关系数的分布情况。后续章节会进一步详细说明。 上例中我们看到了这两只股票在 2014-1-1 到 2015-1-1这个时间段内的相关系数是0.98。让我们看一下这两只股票“滚动60天期”的相关性,看看它们是如何变化的。
2、非线性关系
相关系数能够用来检测两个变量间的相关程度。然而需要注意的是,变量之间可能以一种非线性、且可预知的方式互相关联影响。这时,相关系数就会显得束手无策。例如,一个变量可能紧随第二个变量的变化而变化,但有一定的延时。又或者是,一个变量可能与另一个变量的变化率相关。这些关系虽然不是线性的,但是如果能够被检测到,还是非常有用的。
另外,相关系数对异常值也是非常敏感的。换句话说,样本集中是否剔除含异常值的样本点,将会导致结果大相径庭。同时也很难界定这些异常样本点本身是有意义的,又或者是纯粹的噪声。
我们来看一个例子,通过使噪声服从泊松分布而非正态分布,我们来看一下会发生什么?
本章总结:相关性是一种强大的分析技术,但是在统计学中,应该时刻警惕小心它的局限性,不要去解释那些无中生有的结果。