上文介绍了简单的一元线性回归，再进一步将自变量扩展到多维，就是今天这边介绍的重点——多元线性回归。例如假设因变量Y与自变量X1,...，Xk之间存在线性关系：

多元线性关系

注：其中ϵ表示误差项
在金融中，也经常会写成以下形式，这就是我们常说的alpha（超额收益）和beta（风险收益）的由来

金融常见写法

回归的原理与一元线性回归类似，需要找到最优的拟合平面（超平面），同样还是需要使用最小二乘法，使得平方误差值最小。一旦得到了回归系数（既各β系数），我们就可以通过该模型对于X的新观测值进行Y值预测了，每个βj告诉我们如果其他系数保持不变的情况下，Y会随着其变化的程度。
首先，我们先构造一个已知的线性模型Y=X1+X2，其中X2我们通过在平方抛物线加上X1得到，所以可以线性模型也可写为Y=2X1+X1^2：

示例代码

绘制图形

有了原始数据后，我们就可以使用statsmodels对其进行线性回归了

示例代码

最终得到的线性模型为：

线性回归结果

可以看到这里模型中X1前的系数是1，而没有考虑X2=X^2+X1，这是因为在回归过程中是元素是被分割开来处理的。

多元线性回归示例

在真实的股票分析过程中，也有类似的情况，例如对两只股票数据进行线性回归，可能会得到很高的β值，但是如果我们再引入一只第三方股票（例如标普500ETF），可能才能发现前两只股票的关联都是源于与这只基准股票，通过这种方法，可以更为准确地衡量两只股票的显著性。
第一步，我们先获取两只股票（AT&T与Fiserv）与标普500ETF(SPY)的价格数据，并对AT&T与Fiserv进行一轮线性回归

第二步，再引入标普500ETF的数据，将其作为另一个自变量引入回归过程

引入500ETF数据

得到回归线后，紧接着的一个问题就是如何对其进行验证，我们先采用一个最直观的办法——将自变量、因变量预测值绘制为图表，可以过滤一些明显存在的问题。

示例代码

绘制图表

注：黄色为预测值，蓝色为AT&T的真实价格
当然，也可以使用更为专业的统计学分析进行深入的验证与分析，summary()函数提供了多元线性回归的一些统计学数据。

指标1

注：OLS表示使用的为最小二乘法
R-squared/Adj. R-squared 指标表示回归线对数据的拟合程度
F-statistic/Prob (F-statistic) 表示模型是否能显著预测因变量的变化

指标2

const代表常量（α），x1标识自变量前系数（β1），x2标识自变量前系数（β2）
得到的回归线为Y=10.8489 - 0.1936X1 + 0.1836X2

模型假设

如上这些统计学指标是否有效，取决于如下的一些假设（与上篇文章中一元线性回归的假设一致）：

自变量不是随机的
误差项的方差在观测集内为常量（这条对于评估拟合的好坏程度至关重要）
误差项不是自相关的，杜宾-沃森统计用于检测自相关性，如果结果接近于2，那么则不存在自相关。
误差项服从正态分布。如果这个条件不满足，则有些统计则无法使用，如F检验。
除此之外，多元线性回归模型还需要一个额外的假设：
自变量间不存在严格线性关系，否则就会出现相同的线性方程有为多种表现方式的情况，从而无法计算出唯一的β系数。

模型选择

如何为因变量找到最合适的模型，是我们关注的究极目的。引入太多的自变量，可能会导致过度拟合，但如果自变量过少，拟合效果又会太差。目前业内最为主流的做法是逐步回归法。前向逐步回归从一个“空模型”起步，对每个独立的自变量进行检验，从中选择使得模型最优的一个，通常使用AIC或BIC进行衡量（越小越好）。然后之后每步从剩下的自变量中选出一个增加到模型中，使用线性检验该自变量组合，并通过AIC与BIC找到最优的一个选择，这样最终就能得到一个最优的模型。这种方法也有其局限性，如果特定的自变量在算法执行的前段就被剔除出算法，该方法可能会找不到理论上的最优模型，所以在现实使用中，逐步回归法还是需要结合人为的判断。

模型选择示例(自变量间存在严格线性关系)

首先我们手工构建一个包含4个自变量的线性模型：

手工构建的线性方程

为自变量生成对应的序列数据，各自变量间都有一定的关系，但需要注意的是对于X4变量，这里直接将其赋值为X1的数据的5倍（严格线性关系）

示例代码

自变量图示

我们使用statsmodels直接对其进行多元线性回归，

示例代码

注：可以看到结果中Beta2与Beta3拟合还是非常准确的，但是Beta1和Beta4则存在较大差异
由此可见，自变量间的严格线性关系会导致回归系数的不确定（逐步回归法也无法规避该问题）在这种情况下，就应该人为将X4剔除。
原理也很容易理解，因为如果X1与X4间存在严格线性关系（如X1=X2），那么线性方程就可以转化出无数的可能性（Y=X1+X2=0.5X1+1.5X2=1.5X1+0.5X2）。
还有很多方式去检查模型与自变量的优劣，这部分会在之后的文章中再深入介绍。
本篇就到这里，感谢阅读，欢迎订阅:)

量化交易平台Quantopian讲座(8)——多元线性回归

量化交易平台Quantopian讲座(8)——多元线性回归

多元线性回归示例

模型假设

模型选择

模型选择示例(自变量间存在严格线性关系)

推荐阅读更多精彩内容