在线性回归(Linear Regression)问题中,我们可以通过梯度下降(Gradient Descent)来求解到最优参数。使用正规方程(Normal Equation)同样可以达到这一目的,正规方程不依靠迭代,可以一次性精准的求解最优参数。此文章证明过程参考自吴恩达斯坦福CSS229课程讲义note1。
1. 代价函数(Cost Function)
代价函数的向量形式
- 为输入特征(feature)
- 为参数
- 为训练数据真实值
2. 关于矩阵求导的基本公式
源自note1第9页
由上式1与3可推导出
3. 证明
- 对代价函数求关于的导数
- 展开
- 由一个实数的迹是它本身,可得
- 由于对求关于的导数为0,及基本公式1,可得
- 将 ,结合基本公式5可得
- 令
即可得到正规方程
最后两边左乘得
证明完成
4. 正规方程与梯度下降的对比
梯度下降 | 正规方程 |
---|---|
需要选择超参数a | 无超参数选择 |
多次迭代 | 一次求解 |
特征数比较大时,算法无太大影响 | 特征数大,算法运行时间长 |