引言:
本文将通过通俗易懂的方式,探讨特征变量、多变量梯度下降、特征收缩、特征变量范围以及学习率如何影响多元梯度下降法,并对比其与正规方程的优缺点。
一、对特征的理解:
特征在机器学习和数据分析的上下文中,可以被理解为对预测值或目标变量有重要影响的一切可观测或可度量的因素。
- 具体到各种应用场景中,特征可能是:
1.在房屋销售预测中,特征可以包括房屋面积、房龄、地段、楼层、房间数量等;
2.在医疗诊断中,特征可能是患者的生理指标、病史记录、家族病史等;
3.在金融风控中,特征可能涵盖借款人的信用历史、收入水平、负债情况、工作稳定性等。
二、特征变量与多变量梯度下降
在多变量梯度下降中,我们不仅关注单个特征对目标函数的影响,更要考虑所有特征之间的交互作用。简单来说,就好比爬山时,不仅要关注脚下每一步的方向(每个特征对应的梯度),还要综合考虑所有路径(多个特征)共同决定的最优下降方向。
联系前面所学的单变量线性回归函数与多变量线性回归的形式:
-
单变量的线性回归的预测函数:
单变量线性回归的形式.png
1.hθ(x)是预测函数,它给出的是当给定自变量 x时,预测的因变量值。
2.θ0是截距项,代表当 x=0 时预测值的起点。
3.θ1是斜率,,反映了自变量x 改变一个单位时,因变量 y 平均变化的数量。 -
多变量线性回归的形式:
多变量线性回归的形式.png -
多变量梯度下降算法公式的解析如图:
多变量的梯度下降公式解析.png
三、特征收缩
特征收缩就像是在调整每个特征的“影响力”,让那些对预测结果贡献较小或者容易引起过拟合的特征“减弱”其影响力,从而使得模型更稳定、泛化能力更强。
四、特征范围
特征变量的取值范围对梯度下降的效率和稳定性有很大影响。如果某些特征的数值范围过大或过小,可能会导致梯度更新时步长不一致,从而使模型收敛速度变慢甚至无法收敛。因此,在训练前通常需要进行特征缩放或标准化处理,确保所有特征在同一尺度上进行比较和优化。
-
以卖房子为例,得出特征范围的方式如图:
1.特征变量为:房子的大小(size)、房间数 (numer of room)。
得出特征范围的方式.png
五、学习率
学习率是梯度下降算法中的一个重要超参数,决定了我们在每次迭代中沿梯度方向调整参数的幅度。如果学习率过大,可能会造成模型在最小值附近震荡而无法精确收敛;反之,如果学习率过小,则可能导致收敛速度极其缓慢。找到一个合适的学习率就像掌握好下山的步伐节奏,既不能太快导致跌跌撞撞,也不能太慢错过最优解。
六、正规方程
正规方程(Normal Equation)是用于求解线性回归模型参数的一种直接优化方法,特别是在没有采用梯度下降等迭代优化算法的情况下,可以直接计算出使平方损失函数最小化的模型参数。在简单线性回归或多变量线性回归(也称为多元线性回归)中,正规方程的核心思想是构造一个关于模型参数的方程组,然后求解该方程组得到最优解。
-
正规方程具体是:
正规方程.png1.θ 是一个向量,包含我们需要求解的模型参数。
2.X 是一个m×(n+1) 的矩阵,其中 m 是样本数量,n 是特征数量(不包括偏置项),每一行代表一个样本的所有特征值。
3.X T(这个T是在X的右上方的,同下)表示 X 的转置矩阵。
4.(X T X) −1 是 X T与 X 相乘后求逆矩阵,只有当 X TX 可逆时,才能使用正规方程。
5.X T *y 是 X 转置后与 y 向量相乘,得到一个 (n+1) 维的向量。 -
正规方程中X 与 y的图像例子解析如图:
正规方程中X和y的例子.png
七、梯度下降法与正规方程的优缺点
- 梯度下降的优点:
- 当特征变量有很多时,仍然能够很好的运行
- 梯度下降的缺点:
需要寻找一个合适的α值,通常需要算很多次,效率太低。
需要迭代很多次梯度下降算法,计算会很慢
- 正规方程的优点:
1.通常只需要运行一次,不需要迭代。
- 正规方程的缺点:
- 需要计算出:计算复杂,如果特征变量的数量n过多计算就更复杂了
- 总结:建议当特征变量的数量n很大时运用梯度下降,特征变量的数量n小时,特征方程是个很好的方法。
声明:以上构图来自吴恩达机器学习课程的内容截图,本人对图片内容添加了个人理解与补充,仅供学习参考。若有不足之处欢迎留言讨论。