机器学习中的优化算法 第二课
算法收敛的速度:
序列误差为
如果复合下面的关系,就称作是Q线性的:
如果r=1,C在0,1之间,那么就是线性。C是0就是超线性,C是1就是次线性。
如果r≥2.就是高次收敛。
解决给定的问题时候计算量是守恒的,如果需要更少的迭代次数,那么势必每一步的计算会更复杂。
对于梯度的定义,就是domain是什么形状的(scalar,vector,matrix),那么对每个分量求导之后放到相应的形状里面。
这样子就可以做内积。
例子:对于函数求梯度,那么就是
对于,那么
链式法则例子:
如果,那么
二阶导数:
如果,那么
二阶导数:
求梯度,hessian的一个方法:
利用展开的式子:

如果可以做相应的展开,就能写出一阶导数和二阶导数:
例子

它的二阶导数不那么容易写出来,因为是四阶的张量。
三类型的矩阵诱导范数:
1.最大行绝对值和范数,由l1范数诱导
2.最大列绝对值和范数,由l无穷范数诱导
3. l2范数诱导
核范数:
矩阵的核范数是所有奇异值的和。
基于下面的理由,核范数经常用来接近矩阵的秩。

核范数相关的几个范数有比较不等式: