梯度下降
用于迭代求解函数最优解,是大数据领域用于求解问题的常用思想。
步长:每一步梯度下降时向目标方向前进的长度。前期可以使用较大步长,加快训练速度,后期可以使用较短步长,保证训练精度。
假设函数:由特征产生目标变量的函数,即预测所用函数。
损失函数:给任意参数组合打分的函数。通过损失函数,可以知道在梯度下降时,哪些点更接近目标值。
随机梯度下降:每次随机选择一个或一小部分点进行损失函数计算,达到减少计算量、提高训练速度的目的。由于每次只使用部分数据进行优化,数据中可能存在噪声,因此每次的移动方向不一定是正确,但迭代次数增加,总体还是会朝着期望的方向移动,且可能因为“非正确移动”,更有可能找到全局最优解。
通常,随机梯度下降比普通梯度下降效果更好、速度更快。
每次训练使用部分样本,使得随机梯度下降具有增量学习的特性。可以边读数据边训练。可以基于已有模型基础上进行训练。
引用
1.从机器学习到深度学习:基于scikit-learn与tensorflow的高效开发实战