送给自己
无论如何,不许退缩,不许不努力,绝不许放弃。我们不会被困难打到,要咬牙含着泪也要坚持到最后一刻。
微积分和梯度
两边夹定理
极限定理
极限存在定理
单调有界数列必有极限
单增数列有上界,则其必有极限
构造数列
自然常数e
导数
导数与微分的区别
导数是函数图像在某一点处的斜率,也就是纵坐标增量(Δy)和横坐标增量(Δx)在Δx-->0时的比值。微分是指函数图像在某一点处的切线在横坐标取得增量Δx以后,纵坐标取得的增量,一般表示为dy。
导数是函数图像在某一点处的斜率,也就是纵坐标变化率和横坐标变化率的比值。微分是指函数图像在某一点处的切线在横坐标取得Δx以后,纵坐标取得的增量。
常用导数
积分公式
积分是微分的逆运算,即知道了函数的导函数,反求原函数。在应用上,积分作用不仅如此,它被大量应用于求和,通俗的说是求曲边三角形的面积,这巧妙的求解方法是积分特殊的性质决定的。主要分为定积分、不定积分以及其他积分。积分的性质主要有线性性、保号性、极大值极小值、绝对连续性、绝对值积分等。
分部积分法
积分与求导互为逆运算
方向导数
梯度
凸函数
凸函数是数学函数的一类特征。凸函数就是一个定义在某个向量空间的凸子集C(区间)上的实值函数。
可微函数
在微积分学中,可微函数是指那些在定义域中所有点都存在导数的函数。可微函数的图像在定义域内的每一点上必存在非垂直切线。因此,可微函数的图像是相对光滑的,没有间断点、尖点或任何有垂直切线的点。
一般来说,若X是函数ƒ定义域上的一点,且ƒ′(X)有定义,则称ƒ在X点可微。这就是说ƒ的图像在(X, ƒ(X))点有非垂直切线,且该点不是间断点、尖点。
一阶可微
二阶可微
凸函数举例
Jensen不等式:若f是凸函数
Taylor展式与拟牛顿
Taylor公式 – Maclaurin公式
梯度下降算法
Taylor展式
牛顿法
牛顿法的特点
- 牛顿法具有二阶收敛性,在某些目标函数(如线性回归、Logistic回归等)的问题中,它的收敛速度比梯度下降要快。
- 经典牛顿法虽然具有二次收敛性,但是要求初始点需要尽量靠近极小点,否则有可能不收敛。
- 如果Hessian矩阵奇异,牛顿方向可能根本不存在。
- 若Hessian矩阵不是正定,则牛顿方向有可能是反方向。
- 计算过程中需要计算目标函数的二阶偏导数的逆,时间复杂度较大。
拟牛顿的思路
求Hessian矩阵的逆影响算法效率,同时,搜索方向并非严格需要负梯度方向或牛顿方向;因此,可以用近似矩阵代替Hessian矩阵,只要满足该矩阵正定、容易求逆,或者可以通过若干步递推公式计算得到。
- DFP:Davidon – Fletcher – Powell
- BFGS:Broyden – Fletcher – Goldfarb - Shanno
二阶近似
DFP算法
BFGS矩阵迭代公式
L-BFGS
- BFGS需要存储n×n的方阵Ck用于近似Hessian阵的逆矩阵;而L-BFGS仅需要存储最近m(m约为10,m=20足够)个 用于近似Ck即可。
- L-BFGS的空间复杂度O(mn),若将m看做常数则为线性,适用于特征巨大的优化问题。
小结
1. Taylor展式是数学分析中的重要工具,在近似计算、迭代公式推导等众多方面有重要作用。
2. 梯度下降算法还涉及到下降方向的修正、自适应学习率等问题。
3. Gini系数是CART的结点划分依据,实践中往往使用“与均匀分布的距离”作为度量。
-这两部分将在机器学习课程的回归、决策树、随机森林等章节中进一步阐述。