微积分
在机器学习里,主要用到了微分部分。作用是求函数的极值。
- 导数和偏导数的定义和计算方法
- 梯度向量的定义
- 极值定理,可导函数在极值点处或者梯度必须为0
- 雅克比矩阵Jacobian matrix,向量到向量映射函数的偏导数构成的矩阵,在求导推导中会用到
- Hessian Matrix,2阶导数对多元函数的推广,与函数的极值有密切的联系
- 凸函数的定义与判断方法
- 泰勒展开公式
- 拉格朗日乘数法,用于求解带等式约束的极值问题。无监督机器学习主成分分析,有监督机器学习线性判别都会用到。
-
其中最核心的是记住多元函数的泰勒展开公式,根据它我们可以推导出机器学习中常用的梯度下降法,牛顿法,拟牛顿法等一系列最优化方法
线性代数
线性代数用的比微积分多,在机器学习的几乎所有地方都有使用。
- 向量和矩阵的基本计算,包括加法,减法,数乘,转置,内积
- 向量和矩阵的范数,L1范数和L2范数
- 矩阵的各种基本算法
- 逆矩阵的定义和性质
- 行列式的定义和计算方法
- 二次型的定义
- 矩阵的正定性
- 矩阵的特征值和特征向量
- 矩阵的奇异值和分解
- 线性方程组的数值解法,尤其是共轭梯度法
概率论
如果把机器学习所处理的样本数据看作随机变量/向量,我们就可以用概率论的观点对问题进行建模,这代表了机器学习中很大一类方法。在机器学习里用到的概率论知识点有:
- 随机事件的概念,概率的定义与计算方法
- 随机变量与概率分布,尤其是连续型随机变量的概率密度函数和分布函数
- 条件概率与贝叶斯公式
- 常用的概率分布,包括正态分布,伯努利二项分布,均匀分布
- 随机变量的均值与方差,协方差
- 随机变量的独立性
-
最大似然估计
最后总结一下常用的机器学习法涉及到的数学知识
算法 | 数学知识 |
---|---|
贝叶斯分类 | 随机变量,贝叶斯公式,随机变量独立性,正态分布,最大似然估计 |
决策树 | 概率,熵,gini指数 |
KNN | 距离函数 |
主成分分析 | 协方差矩阵,格拉朗日,特征值和特征向量 |
线性判别 | 逆矩阵,格拉朗日,特征值和特征向量 |
支持向量机 | 强对偶,格拉朗日对偶,KKT条件,凸优化,核函数,Mercer条件 |
罗辑回归 | 概率,随机变量,最大似然估计,梯度下降法,凸优化,牛顿法 |
随机森林 | 抽样,方差 |
隐马尔可夫 | 概率,离散随机变量,条件概率,随机变量独立性,格拉朗日,最大似然估计 |
神经网络 | 梯度下降法,链式法则 |
K-means | 距离函数 |