概率统计
(1)极大似然思想
(2)贝叶斯模型
(3)隐变量混合概率模型,EM思想
基础的典型分布:正态(高斯)分布。
大数定律:在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
大数定律证明了随机现象的“频率稳定性”。
中心定律:独立随机变量标准化和的极限分布是正态分布。
贝叶斯公式:有一个待分类的样本,计算出这个样本发生的条件下,各个分类发生的概率。哪个概率最大,就说明这个样本属于那个分类。
泊松分布:每隔一段时间内时间发生的概率,分布图类似正态分布。
指数分布:事件发生时间间隔长短的概率。可能性越来越小。
蒙特卡罗方法:计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。(模拟车子,交通问题)
假设检验:判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
最大似然估计:在“模型已定,参数θ未知”的情况下,通过观测数据估计未知参数θ 的一种思想或方法。寻找使得观测到样本数据的可能性最大。
- 写出似然函数;
- 对似然函数取对数;
- 两边同时求导数;
- 令导数为0解出似然方程。
微积分
主要体现在极值问题 与 (条件)最优化问题
偏导数,梯度这两个概念必须深入人心
还有就是凸优化和条件最优化问题,这个是理解SVM,或者线性回归等等模型正则化的基础。
牛顿莱布尼茨:一个连续函数在某区间的定积分=原函数在该区间的增量
Lagrange乘子法:在约束条件下求极值的方法。把约束条件乘以λ(即不定乘子)后加到待求函数上的求极值方法
批量梯度下降法每次迭代时都会计算训练集中所有的数据,而随机梯度下降法每次迭代只是随机取了训练集中的一部分样本数据进行梯度计算。
牛顿(迭代)法:在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。
离散数学
偏序:自反,反对称,传递
拟序:反自反,反对称,传递
全序:自反,反对称,传递,任意两个元素可以比较
良序:任意优先全序集是良序
等价:自反,对称,传递
同态:σ(ab)=σ(a)’σ(b)
同构:σ是双射
半群:可结合的二元运算的集合
群:关于半群,每个元素的关于该运算都是可逆的
群同态:把集合换成了群
线性代数
矩阵:是一个表格,行数可以不等于列数
行列式:是一个数,行数=列数
解线性方程组:尽可能将矩阵中的数字转化为0。
高斯消元:每一次先选择两行,再将这两行开始消元,于是每一次消元需要枚举每一个矩阵中的变量,所以就是O(n^2*m),是立方级的。
n阶矩阵可以对角化的必要条件是有n个线性无关的特征向量。
实对称矩阵一定可以对角化。
浅谈协方差矩阵
协方差就是这样一种用来度量两个随机变量关系的统计量
实对称矩阵的对角化
对于任意矩阵:
部分奇异值分解:
数论 算法
P类问题就是能够以多项式时间的确定性算法来对问题进行判定或求解
NP问题是指可以用多项式时间的非确定性算法来判定或求解,即这类问题求解的算法大多是非确定性的,但时间复杂度有可能是多项式级别的。
NP完全问题:它是NP问题中最难的问题,其中任何一个问题至今都没有找到多项式时间的算法。
实数域R上(或复数C上)的向量空间中,如果集合S中任两点的连线上的点都在S内,则称集合S为凸集。
如果一个函数是凸函数,则其局部最优点就是它的全局最优点。