背景
最近学机器学习,会简单的用scikit-learn套现有模型fit出结果,但是想深入学习下其背后的原理时,数学就是一道绕不过去的门槛,于是就决定专门花点时间来重新学习数学,大学时,我只是去背贝叶斯公式,会套用公式解一些题目,过后基本忘光,其实每一个数学理论都产生的背景和要解决的问题,我们在了解了一个公式背后最本质的东西后,能收获的不仅仅是数学层面的东西,还有哲学层面的,因为数学的本质是解决现实问题。这篇文字主要就是想整理记录最近几天学习概率论与数理统计的一些基本理论和公式以及结合机器学习算法的一些想法思路,主要参考张宇考研概率基础班学习笔记、刘未鹏《数学之美番外篇:平凡而又神奇的贝叶斯方法》以及《正态分布的前世今生》的文章。
概率论与数理统计基本知识
本部分主要梳理大学概率论与数理统计的基本概念和知识,其中会穿插我个人对其的理解和背景,没有严格的数学定义和推理,本人数学学渣,仅作为记录和一次学习后的输出,不作为学习的标准依据,希望大家指出不足和错误。简书不支持数学公式编辑,所以下面基本都用文字描述。
五个主线
1. 概率P(A)
主要包括古典概型和几何概型,古典概型的处理的问题是随机试验的样本空间中包含有限个、等可能样本点中随机事件的概率,常见的掷骰子、摸球问题;而几何概型也是等可能样本点,只不过样本点是可度量的几何区域,如长度、时间、面积等;这是概率论中最直观的一部分,基本的概率公式都是从中推演而来。
2. 分布函数F(x)
分布是什么?它是一个随机现象的整体规律的数学抽象,我简单理解为机器学习的模型,如果我们知道一个随机现象的分布函数(现实中不可能),那么我们的建立的模型一定是完美的;我们把前面复杂事件样本空间中的样本点通过一个函数映射到数轴上,数轴上的取值称为随机变量,随机变量又分为离散型和连续型,分别对于分布律和概率密度。有几种重要的分布:二项分布、泊松分布、几何分布,指数分布、正态分布,几种分布都相互联系,在此不展开说。
3.数字特征
就是数学期望、方差、协方差、相关系数,这里想说的是相关系数就是把协方差量纲变为1。
4. 两个极限定理
大数定律
当样本n趋向无穷大时,事件的频率和数学期望都趋向一个稳定值。
中心极限定理
大量独立的随机变量,其均值分布以正态分布为极限。
5. 如何做估计
矩估计,最小二乘法,最大似然估计
好了,我们知道一个随机现象背后存在一个客观整体规律,离散型我们可以用分布律来描述,连续性可以用概率密度函数来描述,那么我们就需要根据有限次观察样本对其(总体)进行估计。如何做呢?我们假设总体(连续型)的概率密度函数为f(x,θ),那么对总体的估计就转化为θ的求值。
矩估计
矩估计是三种方法中最简单粗暴的一种,它直接令样本的一阶原点矩(数学期望)和总体的一阶原点矩相等,而样本的数学期望是其算术平均,而总体的数学期望是其概率密度函数f(x,θ)的积分,那么我们就可以计算出θ值。
最小二乘法
这里直接引用刘未鹏《数学之美番外篇:平凡而又神奇的贝叶斯方法》中的图和例子,假设图中的n个红点(样本)有一条最拟合的直线y=f(x,θ)(总体),我们如何来找出这条直线呢?最小二乘法的方法就是计算每一个红点(Xi, Yi)与(Xi, f(Xi,θ)) 的误差ΔYi = |Yi – f(Xi,θ)|,寻找一个θ值,使(ΔY1)^2 + (ΔY2)^2 + .. (ΔYn)^2最小。在《数学之美番外篇:平凡而又神奇的贝叶斯方法》中还介绍了最小二乘中为什么要用误差的平方,最后联系到贝叶斯公式;以及在《正态分布的前世今生》论证了算术平均(矩估计)是最小二乘法的一个特殊情况。
最大似然估计
最大似然估计的思想是,样本数(X1,X2,...Xn)是已经发生了的事实,那么我们要寻找的总体f(x,θ)(模型)应该是让这一组样本出现的概率最大,那么也就是f(X1,X2,...Xn,θ)最大,我们假设样本数(X1,X2,...Xn)都为独立同分布样本,那么定义L(x,θ)=
贝叶斯理论与奥卡姆剃刀原理
一开始谈到了古典概型,我们知道古典概型是在我们知道随机过程所有的情况下(知道分布律或概率密度函数),计算随机事件的概率,也叫“正向概率”。可是古典概型的现实意义却不强,比如摸球问题,我们是在知道袋子里所有球的个数情况下来计算摸到什么球的概率的,知道所有情况在现实中是不切实际的,除了上帝视角,我们人类在绝大部分时间内都是在未知的领域探索,更加符合实际的情况是我们不知道袋子里面的情况,但是在勇于探索的人(真正make difference的人)有限次尝试后(向未知的袋子里摸球),对结果进行观察总结,然后对袋子里面的球比例(如不同颜色、大小等)进行推测。大家发现没有,袋子里面球真正的情况只有放球在袋子里的人(上帝)才知道,摸球人(人类)只能根据摸球后(事情发生后)的情况进行推测,标准答案不知,只能从很多种推测中选一个最接近标准答案的。好了,这不就是做估计嘛,和贝叶斯同时代的统计学家,一般认为选用最大似然估计来计算出最接近样本数据的猜测就好了,
而贝叶斯则认为,P(h | D) ∝ P(h) * P(D | h) h为hypotheis,D为样本数据,一个推测的“后验概率”正比于它的先验概率乘以它的似然估计,而我们要选的最合适的推测就是推测本身最合理的(先验概率最大)与基于这个模型的这些样本值最有可能发生的概率乘积最大的那个推测。也就是说,贝叶斯认为只考虑推测和当前样本的匹配度最大是不够的,还需要考虑这个推测本身的先验概率。就拿
图来说,如果只考虑与当前样本的匹配度最大的推测是最好的话,那极限情况下应该是一条通过每一个红点的曲线,大家可以想象下,但是这样的曲线很显然不是最合理的推测(机器学习中也叫“过匹配”),怎么解释呢?
我们知道,现实中无处不存在“误差”,想象下上图是表示一些孩子和父亲身高关系的图,我们假设孩子和父亲身高(基因)是线性关系,但现实中可能因为生活环境、营养、锻炼程度等其它因素,导致了数据发生了偏移,而高斯通过最小二乘法导出了误差分布曲线服从正态分布(详细推导见《正态分布的前世今生》)。什么意思呢?首先,你的推测如果要完美匹配样本点是不对的,因为有误差存在;但误差服从正态分布,简单的说就是大的误差出现频率低,小的误差出现频率高,因此是一条简单的直线(先验概率大)匹配度差一点的猜测还是复杂的曲线(N阶多项式)(先验概率小)匹配度更好的猜测更合理呢?贝叶斯理论给出了答案。而奥卡姆剃刀原理称“如无必要,勿增实体”,即“简单有效原理”。越复杂和不常见,越有可能造成过匹配,反而应该舍弃。