记得刚开始学机器学习时,对于突然冒出来的成本函数、正则项等感到莫名其妙,不知道是怎么出现的,后来才知道源自统计决策。统计学是机器学习中最大的基础知识来源,因此,在背景知识的最后一篇中,让我们一起来梳理一下统计学的整体的非常粗的一个框架。
一、统计理论
图1 :统计学的理论及来源
描述性统计用于总结和描述数据特征,通过图表、数字摘要等呈现出来,使用平均值、中位数、众数(集中);极差、方差、标准差、四分位距(离散);偏度、峰度(分布特征);直方图(频率分布)等来描述。
统计决策关注在不确定性条件下如何根据数据和模型来选择最优行动,通常要结合贝叶斯统计和经典统计来制定决策规则。
通过增添与经典统计状态空间相垂直的参数空间,扩展了经典统计框架,可以处理非独立,依赖时间或空间的动态数据。这就构成了随机过程的研究范围。强化学习中使用的Markov 决策过程、Google 搜索引擎中的PageRanK算法使用的平稳分布都是随机过程的内容,这个领域非常专业,本文不做讨论。
二、概率论与数理统计
经典统计的基本内容都在这里。平时我们学的时候,基本都是概率与数理统计一起学习的,可以全面联系起许多知识点。
三、 贝叶斯统计
1.著名的贝叶斯公式
贝叶斯统计是基于贝叶斯定理的一种统计推断方法,其核心思想是以当下样本的数据证据(似然函数)来修正先验知识(先验分布),更新对参数或模型的信念(后验分布)。这和我们人类的思维非常接近,就是我们有过去的经验(先验分布),再加上当下得到的现实情况(似然函数),一起来估计可能的结果(后验分布)。
其核心是贝叶斯公式:
公式有些复杂,我们就直接转化为汉字清晰描述如下:
2.微博上识别网络水军应用
实际上是一个分类任务,在把贝叶斯公式应用到分类任务是,具体到这个分类应用②式就转变为③式。
③式中,类别(是,不是),特征②(非空转发比,转发内容重复率,用户双向关注比,博主具体的等级级别,阳光信用…)。P( 类别 ) 是先验概率,可以根据我经验和过去的统计数据知道,具有“用户双向关注比”、“阳光信用”、“某个级别的博主”等特征博主分别是网络水军的概率,这是关于总体的先验假设。P( 特征 | 类别 ) 表示:如果类别是网络水军,在样本中,分别具备“用户双向关注比”“阳光信用”“某个级别的博主”等特征分别对应的是网络水军博主的概率。P( 特征 ) 是一个归一化因子,一个常数,在实际应用中可以不计算出来。有了以上数据,就可以计算后验分布 P(类别|特征),将“用户双向关注比”“阳光信用”“某个级别的博主”…具体的取值带入训练好的模型中就可以预测该博主属于网络水军人员的概率。
3.求后验分布的两种方法
贝叶斯统计核心内容就是求后验概率。
1) 通过先验分布与似然函数求后验分布
基于主观经验或历史数据对参数的初步假设,构造先验分布。基于数据生成机制,刻画数据给定参数时的分布,确定似然函数。应用公式①计算后验分布。简单情况下,后验分布可以解析求解,例如共轭分布。
2) 直接求后验分布
当后验分布难以解析求解时,可直接通过数值方法或近似方法进行估计。常使用数值法,如MCMC生成后验分布的样本,从而近似后验分布。具体到Gibbs抽样方法等,核心思想是通过随机采样,逼近高维复杂分布。MCMC、Gibbs,这些词许多编程的人员应该都很熟悉,机器学习中使用也较多,原来源头是在这里。所以真的有必要了解一些背景知识。
四、 统计决策
在不确定条件下选择最优行动。下图从生活逻辑出发,抽象出统计决策的结构,再对应形式化的表示。整体还是很好理解。终于明白风险函数的来源,什么是经验风险、结构风险这些统计学习的观点。对于我们理解强化学习等打下了基础。有了这些知识,不仅可以能更好理解程序,更重要的是可以在底层去优化甚至创建全新的算法,这时,你的独特优势就显示出来了。所以,真的需要有理论基础和原理,能比同行有更好的视野和办法。
附件:
鉴于概率和数理统计是机器学习中最重要的基础知识,故给出了更详尽的关系梳理,比较专业,可以不看。