统计学习方法总结

统计

本文总结了常用的统计学习方法,包括模型定义,原理,适用场景,模型参数学习方法等。统计学习是根据一部分标记好的实例数据,推断待分类实例的类别,所以并不知道数据的真实分布函数。有些场景只能选择某种统计模型,也有一些场景可以套用不同的模型,得到待分类实例的不同的分类结果,哪个模型更好需要根据实际分类的结果进行判别。下面是最常使用的传统的统计学习方法,其中有些方法的思路也会被借鉴用于神经网络模型中。

感知机(preceptron):

感知机的思想是用一个超平面把所有训练数据分为两类。


感知机模型

感知机的使用有一个前提,就是训练数据集是线性可分的。在此前提下,通过训练数据学习感知机的参数w和b,找出一个可将正负实例完全分开的分离超平面。

其中线性可分的定义如下:


线性可分的定义

感知机定义如下:


感知机定义

也就是说,只要训练集是线性可分的,就一定能够找到w和b,从而确定这样一个分离超平面,而且这样的超平面不是唯一的,有许多解。这些解既依赖于初始值的选择,也依赖于迭代过程中误分类点的选择顺序。

感知机模型训练过程首先要确定损失函数的定义,有两个选择,一个是将误分类点的总数作为损失函数,但是这样会使得损失函数不是参数w和b的连续可导函数,不方便对w和b进行优化,所以选择了第二种方法,就是将误分类的点到超平面的总距离作为损失函数,它是连续可导的。

任一点X0到超平面的距离计算如下:


X0到超平面的距离

忽略签名的参数项,并将所有误分类点的距离累加,作为感知机的损失函数:


感知机的损失函数

这样一来,感知机的训练过程就是求解w和b使得改损失函数极小化:


损失函数极小化

具体的训练过程采用梯度下降方法,任意选取一组w和b,确定一个超平面,然后将改超平面下误分类的点一次随机选取一个,进行梯度下降,更新w和b:


损失函数对w和b的偏导数
梯度下降更新w和b

训练过程算法描述如下:


感知机训练过程

k临近方法:

使用和当前用例最近的k个用例,根据多数原则,判别当前用例的分类属于哪个类。
k临近方法的三要素:k值的选择,距离计算的度量方法,以及判别某个类别的方式。
可以利用kd树实现对k个最临近点的快速搜索。

朴素(naive)贝叶斯法:

属于生成模型。

朴素(naive)的由来是因为该方法对条件概率的分布做了条件独立性的假设,这是一个很强的假设,可以极大的简化分析和计算,但是由此算出的分类结果不一定准确。

根据训练数据计算出先验概率P(X, Y)=P(Y)P(X|Y),然后根据先验概率计算待分类的数据对各种分类结果的条件概率,取条件概率最大的那个作为分类结果。先验概率的计算有两种方法,极大似然估计和贝叶斯估计,其中极大似然估计可能导致估算的概率为0,这会影响条件概率的计算结果,使得在训练数据不均衡的情况下某些事件永远没有发生的机会(发生概率为0);而贝叶斯估计加入了修正项,使得概率永远大于0,可以使得任何事件总有一个发生的可能。

极大似然估计法

上面是使用了极大似然估计计算朴素贝叶斯分类器的过程,还可以使用贝叶斯估计计算朴素贝叶斯分类器(注:贝叶斯估计和朴素贝叶斯法是不同的概念),这里略去。

逻辑回归(logistic regression)

逻辑回归是一种经典的分类方法,既可以用于二分类,也可以用于多分类。用于多分类的逻辑回归模型如下:


多项逻辑回归

二项逻辑回归模型简化为:


二项逻辑回归

使用二项逻辑回归进行预测时,对输入的x值分别计算P(Y=1)和P(Y=0)两个概率,选取概率值大的类别作为x的分类。

逻辑回归模型的参数,可以通过梯度下降法或拟牛顿法进行估算。

支持向量机(Support Vector Machines)

支持向量机(SVM)和感知机原理是类似的,都是通过一个超平面来划分正负实例,区别在于,满足感知机模型要求的超平面有无数多个,而其中将正负实例间隔最大化的超平面才满足SVM模型的要求,而这个超平面是唯一的。同时,SVM既可以用来处理实例线性可分的情形,也能处理近似线性可分(存在被超平面错误分类的误差实例),甚至非线性可分的情形。所以,可以认为SVM是对感知机模型的扩展和泛化。


硬间隔支持向量

间隔最大化的含义是,所选择的超平面不仅能将正负实例点分开,而且对最难区分的实例点,也就是距离超平面最近的点,也能以最大的确信度将它们分开。可以证明这个超平面是唯一的。这种模型称为硬间隔支持向量机(又叫线性可分支持向量机)。


硬间隔支持向量机最优化问题

实际上几乎不可能满足所有实例点都线性可分,噪音点总是存在的。实例整体线性可分,但是存在噪音点的情况,称为近似线性可分。


软间隔支持向量

这时需要在优化函数中添加误差项。这种模型称为软间隔支持向量机(又叫线性支持向量机),具有更广泛的适用性:


软间隔支持向量机最优化问题

对于非线性可分的实例,能否用支持向量机模型进行分类,答案是肯定的。可以利用核函数将非线性可分的实例转换成某个高维空间的线性可分实例,然后再用支持向量机模型进行分类即可。


非线性可分转换成线性可分

常用的核函数有多项式核函数,高斯核函数和字符串核函数。
SMO算法是学习支持向量机模型参数的一种快速算法。

隐马尔科夫模型

先给一个隐马尔科夫模型的例子,以便有个直观的概念:


image.png

由(A, B, π)这三个参数构成的这个模型,就是隐马尔科夫模型,这三个参数成为隐马尔科夫模型的三要素。
其中π代表各初始状态的概率,A代表状态转移概率,也就是从一个编号的盒子跳转到另一个编号的盒子的概率,B表示观测概率,也就是选定某个盒子后,该盒子里红球和白球的概率。这里盒子选择的状态转移序列是隐藏的,不可观测的,而只能观测到观测序列,这就是隐马尔科夫模型中的“隐”的由来。
隐马尔科夫模型有三个基本问题:

  1. 概率计算:模型已知,如何根据模型计算某个观测序列的概率
  2. 模型学习:模型未知,如何根据观测序列来计算(A, B, π)三个参数
  3. 预测(decoding问题):模型已知,如何根据观测序列反推条件概率最大的状态转移序列

问题一概率的计算通过递推公式(前向算法)进行,看下面的例子:


前向算法计算HMM的概率

问题二模型的学习分两种情况,一种是既有观测序列,又有状态序列,这种情况通过监督学习方法极大似然估计实现,简单;另一种只有观测序列,没有状态序列,这种情况通过非监督学习方法Baum-Welch算法实现,复杂。

问题三预测方法分为两种,一种是简单不准确的近似算法,另一种是复杂准确的维特比算法,该方法利用了动态规划的原理来寻找观测序列对应的概率最大化的状态序列,下面是一个维特比算法的例子。

维特比算法计算最优路径
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容