第十一课 贝叶斯统计正则化

**就是要找更好的估计方法来减少过度拟合情况的发生。 **

大纲

  • 贝叶斯统计及正则化
  • 在线学习
  • 如何使用机器学习算法解决具体问题:诊断算法,销蚀分析,过早优化

笔记:http://www.cnblogs.com/XBWer/p/4336071.html

问题提出
如果选取的特征太少,欠拟合,对于训练集的拟合效果不好,对于测试集的预测效果应该也不会好;但是如果选取的特征太多,过拟合,对于训练集的拟合效果非常好,但是对于测试集的集合效果会变差。

欠拟合
合适的拟合
过拟合

解决过拟合的方法:

  • 减少特征的数量:
    -人工的选择保留哪些特征;
    -模型选择算法(上一讲)

  • 正则化
    -保留所有的特征,但是降低参数的量/值;
    -正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力量;

</br>

1. 贝叶斯统计及其正则化

</br>
贝叶斯公式(用来求后验概率的):


贝叶斯公式

对于参数theta的值

  • 频率学派认为这个值是固定的,我们可以通过极大似然估计去猜测这个值。MLE:最大似然估计
  • 贝叶斯学派认为这个值是一个随机变量。服从某个先验分布(实际应用中一般是自然分布作为先验分布),theta-p(theta)。后验概率可以用贝叶斯公式求出 MAP:maximum a posteriori 最大后验估计
后验概率

这个公式的计算量其实很大,所以实际应用中一般都用最大化后验概率来求出theta,然后带入假设模型htheta(x)中预测:

最大化后验概率

可以与极大似然估计求theta的公式比较一下:

极大似然估计

发现其实用贝叶斯法求theta只是在末尾加了一个p(theta).

用后验概率法得到的参数theta更不容易拟合,从而降低了过拟合的概率。

</br>
正则化
模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化项可以是模型参数向量的范数。

对于代价函数:

  • 最大似然估计法是用最小二乘的原理


  • 后验概率分布估计则是又引入了一个相当于惩罚项的正则项



    这样就可以使得高次项的贡献权重降低,减少过拟合的可能性。

线性回归的正则化

逻辑回归的正则化

</br>
</br>

2. 在线学习

</br>
什么是在线学习?

  • 之前学习的算法都属于批量学习(batch learning),一次性批量输入给学习算法,可以被形象的称为填鸭式学习。
  • 在线学习(online learning),按照顺序,循序的学习,不断的去修正模型,进行优化。
    在线学习首先有一个初始的分类器,当第一个样本到来时,对该样本进行预测,得到预测结果,然后利用该样本的信息对分类器进行更新(比如,考虑感知器算法的更新规则,见笔记 1-2);然后第二个样本到来时做同样的操作,以此类推。这样,我们就对 m 个样本都有一个预测值,只不过它们都是在训练的过程中得到的,对这些预测值进行统计,就得到了在线训练误差。这就是过程上在线学习与批处理的不同之处。

感知器
就是二类分类的线性分类模型,其输入为样本的特征向量,输出为样本的类别,取+1和-1二值,即通过某样本的特征,就可以准确判断该样本属于哪一类。顾名思义,感知机能够解决的问题首先要求特征空间是线性可分的,再者是二类分类,即将样本分为{+1, -1}两类。

对于感知器算法来说,若正负样本线性可分,那么在线学习算法也是收敛的。

3. 算法的改进方法

</br>
a. 算法诊断
如果现存算法的预测效果比较差,可以考虑的改进因素一般有:

怎么去选择最有效的改进算法是这部分的目的。

  • 方差/偏差分析
    高方差--过拟合,训练误差很小但泛化误差很大。
    需要更多的数据解决或者更少的特征解决。
    高方差的误差率

    </br>
    高偏差--模型本身不合适,比如特征数目过少,表现是训练误差和泛化误差都很大。
    需要更多的特征或者更复杂的模型来解决。
    高偏差的误差率

</br>

  • 是否收敛和目标函数是否正确的判断*
    可以画出迭代次数和目标函数的趋势图,但一般很难判断,因为每次优化的只是一小部分。
    (这部分还不太懂)

b. 销蚀分析
比如对于垃圾邮件分类器来说,先构建一个初始分类器,然后考虑一些比较高级的特征,比如邮件的语法风格、邮件的主机信息、邮件标题等。先将所有特征全加入到分类器中,然后逐个剔除,观察性能的下降幅度,将那些没有使性能下降或下降很少的特征删去。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容