统计学习方法

泛化误差上界

  • 机器学习最终目的不是最小的训练误差,而需要看泛化误差;
  • 泛化误差: E_{out}-E_{in} 即从训练集泛化至训练集外的过程中的误差,或者直接用E_{out}来表示泛化误差也行;

Hoeffding 不等式

由大数定理得到:
P[|E_{out}-E_{in}|> \epsilon<=2Me^{-2\epsilon^2N}],\forall \epsilon>0
可以看出,当N足够大时,泛化误差和训练误差会非常接近;但这是单一假设函数的情况,实际上,机器学习的假设函数是从很大的集合中选出来的:

M表示假设函数集合的大小

一般来说,机器学习中的M的值很大。因此,右边不等式值也比很大;

有效假设函数与VC维

当多个假设函数在数据集上得到的分类结果相同时 (比如, 对三个数据点, 分类结果都是”正正负”), 有效数量为 1.
就二分类问题而言:假设函数”有效”数量的上限是 2^N, 达到这个上限时, 意味着假设函数集合 H 能够穷尽 N 个数据点分类的所有可能性 (这时可以说 H shatter 了数据点).

  • VC 维 (VC dimension), 即: 一个假设函数集合 H 最多能 shatter 多少数据点.假设函数集合可以理解为同一函数模型的不同参数组合组成的集合
  • 以二维平面的感知机为例: 对三个不共线的点, 它总是能给出所有的分类可能, 但对四个点就办不到了. 因此二维感知机的 VC 维是 3. 更一般地, d 维感知机的 VC 维等于 d+1. VC 维可以看做对模型有效参数数量或自由度的一种度量.
  • 可以看出影响泛化误差的两个因素: 数据量和模型复杂度. 数据量不必多说, 自然多多益善. 模型复杂度的影响更微妙一些: 当复杂度增加时, 一般 E_{in} 会减小, 而泛化误差 Ω 项会增大; 为了得到最优的E_{out}, 需要两者之间达到一种平衡.

https://sunoonlee.github.io/2017/07/generalization-error-bound/

生成模型与判别模型

  • 生成模型:学习x,y的联合概率分布p(x,y),从而来得到p(y|x).,收敛速度快,存在隐变量时仍能使用;
  • 判别模型:直接学习决策函数f(x)或者p(y|x),可以对数据进行抽象和使用特征;

期望风险与经验风险:

  • 期望风险:模型关于联合分布的期望损失;
    R(f) = E[L(Y,f(x))] = \int_{XY} L(y,f(x))p(x,y)dxdy
  • 经验风险:模型关于训练样本集的平均损失;
    R(f) = 1/N\sum L(y_i,f(x_i))

感知机(线性二分类模型)

  • 输出为{+1,-1}二值,f(x) = sign(wx+b)
  • 损失函数的一个自然选择是误分类点的总数,但是,这样的损失函数不是参数w,b的连续可导函数,不易优化,在这里采用误分类点到超平面S的总距离。
    -\frac{1}{||w||}|w*x_0+b|
  • 感知机的经验风险函数:
    L(w,b) = -\sum_{x_i\in{M}}y_i(w*x_i+b)
  • 上式很容易求导,采用随机梯度下降法优化;

感知机的对偶形式

优点:输入特征比较高时,能够利用Gram矩阵可以简化运算。
在更新感知机的参数时有(只有分错时,即y_i*(w x_i+b)<0时才跟新):
w \longleftarrow w + \eta y_ix_i
b \longleftarrow b + \eta y_i
可见,w和b可以写成所有的x_iy_i加上不同的权重组合的形式;
w = \sum_{i = 1}^{N}\eta n_ix_iy_i
b = \sum_{i = 1}^{N}\eta n_iy_i
这里的n_i实际上是i实例由于分错更新的次数,n_i越大,说明其离超平面越近,越难以分对;

  • 更新条件:
    y_i(\sum_{j}^{N}\eta n_jy_jx_jx_i+b)<=0
    G = [x_ix_j]_{nn} Gram矩阵可以提前计算出来,原来的w*x_i的形式如果x_i的维度高,则该内积计算耗时;
    更新,实际上只更新n_i=n_i+1就行。

从二分类问题来看为什么要使用sigmoid函数

实际上,可以将二分类模型未经过sigmoid函数的输出理解为一个事件发生的几率:\frac{p}{1-p},,为了让其更平滑,取个对数有:wx+b = f(p) = log(\frac{p}{1-p})即模型的输出wx+b是关于该事件的几率,即概率P的函数f(p),更确切的说,是长成log(\frac{p}{1-p})这个样子的函数;取反函数,可得e^{(wx+b)} = \frac{p}{1-p},可得p = \frac{1}{1+e^{-(wx+b)}}

SVM

SVM的解释可以有两个角度:

  • 可以从带约束的最大化间隔理解,以拉格朗日算法来求解;
  • 从合页损失函数来理解,直接使用梯度下降求解;

Hinge损失函数

注意横坐标的单位,理解其对谁是凸凹性

解释教程[svm 比较好的]https://wizardforcel.gitbooks.io/dm-algo-top10/content/svm-1.html

关于模型的误差来源

简单的模型B大,V小,复杂的模型b小,V大;

  • Bias和Variance


    image.png
image.png

ID3,C4.5,CART决策树,

https://blog.csdn.net/u010089444/article/details/53241218
CART进行回归
https://www.ibm.com/developerworks/cn/analytics/library/machine-learning-hands-on5-cart-tree/index.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容