读芯术 - [周末AI课堂 - 15讲]非参模型初步(理论篇)- 学习笔记

学习资料来源

读芯术【周末AI课堂】非参模型初步(理论篇)| 机器学习你会遇到的“坑”

[感谢读芯君,感谢作者:唐僧不用海飞丝]

是在这里看到的哟,感谢感谢


1. 机器学习公式

机器学习 = 表示 + 评估 + 优化

表示:将样本空间映射到一个合适的特征空间,一般的,我们更青睐于这样的表示是低维度的,是更加稀疏交互的,同时也希望是相互独立的。
评估:模型在数据上表现的量化形式,我们选取合适的函数来表示什么样子的模型是好的,性能度量就是我们的评估。
优化:对评估函数进行求解,找出最合适的解,来确定最终的模型。

2. 带参数模型梳理

  • 简单线性回归:数学形式最简单的模型,数学形式为 = wx+b ,也可理解为似然函数选取高斯分布的MLE(最大然)
  • 多项式回归:简单线性回归的推广,本质意义是利用泰勒展开逼近未知函数
  • 岭回归:添加L2(apow(||w||2))正则化的线性回归,也可理解为,对参数分布添加均值为零高斯先验的MAP(最大后验概率)
  • LASSO:添加L1(a||w||1)正则化的线性回归,也可理解为,对参数分布添加均值为零拉普拉斯先验的MAP
  • 贝叶斯岭回归:利用贝叶斯定理的增量学习,选取高斯分布这样一种自共轭先验,可以简单的计算后验概率
  • Logistic回归:利用sigmoid函数的性质,将线性回归的方法拓展为分类算法,同时因为对概率意义的直接赋予,它仍然是一个概率对特征的线性算法。
  • 支持向量机:采用最大硬间隔思路在特征空间中确定决策边界,在此模型中被大量使用的kernel function可以将线性的边界拓展为非线性边界
  • 朴素贝叶斯:利用贝叶斯定理对类别的后验概率进行推断,若属性值连续,则需要假设特征的分布,若属性值离散,则是基于大数定理的频率计数

以上模型多是带参数的模型,即通过各种方法求得参数,或者通过优化方法估计出参数,从而决定模型。

3. 非参数模型(non-parametric model)

模型分为参数和非参数模型的背后,其实隐含着我们要不要对数据的分布做出假设,而我们所说的参数,其实就对应着分布的参数。
在非参数模型中,我们不需要对样本的分布做出任何假设,直接利用样本来进行分析。

3.1 K近邻(k-neighbors)

机器学习中最简单的方法。通过估计样本之间的距离,来对数据进行分类或回归。

对于分类问题:距离最近的K个样本里,通过少数服从多数原则或者按照距离大小分配权重的方法,对样本进行标记。

对于回归问题:选取最近的k个样本的平均值作为我们的预测值,同样也可以根据距离的远近来赋予不同的权重。

Tip:我们可以选择不同的K,不同的距离度量来作为我们的超参数,通过调节他们使得性能更好。

3.2 决策树(decision tree)

数学准备:

  • 自信息(self-information):I(x)=-logP(x) ,是从概率角度出发对信息量的刻画。对概率取对数,是为了满足联合概率的信息的可加性,即两个事件均发生的概率要相乘,但反映在信息量上要相加;再取负值,是因为,小概率的事件信息量更大,大概率事件的信息量更小。
  • 信息熵(Information Entropy):I(x)P(x)求积分 ,是自信息的期望值,即,来自于一个概率分布的自信息的加权平均。

决策树的基本思想:挑选特征用于生成分支,使得属于同一类的样本都尽可能的往同一个方向走,而不希望它们分开,而不同类的样本要尽可能的分开,不要在一个分支节点上。

(1)信息增益(information gain)的划分

每个取值下的信息熵进行加权平均,来获得这一属性总的信息熵,用总体的信息熵减去属性的信息熵,就会获得的信息增益。



其中:

我们对每个特征都进行这样的计算,然后挑出信息增益最大的属性。

问题是,取值多的特征,就会造成信息增益较大的情形。取值数过多的特征划分的非常精确,但这样的精确会削弱模型的泛化能力。

(2)增益率(gain ratio)划分

求出某一特征下的取值个数(而非属性值本身)的信息熵,对每一个属性进行这样的计算,并且用信息增益除以它,就得到了信息增益率。


image

如果属性的取值只有一个,属性个数的信息熵会变为零,我们需要引入一些修正项,强行使得分母不为零。

但如果我们只利用信息增益率来判断,可能又会导致节点的划分偏好于取值少的特征,我们可以根据实际情况对分母加上不同的权重来抵消这种偏好

(3)启发式方法

用所有属性的信息增益来进行初步筛选,然后对得分较高的几个属性进行信息增益率的筛选。

(4)未完待续

  • 非离散属性处理(连续属性离散化技术)
  • 缺失值处理
  • 过拟合(剪枝技术)

4. K近邻和决策树对比

• K近邻算法涉及到样本距离的计算,除了我们常见的欧几里得距离,我们可以根据任务的不同,采用不同的距离度量,比如黎曼距离,曼哈顿距离,海明距离。我们使用的距离也可以不进行事先先指定,而是通过度量学习的方法去寻找一个距离,但这样的距离还必须内嵌入相应的学习器中。

• K近邻算法对异常值敏感,对样本的密度要求高,也并没有什么解释性。决策树恰好相反,它对异常值非常鲁棒,并不要求一定做预处理,而且具有很强的解释性,它还可以根据信息增益和信息增益率的准则对特征的重要程度进行排序,构造一颗泛化能力良好的决策树可以帮助我们清楚问题中的关键因素。

• K近邻虽然简单无脑,但可以证明,它的泛化误差不会超过贝叶斯最优分类器的两倍,而决策树在面对特征之间复杂的线性、非线性组合的时候往往无能为力,甚至当分类的问题中类别过多的时候,准确性也会迅速下降。


其他阅读资料

机器学习中正则化项L1和L2的直观理解
MLE (最大似然) 与 LS (最小二乘) 与 MAP (最大后验)
机器学习, 周志华

本来都写好了,中间断网一次,笔记丢了大半。重新再写时,就没有自己再敲一遍公式了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,500评论 4 65
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 39,973评论 12 145
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,517评论 0 6
  • 在小编这头有一种特别的串,基本每逢周末必须与朋友一起去吃,小编吃肉朋友喝酒,大家说说那些家乡的话,家乡的事,想想家...
    美食虾米酱阅读 334评论 0 0
  • 第一次在樊登读书会里面听到这本书时,就喜欢上了这本书,感觉它和我们所做的武术培训特别贴切,这本书里面写到8年学艺,...
    剁椒娃娃菜阅读 1,998评论 0 1