《机器学习》第一章习题

1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间

表1.1 西瓜数据集
样本空间各属性的取值:

色泽:青绿、乌黑、*
根蒂:蜷缩、稍蜷、*
敲声:浊响、沉闷、*

版本空间定义:学习过程是基于有限的训练集进行,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称为“版本空间”。

所以对于编号1和4的版本空间为:

1.色泽=青绿;根蒂=蜷缩;敲声=浊响
2.色泽=青绿;根蒂=蜷缩;敲声=*
3.色泽=青绿;根蒂=*;敲声=浊响
4.色泽=青绿;根蒂=*;敲声=*
5.色泽=*;根蒂=蜷缩;敲声=浊响
6.色泽=*;根蒂=蜷缩;敲声=*
7.色泽=*;根蒂=*;敲声=浊响

2.2与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。例如

好瓜←→((色泽=)∧(根蒂=蜷缩)∧(敲声=))∨((色泽=乌黑)∧(根蒂=*)∧(敲声=沉闷))会把“((色泽=青绿)∧(根蒂=蜷缩)∧(敲声=清脆))”以及“((色泽=乌黑)∧(根蒂=硬挺)∧(敲声=沉闷))”都分类为“好瓜”。

若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。

表1.1西瓜数据集中,色泽共有2个属性值,根蒂共有3个属性值,敲声共有3个属性值。为计算方便,下面的计算不考虑空集的情况(若考虑空集,则直接在每种假设的情况下再加上一种含空集的假设计算即可)

计算假设还需考虑每个属性的通配符(泛化)的情况,则用单个合取式来表示假设共有3×4×4=48种不同假设,分别为:

①不含泛化属性的假设:2×3×3=18种
②含一个属性泛化的假设:2×3+2×3+3×3=21种
③含两个属性泛化的假设:2+3+3=8种
④含三个属性泛化的假设:1种

用“析合范式”表示假设
(1)不考虑冗余情况:易知k的取值范围是[1,48],则假设总数就是从48个合取式中取出k个进行组合的加总,共有 \sum_{k=1}^{48}C_{48}^k=2^{48}种假设

(2)考虑冗余情况:试想当取k=18的时候恰好有一种组合方式是由18种不含泛化属性的假设组合成的,此时若取k=19,则必然引入至少1个含一个属性泛化的假设进行组合,就必然会产生冗余的情况。所以可知k的取值范围是[1,18],且k=18时组合产生的假设只有1种。

求最多包含k个合取式的析合范式的假设数量最容易想到的办法就是作差计算
计算思路:
①求出k在每种取值下的所有组合数
②求出k在每种取值下出现冗余的组合数
③将上面两数相减即可得出析合范式的假设数量

计算流程

详细代码见文末链接

结果:
k=1,48
k=2,931
k=3,10341
k=4,72647
k=5,346712
k=6,1181588
……

在利用python求解的过程中遇到比较大的问题就是随着k的增大,组合数量呈指数级增长,对计算机的运算能力和内存的要求都非常高。此种方法运算到k=5时用时33s,k=6时用时6min,k=8时出现内存溢出。
针对此现象,曾尝试加入相关的能提高运算速度和减少内存消耗的方法改进代码,但是由于技术有限,处理后的效果并不显著。

1.3若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择

归纳偏好通俗的理解就是在面对有不同分类结果的西瓜时,你更倾向于根据哪种“标准”来分类。在西瓜问题上,假设空间中可能不存在与所有训练样本都一致的假设,此时我更倾向于选择与训练集好瓜属性尽可能一致的标准,即精度越高越好的归纳偏好。

1.4本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l,则将(1.1)式改写成下面形式,试证明没有免费的午餐”定理仍成立

式(1.2)

以下分析均基于二分类任务
式1.2中,l ( h (x), f (x) )表示分类器对一个样例分类正确或者错误的“分数”,并且分类正确与错误的分数是固定的常数,即 l (0,0) = l (1,1) = a , l (0,1) = l (1,0) = b

可推出 l (0,0) + l (0,1) = l (1,1) + l (1, 0)= A ,A亦为固定常数

因此 l ( h (x) = f (x) ) + l ( h (x) ≠ f (x) )=A

基于以上推导,可求出某种分类器的总“得分”,过程如下


证明过程

可以看到,采用任一性能度量,算法的种类并不影响分类的总“得分”,即所有分类器的期望性能都是相同的,也就是说“没有免费的午餐”定理成立。

思考:上面的分析参考了网上的文章得出。在刚开始看见式(1.2)时,思维被固定在 l ( h (x),f (x) ) 的意义上了,然后自己就尝试抛掉式(1.2)列举一个具体的性能指标“查全率”来分析:
在二分类任务中,查准率R = \dfrac{TP}{TP+FN} = \dfrac{TP/N ×N}{TP+FN} = \dfrac{P(·)× N}{TP+FN}

变量解释

由上面公式可以看出,N是所有西瓜的总数(已知常数),TP+FN为真实情况中好瓜的数量(已知常数),现在只需证明P(·)与算法无关就能证明查准率R与采用何种算法无关。
对TP/N的理解:所有西瓜中有多少比例的好瓜被预测正确了
假设目标函数 f 服从均匀分布,则 f 的期望值与采用哪种算法无关,而 f 的期望值可以理解为在所有西瓜中好瓜被预测正确的概率有多大,也就是说 f 的期望就是TP/N或P(·),所以查准率R不受采用何种算法无关,“没有免费的午餐”定理成立。

“没有免费的午餐”定理的成立,需要遵从很严谨的假设。而事实上我们的假设通常没有办法实现,所以才造成了采用不同算法有不同的性能表现,这一点可以回看之前同学对各分类器的总结章节

1.5 试述机器学习能在互联网搜索的哪些环节起作用

①在网页中推送用户经常浏览的内容:客户日常搜索的关键字会被输入到系统中,经过神经网络等算法处理,在网页上及时更新用户感兴趣的推送内容
②智能语音搜素:如百度的语音搜索、siri的语音搜索,涉及到自然语言处理等内容
③互联网金融中客户的识别:如蚂蚁金服中会通过记录客户的金融记录和信用记录,对客户进行分类和给客户提出风险提示,当中涉及复杂的数据挖掘、神经网络等算法。

代码:我的码云

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容