1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间
版本空间是与训练集一致的假设集合
由于正例只有1个,那么正例的假设有很多特征是不确定的
版本空间
=(色泽=青绿;根蒂=蜷缩;敲声=浊响)
+(色泽=*;根蒂=蜷缩;敲声=浊响)+(色泽=青绿;根蒂=*;敲声=浊响)+(色泽=青绿;根蒂=蜷缩;敲声=*)
+(色泽=青绿;根蒂=*;敲声=*)+(色泽=*;根蒂=蜷缩;敲声=*)+(色泽=*;根蒂=*;敲声=蜷缩)
+(色泽=*;根蒂=*;敲声=*)
1.2 若使用最多包含k个合取式的析合范式来表达1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。
色泽={青绿,乌黑},2个
根蒂={蜷缩,硬挺,稍蜷},3个
敲声={浊响,清脆,沉闷},3个
不带任何*:2*3*3 = 18
带一个*:1*3*3 + 2*1*3 + 2*3*1= 21
带两个*:2 + 3 + 3 = 8
全是*: 1
总计: 18 + 21 + 8 + 1 + 1个空值 = 49
1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
机器学习算法在学习过程中对某种类型假设的偏好,成为“归纳偏好”。
数据包含噪声,意味着模型需要更强的泛化能力,此时模型需要更强的复杂度的惩罚项。