笔记:http://blog.csdn.net/Andrewseu/article/details/48493807
风险:模型与与问题真实解之间的误差的积累。
经验风险:我们选择了一个假设之后(更直观点说,我们得到了一个分类器以后),真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。
泛化误差界:就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知文本上分类的结果。
泛化误差界的公式为:R(w)≤Remp(w)+Ф(n/h)
</br>
Hoeffding不等式:
Hoeffding刻画的是某个事件的真实概率及其m个独立重复试验中观察到的频率之间的差异,更准确的说,它是应用于m个不同的Bernoulli试验。
该不等式给出了一个概率边界,它说明任意选择的假设训练错误率不能代表真实情况。