20170928随手

机器学习导论chap 1

图片发自简书App

问题空间A

样本空间S（training_set，testing_set，valid_set）=attributes+label

样本数量N

使用training_set中的数据构造分类器（函数），再使用生成的分类器对testing_set中的数据进行分类，将分类结果与label比较，对分类器效果进行评价。

关于cross-validation，可以分为三种：

#1 simple cross-validation：一般将样本数据分为70%：30%。多的作为training_set，少的作为valid_set。（这里的valid_set我认为就是testing_set）

#2 k-fold cross-validation：将样本分为k等份，每次拿一份出来作valid_set，其余作为training_set，计算valid_set中预测结果和实际结果间的PRESS（predicted error sum of squares）（一般情况做10次10折交叉验证）

#3 留一（LOOCV）：仅留下样本中的一条数据作为valid_set（类似于k=N）（可用于kernel regression，Tikhonov regularization）

在构造分类器时应该尽量满足所有training_set中的样本条件（95%以上）。实际上100%符合training_set的分类器（分类器空间是相当大的，如何在其中进行选择非常重要）有很多，但一般会有最优化的控制条件（模型复杂度等），并且由training_set构造的classifier并不一定能很好的分类testing_set或者valid_set（因为它们只总结了training_set中sample的特点）。

关于classifier的效果评价，可以使用准确率Accuracy=testing_set样本中判断正确的数量/testing_set样本总数

除此之外，显示数据还存在许多问题：不相关属性，冗余属性，缺失属性，噪声（系统噪声，人为噪声），？。

真正目的是要将我们得到的classifier进行应用，对A中的其他数据进行判断。（input为新数据的attributes，output为新数据的label）并且有时候会需要解释所得到的classifier中隐含的知识。

20170928随手

推荐阅读更多精彩内容