20170928随手

机器学习导论chap 1

图片发自简书App

问题空间A

样本空间S(training_set,testing_set,valid_set)=attributes+label

样本数量N

使用training_set中的数据构造分类器(函数),再使用生成的分类器对testing_set中的数据进行分类,将分类结果与label比较,对分类器效果进行评价。

关于cross-validation,可以分为三种:

#1 simple cross-validation:一般将样本数据分为70%:30%。多的作为training_set,少的作为valid_set。(这里的valid_set我认为就是testing_set)

#2 k-fold cross-validation:将样本分为k等份,每次拿一份出来作valid_set,其余作为training_set,计算valid_set中预测结果和实际结果间的PRESS(predicted error sum of squares)(一般情况做10次10折交叉验证)

#3 留一(LOOCV):仅留下样本中的一条数据作为valid_set(类似于k=N)(可用于kernel regression,Tikhonov regularization)

在构造分类器时应该尽量满足所有training_set中的样本条件(95%以上)。实际上100%符合training_set的分类器(分类器空间是相当大的,如何在其中进行选择非常重要)有很多,但一般会有最优化的控制条件(模型复杂度等),并且由training_set构造的classifier并不一定能很好的分类testing_set或者valid_set(因为它们只总结了training_set中sample的特点)。

关于classifier的效果评价,可以使用准确率Accuracy=testing_set样本中判断正确的数量/testing_set样本总数

除此之外,显示数据还存在许多问题:不相关属性,冗余属性,缺失属性,噪声(系统噪声,人为噪声),?。

真正目的是要将我们得到的classifier进行应用,对A中的其他数据进行判断。(input为新数据的attributes,output为新数据的label)并且有时候会需要解释所得到的classifier中隐含的知识。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容