论文:半监督学习方法
关键词:半监督;有监督学习;半监督学习;无监督学习;SSL;无类标签样例;Semi-Supervised Learning; Supervised Learning;
主要知识点
-
半监督学习
结合少量有监督学习的样例(人工标注样例)+大量无标注样例,训练学习。
-
半监督学习依赖假设:
1、平滑假设Smoothness Assumption。 位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同.
2、聚类假设Cluster Assumption: 当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签. 这个假设的等价定义为低密度分离假设,即分类决策边界应该穿过稀疏数据区域,而避免将稠密数据区域的样例分到决策边界两侧.
3、流形假设Manifold Assumption。 将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签
实验表明:SSL不满足这些假设或模型假设不正确时,无类标签的样例不仅不能对学习性能起到改进作用,反而会恶化学习性能,导致SSL的性能下降。
-
半监督学习的分类
直推SSL:直推SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;(利用已标记的训练模型,然后使用训练后的模型预测未标记样例)
归纳SSL:归纳SSL处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签;(差异在于预测未知样例的标签)
-
基于差异的方法(分类方法)
协同训练方法
在有类标签样本上独立训练两个学习机模型,然后,分别预测独立预测无类标签,将预测出来中置信度高的样例及其标签以交叉的方式加入到有类标签中,扩充两个模型有类 标签的规模,再学习,反复迭代。
有代表性的研究:Tri-Training: Exploiting Unlabeled Data Using Three Classifiers 使用集成学习思路,三机器学习方法,投票的方式确定置信度。 还有改进这个方法的Improve Computer-Aided Diagnosis with Machine Learning Techniques Using Undiagnosed Samples生成式方法 这类方法假定样例和类标签是由某个或有一定结构关系的某组概率关分布生成。高斯模型、贝叶斯网络、Sigmoid 置信网络、CMM、隐马尔可夫模型、隐马尔可夫随机场模型。
判别方法:利用最大间隔算法同时训练有类标签和无类标签样本,学习决策边界,使得学习得到的分类超平面到最近的样例的举例间隔最大。主要放过LDA、广义判别分析法、半监督svm、KNN法等。
基于图的方法:
以下内容暂时略。