论文信息
论文题目
Learning a Kernel Function for Classification with Small Training Samples
作者
Tomer Hertz, Aharon Bar Hillel, Daphna Weinshall
原论文地址
ICML 2006
一、主要贡献
1、小样本分类,引入核函数能有效提高SVM分类器的性能。
2、基于DistBoost提出了KernelBoost。
KernelBoost Over DistBoost
(1)DistBoost 的距离函数非核,不用以分类。
(2)KernelBoost可对非凸类的分布进行高斯模型建模。
二、算法流程
1、KernelBoost算法
训练的数据集为
损失函数
无标签数据作为训练时数据密度的先验知识。文中取=10。
2、 KernelBoost弱学习器
限制期望最大化(cEM,constrained Expectation Maximization)根据无标签数据与等效约束(equivalence constraints)来构架符合等效约束的高斯混合模型(GMM, Gaussian Mixture Model)。
寻找合适的高斯混合模型的参数和限制使得无标签数据X的data likelihood最高,限制用函数表示,当无标签数据i,j在高斯混合模型中为同一类分布L,则=1,否则为0。
3、GMM模型生成核函数
核函数公式:
表示数据在GMM模型的分布类别为l,故其核函数为在GMM模型中与为同一类别的概率,取值范围为0~1,采用作为最终的学习核(这种方法可以确保同类是为1,不同类是为-1)。
4、单学习核函数
boosting方法是学习若干个弱学习器,在若干个学习器中,可以通过如下的评价指标来得到最好的一个学习器。
5、Label Dissolving Mechanism
使用cEM算法时,需符合同一类的数据处于同一高斯分布的条件。如Figure1所示的情况,即非凸类由非高斯分布产生,则不符合cEM的要求,故提出Label Dissolving Mechanism。
主要实现思想为将每一类分割成多个子集,每个子集都建立对应的高斯分布,以多个子集的高斯分布来表示非凸类数据的分布。算法如下
采用该方法后的结果
6、The Kernel’s Implicit Representation
可表示x在第t次迭代得到的混合高斯模型中归类为k类的概率。