论文个人笔记翻译 转载参考请注明出处
摘要
基于内核的技术已经成为描述在真实流程中生成的数据样本的局部和全局关系的常用方法。在本研究中,我们专注于一种基于多尺度核的自适应拉普拉斯金字塔(ALP)技术。该方法可用于函数逼近和插值。ALP是标准Laplacian金字塔模型的扩展,该模型包含了改进的“一留一出”交叉验证程序,使该方法在参数选择方面更加稳定和自动化,而不需要额外的成本。本文提出了一种新的算法,扩展了ALP算法来拟合非均匀分布的数据集。特别地,最优停止准则将是与局部噪声水平和采样率有关的点依赖。在真实数据集上的实验结果显示了多尺度技术在建模和学习复杂、高维数据方面的优势。
关键词
拉普拉斯算子的金字塔、内核的方法、过度拟合、多尺度插值、非均匀数据自适应停止
介绍
如今,当收集大量数据时,一个重要的挑战是如何正确逼近用于建模和分析数据的函数。这些近似对于函数的值在整个数据集都不知道的情况特别有用。当函数过于昂贵而无法计算,或者函数仅以有限展开式表示时,它们也很有用。存在几个建模和分析数据的方法,但在处理函数,取决于多个变量,或定义在许多分散的数据点,最好的办法解决一般问题的近似和插值是使用一个基于径向基函数(rbf)的方法(Buhmann, 2003)。
RBF定义为单变量连续函数Φ。给定一个训练样本在这里,ωζ表示与展开点相关的权值ζ,||·||是一个足够的范数。
范数最常见的选择是欧几里得距离,最常见的rbf之一是高斯,其中Φ定义为