用于非均匀数据建模的自适应多尺度拉普拉斯金字塔

论文个人笔记翻译转载参考请注明出处

摘要

基于内核的技术已经成为描述在真实流程中生成的数据样本的局部和全局关系的常用方法。在本研究中，我们专注于一种基于多尺度核的自适应拉普拉斯金字塔(ALP)技术。该方法可用于函数逼近和插值。ALP是标准Laplacian金字塔模型的扩展，该模型包含了改进的“一留一出”交叉验证程序，使该方法在参数选择方面更加稳定和自动化，而不需要额外的成本。本文提出了一种新的算法，扩展了ALP算法来拟合非均匀分布的数据集。特别地，最优停止准则将是与局部噪声水平和采样率有关的点依赖。在真实数据集上的实验结果显示了多尺度技术在建模和学习复杂、高维数据方面的优势。

关键词

拉普拉斯算子的金字塔、内核的方法、过度拟合、多尺度插值、非均匀数据自适应停止

介绍

如今，当收集大量数据时，一个重要的挑战是如何正确逼近用于建模和分析数据的函数。这些近似对于函数的值在整个数据集都不知道的情况特别有用。当函数过于昂贵而无法计算，或者函数仅以有限展开式表示时，它们也很有用。存在几个建模和分析数据的方法,但在处理函数,取决于多个变量,或定义在许多分散的数据点,最好的办法解决一般问题的近似和插值是使用一个基于径向基函数(rbf)的方法(Buhmann, 2003)。

RBF定义为单变量连续函数Φ。给定一个训练样本

一个RBFs的线性组合在一个新的数据点x上近似一个实函数f，如下所示

在这里，ωζ表示与展开点相关的权值ζ，||·||是一个足够的范数。
范数最常见的选择是欧几里得距离，最常见的rbf之一是高斯，其中Φ定义为

有一个关于RBF方法和扩展的综合文献(见Buhmann, 2003;王、刘，2002年;《比特森与光明》，1997年;卡罗维扎和拉蓬，2001)。在这项工作中，我们将关注Laplacian Pyramids (LP)，这是一种多尺度模型，使用宽度递减的高斯核，以迭代的方式生成一个函数的平滑版本(Burt和Adelson, 1983)。这是一种从一般样本集学习函数的简单方法。LP逼近算法以小波的思想工作，在重构由粗到细的过程中，稳定性好，便于在流形学习环境中工作。同样值得注意的是，这种方法可以看作是Nadaraya Watson估计器的迭代版本(Nadaraya, 1964;华生,1964)。这个经典的估计量通常被定义为