p232 - p246
今天这篇在公司写的
最近熬夜太多
感觉有些透支
今天要早睡
第十章 降维与度量学习
10.4 核化线性降维
线性方法有时具有局限性
见p232的例子
非线性降维的一种常用方法,是基于核技巧对线性降维方法进行“核化”。
核主成分分析(KPCA)
降温方法详情见p233。
10.5 流形学习
“流形”是在局部与欧式空间同(月丕)的空间。
换言之,它在局部具有欧式空间的性质,能用欧氏距离来进行距离计算。
10.5.1 等度量映射(Isomap)
当低维流形被嵌入高维空间之后,直接在高维空间计算直线距离是不对的。
见p234图10.7
在流形上两点间的距离应当是测地线的距离
如何计算测地线距离呢?
利用局部同丕性质,可以对每个点基于欧氏距离找到近邻点(找近邻点的方法2种见下),建立一个近邻连接图。
这样,计算两点之间测地线距离的问题,转化为了计算近邻连接图上两点之间的最短路径。
有了距离矩阵,就可用10.2的MDS算法进行输出,输出样本在低维空间的坐标。
需要注意的是,Isomap仅得到了训练样本降维后的坐标,新样本又该怎么映射呢?
常用方案:利用训练样本高维-低维构造回归器,显然这是个权宜之计。
如何找近邻点?k近邻图。ε近邻图。
10.5.2 局部线性嵌入(LLE)
LLE试图保持邻域内样本之间的线性关系。
即在高维空间内一个点能被周围的几个点线性组合出来,降了维也得是这样。
算法见图10.10
10.6 度量学习
对高维数据进行降维的主要目标是希望找到一个低维空间,在这个空间学习性能更好。
每个空间都定义了一种距离度量。
那么为什么不直接学出一种距离度量呢?
p238:度量学习就是为了学出一个矩阵M