2.8 LDA的算法原理和算法步骤
输入:数据集 ,其中样本 是维向量,,降维后的目标维度 。
定义以下符号:
- 为第 类样本个数;
- 为第 类样本的集合;
- 为第 类样本的均值向量;
- 为第 类样本的协方差矩阵。
其中
假设投影直线是向量 ,对任意样本 ,它在直线 上的投影为 ,两个类别的中心点 , 在直线 的投影分别为 、。
LDA的目标
- 类间距离尽量大。两类别的数据中心间的距离 尽量大
- 类内距离尽量小。同类样本投影点的协方差、 尽量小 。
定义类内散度矩阵
类间散度矩阵
据上分析,优化目标为
根据广义瑞利商的性质,矩阵 的最大特征值为 的最大值,矩阵 的最大特征值对应的特征向量即为 。
LDA算法降维流程如下:
输入:数据集 ,其中样本 是n维向量,,降维后的目标维度 。
输出:降维后的数据集 。
步骤:
- 计算类内散度矩阵 。
- 计算类间散度矩阵 。
- 计算矩阵 。
- 计算矩阵 的最大的个特征值。
- 计算个特征值对应的个特征向量,记投影矩阵为。
- 转化样本集的每个样本,得到新样本 。
- 输出新样本集
LDA是个二分类的降维方法。