吃瓜3.4 LDA 2023/12/18

线性判别分析 Linear Discriminant Analysis

1 PCA(主成分分析)与LDA

PCA与LDA都是一种降维的方法。
PCA仅关注方差最大的方向,
LDA关注对类别有区分能力的信息。

例:分类下图中的两种数据。如果使用PCA,则会寻找数据投影到哪个方向上方差最大,最后都会投影到下方的坐标轴上。两种数据的投影几乎完全重叠,无法区分。因此需要寻找投影后区分效果最好的方向。
注:PCA笔记尚未完成。


PCAvsLDA

LDA:

  • Fisher提出
  • 引入样本类别信息
  • 目标:最大化类间方差和类内方差之比

2 算法

给定数据集D= \left \{ (\boldsymbol{x_i}, y_i ) \right \} _{i=1}^m, y_i \in \left \{ 0,1 \right \}
X_i, \mu_i, \varSigma_i分别表示i \in \left \{ 0,1 \right \}类示例的集合、均值向量、协方差矩阵。若将数据投影到直线w上,则两类样本中心在直线上的投影分别为w^T\mu_0w^T\mu_1,两类样本的协方差分别为w^T\varSigma_0ww^T\varSigma_1w
由于是把二维上的线投影到一维,所以以上四个值均为实数。

要选投影后区分效果最好的方向,也就是要在投影后,让同类的协方差尽可能小(同类的要更聚集),异类的均值之间的距离尽可能大(不同类的要尽量分开)。让尽可能大的做分子,另一个做分母,可得需要最大化的目标:
\begin{align*} J &= \frac {||w^T\mu_0-w^T\mu_1||_2^2}{w^T\varSigma_0w+w^T\varSigma_1w} \\ &= \frac {w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\varSigma_0+\varSigma_1)w} \end{align*}

  • ||w^T\mu_0-w^T\mu_1||_2^2中右下角的2指的是2范数。关于范数:
  1. https://zh-v2.d2l.ai/chapter_preliminaries/linear-algebra.html#id3中2.3.10
  2. https://ryannng.github.io/2016/12/23/%E5%90%91%E9%87%8F%E8%8C%83%E6%95%B0%E4%B8%8E%E7%9F%A9%E9%98%B5%E8%8C%83%E6%95%B0/

再定义类内散度矩阵
S_w = \varSigma_0 + \varSigma_1类间散度矩阵S_b = (\mu_0-\mu_1)(\mu_0-\mu_1)^T,则J = \frac{w^TS_bw}{w^TS_ww}称作“广义瑞利商”

由于上下都有w^Tw,故w的长度实际上并不影响式子的值,我们只需要考虑方向即可。又因为S_w, S_b都是定值,则可以令分母为1,转化式子。

转化

使用拉格朗日乘子法,可求出使J最大的w的方向。

得到w = S_w^{-1}(\mu_0 - \mu_1)
实际中为了数值稳定性,常对S_w进行奇异值分解来计算其逆。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容