LDA
PCA,ICA,对于样本数据来言,可以是没有类别标签y的。
线性判别分析(二类情况)y=1或y=0,给定特征为d维的N个样例,我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够清晰地反应在低维数据上,也就是这一维就能决定每个样例的类别。
假设x是2维的,我们就要找一条直线(方向为w)来做投影,寻找最能使样本点分离的直线。
右图比较好,可以很好地将不同类别的样本点分离。
从定量的角度来寻找最佳的w。
1.寻找每类样本的均值(中心点:
由x到w投影后的样本点均值为:
可知,投影后的均值即样本中心点的投影。
2.最佳的直线的确定:投影后的两类样本中心点尽量分离。
。
J(w)越大越好,同时还要考虑样本点之间的方差,方差越大,样本点越难以分离。
使用另外一个度量值,称作散列值,对投影后的类求散列值,如下:
可以看出,散列值的几何意义是样本点的密集程度,值越大,越分散,反之,越集中。
所以,最终的度量公式是:
我们只需要寻找使J(w)最大的w即可。
前面是针对只有两个类的情况,假设类别变成多个了,一维可能已经不能满足要求,假设有C个类别,需要k维向量(基向量)来做投影。