20210308 未完更新中
前言
为了克服“维数灾难”,人们将高维数据投影到低维空间上来,并保持必要的特征,这样,一方面数据点变得比较密集一些,另一方面,可以在低维空间上进行研究。
Fisher判别分析的基本思想:选取适当的投影方向,将样本数据进行投影,使得投影后各样本点尽可能分离开来,即:使得投影后各样本类内离差平方和尽可能小,而使各样本类间的离差平方和尽可能大。
1. 两个总体的Fisher判别函数
①设已知有两个类和,在已知的数据中,类有个个体,类有个个体,即:
注意:个体为列向量,列向量的元素为不同特征的具体数值。如,小明身高180,体重70,可以设小明这个个体为
②计算两个类的均值:
③计算两个类的类内离差平方和矩阵:
总的离差阵为
类间离差阵为
④设需要找的投影向量为,将所有的个体投影到方向上,则可以得到投影后的结果为,即:
第一类个体在方向上的投影结果为:;
第二类个体在方向上的投影结果为:;
⑤计算投影后两类的均值与类内离差平方和矩阵
总离差:
类间方差:
⑥要使得在新的(投影后)数据空间中,数据的分离性能最好,即要使得两个类的类内距离最小,类间距离最大,建立目标函数,希望找到合适的投影向量,使得目标函数达到最大。
采用Lagrange乘数法求解。令分母等于非零常数,即:
定义lagrange函数为
对求偏导得
又矩阵与是对称矩阵,因此,上式可化简为
令,有
记上式得解为,则
继续化简有:
两边同时左乘得:
因此,即为矩阵的最大特征值对应的特征向量
又
故
又为一标量,因此
记
则
而标量并不会影响的投影方向。
综上所述,的解为
2. 举例说明——蠓虫分类问题
2.1 问题描述
3. Fisher判别法的优缺点
- 在一定程度上能够克服数据高维距离度量无效性带来的困扰,但维度越高,带来的后续计算越困难;
- 通过投影一方面使得数据更加集中,另一方面,维度的降低更容易进行判别;
- 矩阵求逆及特征向量计算使得计算量加大;
- 对于多个类的分类标准,需要两两抽取分类准则。