LSDA

LDA

PCA,ICA,对于样本数据来言,可以是没有类别标签y的。

线性判别分析(二类情况)y=1或y=0,给定特征为d维的N个样例,我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够清晰地反应在低维数据上,也就是这一维就能决定每个样例的类别。
假设x是2维的,我们就要找一条直线(方向为w)来做投影,寻找最能使样本点分离的直线。

图一 使样本点分离的直线

 右图比较好,可以很好地将不同类别的样本点分离。
 从定量的角度来寻找最佳的w。



1.寻找每类样本的均值(中心点:


图二 每类样本的中心点

由x到w投影后的样本点均值为:
投影后的样本点均值

可知,投影后的均值即样本中心点的投影。
2.最佳的直线的确定:投影后的两类样本中心点尽量分离。


J(w)越大越好,同时还要考虑样本点之间的方差,方差越大,样本点越难以分离。
 使用另外一个度量值,称作散列值,对投影后的类求散列值,如下:

散列值

 可以看出,散列值的几何意义是样本点的密集程度,值越大,越分散,反之,越集中。
 所以,最终的度量公式是:


我们只需要寻找使J(w)最大的w即可。


公式推导


前面是针对只有两个类的情况,假设类别变成多个了,一维可能已经不能满足要求,假设有C个类别,需要k维向量(基向量)来做投影。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 40,196评论 12 145
  • 本文结构: 什么是 LDA 和 PCA 区别 LDA 投影的计算过程 LDA 降维的例子 1. 什么是 LDA 先...
    不会停的蜗牛阅读 7,120评论 0 20
  • 转自:主成分分析 - xiaoyu714543065的专栏 - 博客频道 - CSDN.NET 问题...
    horu阅读 1,254评论 1 3
  • 心理脆弱,容易受伤的人,将被历史淘汰。 挫折很重要,而你的想法更重要。因为伤害人最深的往往不是挫折本身,是你的想法...
    乐为阅读 232评论 0 1
  • 当你开始习惯在依靠空调降温的城市生活时;当你开始认为绿水青山只会出现在画卷里时;当你正顶着高楼大厦一样的压...
    枝然阅读 562评论 13 9