【Scikit-Learn 中文文档】线性和二次判别分析 - 监督学习 - 用户指南 | ApacheCN

中文文档:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文档:http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文档:http://scikit-learn.org/0.19/

GitHub:https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)

贡献者:https://github.com/apachecn/scikit-learn-doc-zh#贡献者

1.2. 线性和二次判别分析

Linear Discriminant Analysis(线性判别分析)(discriminant_analysis.LinearDiscriminantAnalysis) 和 Quadratic Discriminant Analysis (二次判别分析)(discriminant_analysis.QuadraticDiscriminantAnalysis) 是两个经典的分类器。 正如他们名字所描述的那样,他们分别代表了线性决策平面和二次决策平面。

这些分类器十分具有魅力,因为他们可以很容易计算得到闭式解,其天生的多分类特性,在实践中已经证明很有效,并且不需要再次调参。

以上这些图像展示了 Linear Discriminant Analysis (线性判别分析)以及 Quadratic Discriminant Analysis (二次判别分析)的决策边界。其中,最底行阐述了线性判别分析只能学习线性边界, 而二次判别分析则可以学习二次函数的边界,因此它相对而言更加灵活。

示例:

Linear and Quadratic Discriminant Analysis with covariance ellipsoid: LDA和QDA在特定数据上的对比

1.2.1. 使用线性判别分析来降维

discriminant_analysis.LinearDiscriminantAnalysis可以通过给予包含了最大化不同类别间距的方向的线性子空间(subspace)投放输入数据, 从而用来执行监督下的降维。输出的维度必然会比原来的类别数量更少的。因此它是总体而言十分强大的降维方式,同样也仅仅在多分类环境下才会起作用。

实现方式在discriminant_analysis.LinearDiscriminantAnalysis.transform中.关于维度的数量可以通过n_components参数来调节 . 值得注意的是,这个参数不会对discriminant_analysis.LinearDiscriminantAnalysis.fit或者discriminant_analysis.LinearDiscriminantAnalysis.predict产生影响.

示例:

Comparison of LDA and PCA 2D projection of Iris dataset: 在 Iris 数据集对比 LDA 和 PCA 之间的降维差异

1.2.2. LDA 和 QDA 分类器的数学公式

LDA 和 QDA 都是源于简单的概率模型,这些模型对于每一个类别

的相关分布

都可以通过贝叶斯定理所获得。

并且我们选择能够最大化条件概率的类别

.

更详细地,对于线性以及二次判别分析,

被塑造成一个多变量的高斯分布密度:

为了使用该模型作为分类器使用,我们需要通过训练集数据预测更重要的类别

(通过每个类

的实例的概率预测) 类别均值

(用经验的样本类别均值)以及协方差矩阵(过用经验的样本类别协方差或者正则化的估计器estimator: 见下面的 shrinkage章节).

在 LDA 中,每个类别

的高斯分布共享相同的协方差矩阵:

for all

。可以带来线性的 决策平面, 正如所见, 通过比较log似然比

对于 QDA 而言,没有关于高斯协方差矩阵

的假设,因此带来二次决策平面. 更多细节见[3].

Note

与高斯朴素贝叶斯的关系

如果在QDA模型中假设协方差矩阵是对角的,那么在每个类别中的输入数据则被假定是相关依赖的。 而且结果分类器会和高斯朴素贝叶斯分类器naive_bayes.GaussianNB相同。

1.2.3. LDA 的降维数学公式

为了理解 LDA 在降维上的应用,它对于进行 LDA 分类的几何重构是十分有用的。我们用

表示目标类别的总数。 由于在 LDA 中我们假设所有类别都有相同预测的协方差

,我们可重新调节数据从而让让协方差相同。

在缩放后可以分类数据点和找到离数据点最近的欧式距离相同的预测类别均值。但是它可以在投影到

个由所有

个类生成的仿射子空间

之后被完成。这也表明,LDA 分类器中存在一个利用线性投影到

个维度空间的降维工具。

我们可以通过投影到可以最大化

的方差的线性子空间

以更多地减少维度,直到一个选定的

值 (实际上,我们正在做一个类 PCA 的形式为了实现转换类均值

discriminant_analysis.LinearDiscriminantAnalysis.transform方法. 详情参考[3]

1.2.4. Shrinkage(收缩)

收缩是一个在训练样本数量相比特征而言很小的情况下可以提升预测(准确性)的协方差矩阵。 在这个情况下,经验样本协方差是一个很差的预测器。LDA 收缩可以通过设置discriminant_analysis.LinearDiscriminantAnalysis类的shrinkage参数为 ‘auto’ 以得到应用。

shrinkageparameter (收缩参数)的值同样也可以手动被设置为 0-1 之间。特别地,0 值对应着没有收缩(这意味着经验协方差矩阵将会被使用), 而 1 值则对应着完全使用收缩(意味着方差的对角矩阵将被当作协方差矩阵的估计)。设置该参数在两个极端值之间会估计一个(特定的)协方差矩阵的收缩形式

1.2.5. 预估算法

默认的 solver 是 ‘svd’。它可以进行classification (分类) 以及 transform (转换),而且它不会依赖于协方差矩阵的计算(结果)。这在特征数量特别大的时候就显得十分具有优势。然而,’svd’ solver 无法与 shrinkage (收缩)同时使用。

‘lsqr’ solver 则是一个高效的算法,它仅仅只能用于分类使用,而且它支持 shrinkage (收缩)。

‘eigen’(特征) solver 是基于 class scatter (类散度)与 class scatter ratio (类内离散率)之间的优化。 它既可以被用于classification (分类)以及 transform (转换),此外它还同时支持收缩。然而,该解决方案需要计算协方差矩阵,因此它可能不适用于具有大量特征的情况。

Examples:

Normal and Shrinkage Linear Discriminant Analysis for classification: Comparison of LDA classifiers with and without shrinkage.

References:

[3](1,2)“The Elements of Statistical Learning”, Hastie T., Tibshirani R., Friedman J., Section 4.3, p.106-119, 2008.

[4]Ledoit O, Wolf M. Honey, I Shrunk the Sample Covariance Matrix. The Journal of Portfolio Management 30(4), 110-119, 2004.

中文文档:http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html

英文文档:http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html

官方文档:http://scikit-learn.org/0.19/

GitHub:https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)

贡献者:https://github.com/apachecn/scikit-learn-doc-zh#贡献者

有兴趣的大佬们也可以和我们一起来维护,持续更新中 。。。

机器学习交流群: 629470233

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容