11 - PLS,PCA-LDA, DT, ANN简要介绍

此本来自自己硕士论文的综述部分。

1 偏最小二乘法(Partial least squares, PLS)

偏最小二乘法可以分为偏最小二乘回归法(Partial least square regression, PLSR)与偏最小二乘法判别分析(Partial least square discriminate analysis, PLS-DA)。PLSR实现的主要思想是将自变量和因变量分别进行线性组合分析,再将求得的数据进行关联分析,所以其为主成分分析、典型相关性分析与多元线性回归建模的组合。PLS-DA是有监督的判别分析法,Gottfries等首先报道了PLS-DA使用,而后Barker与Rayens明确了其用于判别分析的理论基础,并且对于其应用的优缺点由Brereton与Lloyd进一步阐释(Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 )。其与PLSR区别是因变量是类别,而不是连续的变量,一般是在PLSR分析后加入一个逻辑判别函数如Sigmoid函数(在逻辑回归判别中将详述)。因为两者前面分析部分相似,故这里主要介绍PLSR算法。PLSR中自变量与因变量的基础结构公式为:

X = TPT + E

Y = UQT + F

PLSR一般基于非线性迭代最小二乘算法(NIPALS)建立。其步骤为(1)对自变量X和因变量Y同时提取各自的主成分t1(x1、x2...xn的线性组合)与u1(y1、y2...yn的线性组合),并且要求这两个主成分相关性最大;(2)再进行X与Y分别对t1与u1的回归,若方程达到了设置的满意度,则停止计算;(3)否则,再利用t1对X解释后剩余的信息和u1对Y解释后剩余的信息重新按照(1)进行,再次循环,直到符合设定的阈值。最终X可能会提取到t1、t2...tn个主成分,Y提取到u1、u2…un,使Y的u组合对t1、t2...tn进行回归,进而转化成Y对x1、x2...xn的回归方程(Wold et al 2001)。

PLSR是基于FT-MIR建立模型研究中使用最为广泛和经典的算法,上述关于基于FT-MIR检测牛奶脂肪酸、蛋白质及氨基酸和抗生素残留的定量模型研究中均使用了PLSR算法,可见其应用之普遍。PLS-DA已在食品分析中的产品认证、医学诊断中的疾病分类和代谢组分析中进行广泛应用,并且Gromski等在综述代谢组的分析中,将其和随机森林与支持向量机进行了比较(Gromski et al 2015, Lee et al 2018)。

PLS的优点:(1)能处理样本量远小于特征属性数量的数据;(2)能处理特征属性间存在多重共线性的问题;(3)建立的模型时包含自变量与因变量的信息。其缺点有:(1)不能很好的处理非线性问题;(2)容易过拟合,需注意主成分数的选择。

.2 主成分分析-线性判别分析(PCA-LDA)

主成分分析(Principal Component Analysis,PCA)是一种无监督的降维分析方法。PCA降维的基本原则是使降维后方差最大与损失最小,如图1-2。其实现的基本过程:(1)对所有样本进行中心化处理;(2)计算样本的协方差矩阵;(3)对协方差矩阵进行特征值分解;(4)对得到的特征值进行排序,取前n个组成新矩阵;(5)以新矩阵来代替原来样本的特征(Abdi and Williams 2010, Jolliffe and Cadima 2016)。

线性判别分析(Linear discriminat analysis,LDA)是一种有监督的降维与判别分析方法。LDA降维原则是类别内方差最小,类别间方差最大,这样的特点更有利于进行判别分析(Anandkumar et al 2015)。其实现的基本过程为(1)计算样本各类别内的类内散度矩阵Sw;(2)计算样本各类别间的散度矩阵Sb;(3)对Sw做奇异分解,得到Sw-1;(4)对Sw-1Sb做特征分解;(5)取上一步得到的前n特征向量以最大似然法求得各类别的均值和方差做后续的判别分析。

LDA不适用自变量远远大于样本的情况,而PCA可以,故这里将两个算法进行联用,先以PCA进行降维,再以LDA进行判别分析(Yang and Yang 2003)。


image.png

PCA-LDA的优点:(1)两个算法的联用可以同时对原数据进行降维和判别分析;(2)LDA采用的是各类均值,算法较优。其缺点有(1)只适合符合高斯分布的样本数据分析;(2)可能会有过拟合的风险。

3 决策树(Decision Tree, DT)

决策树是基础的分类和回归方法,本研究主要集中在其用于分类上。决策树是通过树状结构对具有特征属性的样本进行分类。每一个决策树都包括根节点(第一个特征属性),内部节点(其他特征属性)以及叶子节点(类别),通用的为每个内部节点有两个分支(Kaminski et al 2018)。其实现的基本步骤:(1)在所有属性中选择最优属性,通过其将样本分类;(2)将分类的样本再通过另一个特征属性再次分类,一直循环直到将样本分到各叶子节点;(3)对生成的树进行剪枝(包含预剪枝与后剪枝)。决策树选择特征属性的算法不同会有不同结果,典型算法包括:CART算法(Breiman et al 1984)、ID3算法(Quinlan 1986)、C4.5算法(Quinlan 1992)等,但这些方法生成的过程相似。

CART采用基尼指数最小化原则,进行特征选择,递归地生成二叉树,该算法只能对特征进行二分。ID3算法在各个节点上采用信息增益来选择特征,每一次选择的特征均使信息增益最大,逐步构建决策树,但缺点是其会选择取值较多的特征,而C4.5算法采用信息增益比选择特征,解决了ID3的缺点。

DT的优点:(1)运行速度相对较快;(2)可同时处理不同类型的数据,基本不需要预处理;(3)结果容易解释,并可进行可视化。其缺点:(1)容易过拟合,导致泛化能力不强;(2)不支持在线学习,若有新样本,DT需要全部重建;(3)当各类别数据样本不平衡时,结果会偏向有更多数值的特征;(4)不能处理样本特征属性之间的相关性(James et al 2013, Painsky and Rosset 2015)。

4 人工神经网络(Artificial neural network,ANN)

人工神经网络是以神经元为单位模仿生物神经网络的结构与功能的数学算法模型(Marcel and Sander 2018)。其可以进行线性与非线性的判别分析,属于有监督的学习分类法,主要分为前馈型神经网络、反馈型神经网络与自组织神经网络。

单位神经元如图1-3中A,一般有多个输入的“树突”,再分别给予不同的权重求和,与阈值比较,达到阈值的通过激活函数求出输出数据,最后进行输出。激活函数f通常分为三类:阈值函数、分段函数、双极性连续函数。


image.png

这里以经典的单隐层神经网络为例进行讲解,如图1-3中B。其输入层包含三个神经元,隐含层有四个神经元,输出层有两个神经元。其运算过程为由输入层输入数据,随机设定权重和阈值,通过隐藏层计算再传递到输出层,输出层会根据设定的期望进行判断,如果不符合,则返回重新改变权重和阈值,进入循环,直到符合设定的期望再停止运算,这样就能得到模型的权重和阈值,可对新数据进行判别,这种运算法即为常见的反馈型神经网络(Tu 1996)。多层神经网络属于深度学习,以卷积神经网络为基础进行构建。
ANN的优点:(1)能够自主学习;(2)能解决线性与非线性的问题;(3)可处理因变量之间的相互作用。其缺点:(1)需要设置大量的参数进行约束;(2)结果解释性差,为黑箱算法;(3)计算学习时间长;(4)容易过拟合(Tu 1996)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容