此本来自自己硕士论文的综述部分。
1 偏最小二乘法(Partial least squares, PLS)
偏最小二乘法可以分为偏最小二乘回归法(Partial least square regression, PLSR)与偏最小二乘法判别分析(Partial least square discriminate analysis, PLS-DA)。PLSR实现的主要思想是将自变量和因变量分别进行线性组合分析,再将求得的数据进行关联分析,所以其为主成分分析、典型相关性分析与多元线性回归建模的组合。PLS-DA是有监督的判别分析法,Gottfries等首先报道了PLS-DA使用,而后Barker与Rayens明确了其用于判别分析的理论基础,并且对于其应用的优缺点由Brereton与Lloyd进一步阐释(Gottfries et al 1995, Barker and Rayens 2003, Brereton and Lloyd 2014 )。其与PLSR区别是因变量是类别,而不是连续的变量,一般是在PLSR分析后加入一个逻辑判别函数如Sigmoid函数(在逻辑回归判别中将详述)。因为两者前面分析部分相似,故这里主要介绍PLSR算法。PLSR中自变量与因变量的基础结构公式为:
X = TPT + E
Y = UQT + F
PLSR一般基于非线性迭代最小二乘算法(NIPALS)建立。其步骤为(1)对自变量X和因变量Y同时提取各自的主成分t1(x1、x2...xn的线性组合)与u1(y1、y2...yn的线性组合),并且要求这两个主成分相关性最大;(2)再进行X与Y分别对t1与u1的回归,若方程达到了设置的满意度,则停止计算;(3)否则,再利用t1对X解释后剩余的信息和u1对Y解释后剩余的信息重新按照(1)进行,再次循环,直到符合设定的阈值。最终X可能会提取到t1、t2...tn个主成分,Y提取到u1、u2…un,使Y的u组合对t1、t2...tn进行回归,进而转化成Y对x1、x2...xn的回归方程(Wold et al 2001)。
PLSR是基于FT-MIR建立模型研究中使用最为广泛和经典的算法,上述关于基于FT-MIR检测牛奶脂肪酸、蛋白质及氨基酸和抗生素残留的定量模型研究中均使用了PLSR算法,可见其应用之普遍。PLS-DA已在食品分析中的产品认证、医学诊断中的疾病分类和代谢组分析中进行广泛应用,并且Gromski等在综述代谢组的分析中,将其和随机森林与支持向量机进行了比较(Gromski et al 2015, Lee et al 2018)。
PLS的优点:(1)能处理样本量远小于特征属性数量的数据;(2)能处理特征属性间存在多重共线性的问题;(3)建立的模型时包含自变量与因变量的信息。其缺点有:(1)不能很好的处理非线性问题;(2)容易过拟合,需注意主成分数的选择。
.2 主成分分析-线性判别分析(PCA-LDA)
主成分分析(Principal Component Analysis,PCA)是一种无监督的降维分析方法。PCA降维的基本原则是使降维后方差最大与损失最小,如图1-2。其实现的基本过程:(1)对所有样本进行中心化处理;(2)计算样本的协方差矩阵;(3)对协方差矩阵进行特征值分解;(4)对得到的特征值进行排序,取前n个组成新矩阵;(5)以新矩阵来代替原来样本的特征(Abdi and Williams 2010, Jolliffe and Cadima 2016)。
线性判别分析(Linear discriminat analysis,LDA)是一种有监督的降维与判别分析方法。LDA降维原则是类别内方差最小,类别间方差最大,这样的特点更有利于进行判别分析(Anandkumar et al 2015)。其实现的基本过程为(1)计算样本各类别内的类内散度矩阵Sw;(2)计算样本各类别间的散度矩阵Sb;(3)对Sw做奇异分解,得到Sw-1;(4)对Sw-1Sb做特征分解;(5)取上一步得到的前n特征向量以最大似然法求得各类别的均值和方差做后续的判别分析。
LDA不适用自变量远远大于样本的情况,而PCA可以,故这里将两个算法进行联用,先以PCA进行降维,再以LDA进行判别分析(Yang and Yang 2003)。
PCA-LDA的优点:(1)两个算法的联用可以同时对原数据进行降维和判别分析;(2)LDA采用的是各类均值,算法较优。其缺点有(1)只适合符合高斯分布的样本数据分析;(2)可能会有过拟合的风险。
3 决策树(Decision Tree, DT)
决策树是基础的分类和回归方法,本研究主要集中在其用于分类上。决策树是通过树状结构对具有特征属性的样本进行分类。每一个决策树都包括根节点(第一个特征属性),内部节点(其他特征属性)以及叶子节点(类别),通用的为每个内部节点有两个分支(Kaminski et al 2018)。其实现的基本步骤:(1)在所有属性中选择最优属性,通过其将样本分类;(2)将分类的样本再通过另一个特征属性再次分类,一直循环直到将样本分到各叶子节点;(3)对生成的树进行剪枝(包含预剪枝与后剪枝)。决策树选择特征属性的算法不同会有不同结果,典型算法包括:CART算法(Breiman et al 1984)、ID3算法(Quinlan 1986)、C4.5算法(Quinlan 1992)等,但这些方法生成的过程相似。
CART采用基尼指数最小化原则,进行特征选择,递归地生成二叉树,该算法只能对特征进行二分。ID3算法在各个节点上采用信息增益来选择特征,每一次选择的特征均使信息增益最大,逐步构建决策树,但缺点是其会选择取值较多的特征,而C4.5算法采用信息增益比选择特征,解决了ID3的缺点。
DT的优点:(1)运行速度相对较快;(2)可同时处理不同类型的数据,基本不需要预处理;(3)结果容易解释,并可进行可视化。其缺点:(1)容易过拟合,导致泛化能力不强;(2)不支持在线学习,若有新样本,DT需要全部重建;(3)当各类别数据样本不平衡时,结果会偏向有更多数值的特征;(4)不能处理样本特征属性之间的相关性(James et al 2013, Painsky and Rosset 2015)。
4 人工神经网络(Artificial neural network,ANN)
人工神经网络是以神经元为单位模仿生物神经网络的结构与功能的数学算法模型(Marcel and Sander 2018)。其可以进行线性与非线性的判别分析,属于有监督的学习分类法,主要分为前馈型神经网络、反馈型神经网络与自组织神经网络。
单位神经元如图1-3中A,一般有多个输入的“树突”,再分别给予不同的权重求和,与阈值比较,达到阈值的通过激活函数求出输出数据,最后进行输出。激活函数f通常分为三类:阈值函数、分段函数、双极性连续函数。
这里以经典的单隐层神经网络为例进行讲解,如图1-3中B。其输入层包含三个神经元,隐含层有四个神经元,输出层有两个神经元。其运算过程为由输入层输入数据,随机设定权重和阈值,通过隐藏层计算再传递到输出层,输出层会根据设定的期望进行判断,如果不符合,则返回重新改变权重和阈值,进入循环,直到符合设定的期望再停止运算,这样就能得到模型的权重和阈值,可对新数据进行判别,这种运算法即为常见的反馈型神经网络(Tu 1996)。多层神经网络属于深度学习,以卷积神经网络为基础进行构建。
ANN的优点:(1)能够自主学习;(2)能解决线性与非线性的问题;(3)可处理因变量之间的相互作用。其缺点:(1)需要设置大量的参数进行约束;(2)结果解释性差,为黑箱算法;(3)计算学习时间长;(4)容易过拟合(Tu 1996)。