从PCA、PLS-DA、OPLS-DA学习线性代数和矩阵

一、一些基本的线性代数和矩阵的概念

1、正交:

正交定义:

正交是线性代数的概念,是垂直这一直观概念的推广。作为一个形容词,只有在一个确定的内积空间中才有意义。若内积空间中两向量内积为0,则称它们是正交的。如果能够定义向量间的夹角,则正交可以直观的理解为垂直。物理中:运动的独立性,也可以用正交来解释。

对于一般的希尔伯特空间, 也有内积的概念, 所以人们也可以按照上面的方式定义正交的概念。 特别的, 我们有n维欧氏空间中的正交概念, 这是最直接的推广。

和正交有关的数学概念非常多, 比如正交矩阵正交补空间、施密特正交化法、最小二乘法等等。

欧几里得空间的例子

在二维或三维的欧几里得空间中,两个向量正交当且仅当他们的点积为零,即它们成90°角。可以看出正交的概念正是在此基础上推广而来的。三维空间中,一条直线的正交子空间是一个平面,反之亦然。四维空间中,一条直线的正交子空间则是一个超平面 [2]

两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为:
a·b=a1b1+a2b2+……+anbn。

2、点积

点积在数学中,又称数量积(dot product; scalar product),是指接受在实数R上的两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积

3、因子载荷

因子载荷 aij 的统计意义就是第i个变量与第 j 个公共因子的相关系数即表示 Xi 依赖 Fj 的份量(比重)。统计学术语称作权,心理学家将它叫做载荷,即表示第 i 个变量在第 j 个公共因子上的负荷,它反映了第 i 个变量在第 j 个公共因子上的相对重要性。

因子载荷简介

因子分析中,通常只选其中m个(m<p)主因子,即根据变量的相关选出第一主因子ƒ1,使其在各变量的公共因子方差中所占的方差贡献为最大,然后消去这个因子的影响,而从剩余的相关中,选出与之不相关的因子,使其在各个变量的剩余因子方差贡献中为最大,如此往复,直到各个变量公共因子方差被分解完毕为止。

因子分析

因子分析是简化、分析高维数据的一种统计方法。这里不多叙述,因为基本功不扎实,看了也看不懂,先只做了解.

二、OPLA-DA原理及简介

OPLS 简介

正交偏最小二乘法(Orthogonal projections to latent structures (OPLS))是一种新型的多元统计方法,它由Johan Tryggde等人于2002年首次提出。近十年来,这种方法在理论和应用方面得到了迅速的发展,并在计量化学中有大量的应用。OPLS是一种多因变量对多自变量的回归建模方法,其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异,使分类信息主要集中在一个主成分中,从而模型变得简单和易于解释,其判别效果及主成分得分图的可视化效果更加明显。

OPLS 原理

OPLS从给定的数据集X中移除系统正交变量,并把这些正交变量和非正交变量区分开来,可以对这些正交变量单独进行分析。OPLS方法利用响应变量Y中的信息把X分成三部分。即

其中,TP表示X的预测的得分矩阵,PTP表示X的预测载荷矩阵,TPPTP表示预测部分,TO表示X与Y的正交成分(称为OPLS成分)的得分矩阵,PTO表示对应的载荷矩阵,TOPTO表示与Y正交的部分,E为残差矩阵。

OPLS方法的实现通过两步完成:

第一步,与Y正交的变量从X数据矩阵中剔除,即

第二步,对XP进行偏最小二乘分析。

OPLS-DA 图表简述

OPLS-DA的得分图

OPLS-DA 得分图的横坐标表示OSC过程中的主要成分的得分值(Tp),所以从横坐标的方向可以看到组间的差异;纵坐标表示OSC过程中的正交成分的得分值(TO);所以从纵坐标上看出组内的差异(组内样本间的差异)。

图2 OPLS-DA得分图

OPLS-DA 的S-plot图

S-plot图的横坐标表示主成份与代谢物的协相关系数,纵坐标表示主成份与代谢物的相关系数。S-plot图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物,从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。红色的点表明这些代谢物的VIP值大于等于1,绿色的点表示这些代谢物的VIP值小于等于1。

图3 OPLS-DA S-plot

OPLS-DA的模型验证permutation Test图

模型验证permutation Test图的横坐标表示模型的准确率,纵坐标表示200次permutation Test中200个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置,其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2表示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确性越差,通常情况下,R2、Q2高于0.5较好,高于0.4即可接受。从图中可以看出Q2为0.994,R2Y为1,R2X为0.685,Q2和R2Y的P值均为0.005,说明permutation Test中只有1个随机分组模型结果优于本OPLS-DA模型,一般情况下P<0.05时模型最佳。

图4 OPLS-DA 的验证图
image.png
图5 OPLS-DA 分析流程思维导图
转自:http://www.360doc.com/showweb/0/0/900071290.aspx

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335