深入浅出带你了解主成因分析(Principal Component Analysis)

前言

在涉及到生信分析的相关文章中,我们经常可以看到下面这样的聚类图,这种图一般是由主成因分析得到,主成因分析(Principal Component Analysis,PCA)是一种无监督学习的多元统计分析方法。那么为什么要用到主成因分析,如何进行主成因分析,得到的结果又应该如何解读呢。YouTube视频博主StatQuest 的视频非常深入浅出的为我们解答了这些问题。

01  理解PCA的目的

假设我们有一群细胞,可能是由三种不同类型的细胞组成,遗憾的是,我们无法从外部观察到每种细胞类型的差异,所以我们对每个细胞中的mRNA进行测序,以确定哪些基因是活跃的,从而得知每个细胞正在做什么。

同时假设下表是我们测序所得的数据,其中每一列代表每个基因在每个细胞中的表达量。

如果我们只需要比较cell1和cell2两个细胞,我们可以把每个基因的测量结果直接绘制在二维坐标轴上,可以很清晰看到有些基因在cell1中被高度转录,而在cell2中转录水平很低(坐标轴左上),有些基因在cell1中转录水平很低,在cell2中被高度转录(坐标轴右下),整体呈负相关,表明cell1与cell2可能具有不同的功能。

我们已经知道了如何比较cell1和cell2的基因转录差别,同理我们也可以比较cell1和cell3的转录差别。cell1和cell3呈正相关,表明他们正在起类似的作用。

最后,我们还可以比较cell2和cell3,结果呈负相关,表明cell2 与cell3起不同的作用。

当需要同时比较cell1、cell2和cell3这三个细胞的表达量时,我们可以尝试在三维坐标轴上同时绘制这3个细胞的表达结果。Cell1是垂直的y轴,cell2是x轴(水平),cell3是z轴(深度)。然后我们可以通过旋转坐标轴来观察这些细胞的相关性。

但是当我们需要知道四个以上细胞相关性的时候呢,无论是画成百上千的两两细胞比较的图,还是在同一坐标系中为每一个细胞都绘制一个轴,这些解决方案都不现实。这个时候我们可以选择画一个主成因分析(PCA)图,PCA图将细胞之间的相关性(或不相关性)转化为2D图,高度相关的细胞将会聚集在一起,为了让这些聚类更好看些,我们可以对他们进行上色。

一旦我们确定了PCA图中的聚类,我们就可以回到原始细胞,知道他们代表了三种不同类型的细胞,用着他们的基因起三种不同类型的作用。

02  PCA绘制方法

PCA的绘制方法多种多样,既有R语言适用的方法,也有Python适用的方法,甚至现在很多公司都已经开发网页版的绘图工具,不用写代码就可以直接出图。根据不同的表达数据、分析目的以及个人喜欢,可以选择不同的方法。这里推荐一个非常好用的画图网站-Clustvis,网页链接https://biit.cs.ut.ee/clustvis/,该网站不仅可以绘制PCA图,还可绘制常用的热图。主页如下,功能分区清晰易懂。

首先需要点击Data import上传数据,上传data可以直接用上传文件(不能大于2M)。文本的格式内容可以参照它给的sample,需要给出基本行列信息以及每个样本的数值(表达值或者是甲基化等数值)。选择上传data的方式,以及数据格式。

然后根据给出的sample样本信息为例,点击Data pre-processing对数据进行预处理。主要需要的处理问题有1)数据过大或过小是否需要转换;2)每列的注释是否需要保留;3)缺失值的取值范围(自己可以调整)4)PCA分析的方法等。

最后点击PCA选项,则会自动进行PCA图绘制,左侧边栏可以根据需要调整图形的参数。

03  PCA图的解读

坐标轴是按照重要性排序的,在此图中,第一主成分(PC1)轴(横轴)上贡献的差异比第二主成分(PC2)轴(纵轴)上贡献的差异更重要。

如果把图换成下面这样,红蓝两个集群之间的距离和红黄两个集群之间的距离相等,那么红黄两个集群之间的差异比红绿两个集群之间的差异更大。

最后,PCA只是分析这类数据的其中一种方法,还有很多其他方法,但是都是基于“降维”这一核心思路的变体。比如热图、t-SNE图以及多维度标度图(MDS)等。

05  PCA聚类的应用

综上所述,PCA聚类分析可以反应以下主要问题:

1)揭示造成样本差异性的主成分及其贡献率。

2)揭示不同处理下的样品的情况。样品组成越相似,样本在PCA中的距离越近。3)样本间的差异性。

因此,PCA聚类分析可以广泛应用于各种生物信息数据分析,如可以在蛋白组学和代谢组学研究中能从总体上反应各组样本之间的总体差异和组内样本之间的变异度大小,其结果一目了然,在许多蛋白组学和代谢组学生信分析中常应用这种方法来探究各组样本中的差异。同时转录组测序、宏基因组以及宏转录组等经常使用PCA聚类分析区分各组别之间的差异,单细胞分析中常用的t-SNE聚类也是基于类似原理,可以非常高效地区分各类淋巴细胞。

例如《Tumor Evolution and Drug Response in Patient-Derived Organoid Models of Bladder Cancer》这篇文章中,作者研究了人类膀胱癌的组织病理学和分子多样性,通过PCA聚类分析区分肿瘤组织与癌旁组织。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容