04高通量测序-R实现主成分分析

R实现主成分分析

  • 如何使用prcomp()函数来做PCA

  • 如何使用基础图形和ggplot2绘制PCA图

  • 如何确定每个主成分占多少变动

  • 如何检查载荷得分(Loading Scores),以确定哪些变量对图表有最大的影响。

构建数据集

首先,让我们生成一个可以在演示中使用的假数据集。

#我们将用10个样本制作一个数据矩阵,在每个样本中测量100个基因
data.matrix <- matrix(nrow=100, ncol=10)
#这是我们给样品命名的地方,前5个样品为“wt”或“野生型”样品,“wt”样本是正常的,最后5个样品为“ko”或"敲除"样品,样本为我们敲掉一个基因
colnames(data.matrix) <- c(
  paste("wt",1:5,sep=""),
  paste("ko",1:5,sep=""))
rownames(data.matrix) <- paste("gene", 1:100, sep="")
for (i in 1:100){
  wt.values <- rpois(5, lambda = sample(x=10:1000, size=1))
  ko.values <- rpois(5, lambda = sample(x=10:1000, size=1))

  data.matrix[i,] <- c(wt.values, ko.values)
}

head(data.matrix)

prcomp()函数来做PCA

我们调用prcomp()对我们的数据进行PCA。我们的目标是绘制一个图表来显示样本之间是如何相互关联(或不关联)的注意:默认情况下,prcomp()希望样本为行,基因为列。由于我们的数据矩阵中的样本是列,而基因是行,我们必须使用t()函数转置矩阵。如果我们不转置矩阵,我们最终会得到一张显示基因如何相互关联的图表。

prcomp()返回三个东西:

  • x

  • sdev

  • rotation

pca <- prcomp(t(data.matrix),scale=TRUE)

> str(pca)
List of 5
 $ sdev    : num [1:10] 9.53 1.55 1.23 1.22 1.09 ...
 $ rotation: num [1:100, 1:10] -0.1043 -0.101 0.104 0.1049 -0.0778 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:100] "gene1" "gene2" "gene3" "gene4" ...
  .. ..$ : chr [1:10] "PC1" "PC2" "PC3" "PC4" ...
 $ center  : Named num [1:100] 364 571 787 537 928 ...
  ..- attr(*, "names")= chr [1:100] "gene1" "gene2" "gene3" "gene4" ...
 $ scale   : Named num [1:100] 160.9 94.6 191.5 435.4 26 ...
  ..- attr(*, "names")= chr [1:100] "gene1" "gene2" "gene3" "gene4" ...
 $ x       : num [1:10, 1:10] -8.78 -9.32 -8.89 -8.99 -9.2 ...
  ..- attr(*, "dimnames")=List of 2
  .. ..$ : chr [1:10] "wt1" "wt2" "wt3" "wt4" ...
  .. ..$ : chr [1:10] "PC1" "PC2" "PC3" "PC4" ...
 - attr(*, "class")= chr "prcomp"
> 

x(主成分)

x包含绘制图形的主成分(PCs)。这里我们使用x的前两列来绘制二维图,使用前两个PC。第一个PC在原始数据(所有10个样本的基因表达)中占最多的变异,第二个PC占第二大变异,以此类推。为了绘制一个二维PCA图,我们通常使用前2个PCs。然而,有时我们使用PC2和PC3。

> pca$x
          PC1        PC2         PC3        PC4        PC5         PC6        PC7
wt1 -8.600763  0.5663310 -1.94415011  0.5329527 -0.2864921  0.34663901  0.3980066
wt2 -9.287861  1.7650245  0.97270495  0.4696584 -1.3012428 -1.58284668  0.7760627
wt3 -8.863040 -1.2216062 -0.06383822 -2.1903326 -0.8216582  1.18701147  0.2993701
wt4 -9.529562 -2.0998590  0.25677668  0.7338328  2.1303556 -0.62431431  0.3974616
wt5 -8.672659  1.1320231  0.70013883  0.4119996  0.2611813  0.76023629 -1.9013924
ko1  9.195229  2.7372739  0.73373070  0.7371755  0.5822602  0.83186376  0.1686659
ko2  9.181781  1.1797157 -0.01108258 -1.6554134  1.0400690 -0.01517568  0.9489653
ko3  8.997543 -0.2811094 -2.87240846 -0.2775294 -0.1974510 -1.06628239 -0.9811960
ko4  8.844136 -2.0996810  0.02594496  1.8928868 -0.9383461  0.97168627  0.6576168
ko5  8.735196 -1.6781127  2.20218325 -0.6552303 -0.4686759 -0.80881775 -0.7635606
           PC8         PC9         PC10
wt1 -0.2540217 -1.06789444 2.969847e-15
wt2  0.1956564  0.32497880 2.900458e-15
wt3 -0.4700103  0.42915382 2.053913e-15
wt4 -0.2629516  0.22498659 4.725387e-15
wt5  0.8012324  0.06610679 2.713108e-15
ko1 -1.0912341  0.22831819 1.991463e-15
ko2  1.0725213 -0.18244780 2.296774e-15
ko3 -0.1756349  0.42251257 1.804112e-15
ko4  0.6000006  0.20369403 3.018419e-15
ko5 -0.4155581 -0.64940855 2.726985e-15
## 我们使用x的前两列绘制一个二维图
plot(pca$x[,1],pca$x[,2])
Rplot.png

sdev(奇异值)

图的左边有五个样本,图的右边有五个样本,此时我们再看一下PC1占的总变异的比例,我们用sdev的平方(sdev为奇异值,特征值(SS)的平方根=sdev),即标准差来计算每个主成分在原始数据中所占的变化量。因为每个PC所占的变异百分比比实际值更有意义,所以我们计算了这些百分比,并画出图。

pca.var <- pca$sdev^2
pca.var.per <- round(pca.var/sum(pca.var)*100,1)
barplot(pca.var.per, 
        main="Scree Plot", 
        xlab="Principal Component", 
        ylab="Percent Variation")

Rplot01.png

PC1几乎解释了所有的数据变异!这意味着左右两个样本类之间有很大的不同。我们可以使用ggplot2制作一个漂亮的PCA图,它看起来很漂亮,还为我们提供了大量的信息。首先,按照ggplot2喜欢的方式格式化数据,一个带有示例id的列。两列表示每个样本的X坐标和Y坐标。

library(ggplot2)
pca.data <- data.frame(Sample=rownames(pca$x),
                       X=pca$x[,1],
                       Y=pca$x[,2])
pca.data
>  Sample         X          Y
wt1    wt1 -8.600763  0.5663310
wt2    wt2 -9.287861  1.7650245
wt3    wt3 -8.863040 -1.2216062
wt4    wt4 -9.529562 -2.0998590
wt5    wt5 -8.672659  1.1320231
ko1    ko1  9.195229  2.7372739
ko2    ko2  9.181781  1.1797157
ko3    ko3  8.997543 -0.2811094
ko4    ko4  8.844136 -2.0996810
ko5    ko5  8.735196 -1.6781127

ggplot2绘图

ggplot(data=pca.data, aes(x=X, y=Y, label=Sample))+
  geom_text() +
  xlab(paste("PC1 - ", pca.var.per[1], "%", sep=""))+
  ylab(paste("PC2 - ", pca.var.per[2], "%", sep=""))+
  theme_bw()+
  ggtitle("My PCA Graph")
#然后我们使用geom_text告诉ggplot绘制标签,而不是点或其他形状
Rplot02.png

x轴告诉我们PC1占原始数据变异的百分比。y轴告诉我们PC2占原始数据变异的百分比。

rotation

最后,让我们看看如何使用载荷得分(Loading Scores)来确定哪些基因对样本在PCA图中的位置有最大的影响。rotation,对每个PC有载荷得分(Loading Scores)。在这里,我将查看PC1的载荷得分,因为它占数据变异的92%。将样本推到图表左侧的基因会有很大的负值,而将样本推到右侧的基因会有很大的正值。由于我们对这两组基因都感兴趣,所以我们将使用abs()根据绝对值进行排序。

loading_score <- pca$rotation[,1]
gene_scores <- abs(loading_score)
gene_score_ranked <- sort(gene_scores, decreasing = TRUE)
top_10_genes <- names(gene_score_ranked[1:10])
top_10_genes
> [1] "gene77" "gene96" "gene73" "gene7"  "gene98" "gene43" "gene25" "gene4"  "gene91" "gene46"

#最后,我们看一下这些基因的loading score的数值
pca$rotation[top_10_genes,1]
>    gene77     gene96     gene73      gene7     gene98     gene43     gene25 
-0.1054378  0.1054265  0.1053676 -0.1053548  0.1053443 -0.1053442  0.1053430 
     gene4     gene91     gene46 
-0.1053310  0.1053132  0.1053060 
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容