集团遗传学: 主成分判别分析(DAPC)

通常我们会遇到在没有先前知识的前提下通过确定观察到的群体(集团)数量来推断人口结构。这种情况可以使用几种方法来推断群体,例如K均值聚类、使用STRUCTURE的贝叶斯聚类和多变量方法,如主成分判别分析(DAPC)(Pritchard,Stephens&Donnelly,2000; Jombart,Devillard&Balloux,2010; Grünwald和Goss,2011)。类STRUCTURE的方法必须基于标记不相关的假定下,并且人口是全自交的(Pritchard等,2000)。对于部分独立的种群,基于遗传距离的K均值聚类或DAPC是更方便的无模型方法。本文着重于探讨DAPC方法。

流感病毒株H3N2的DAPC分析

DAPC(主成分判别分析)由Jombart等人(Jombart et al., 2010)首创,可以用于推断具有遗传关联的个体的群集数量。在这种多元统计方法中,样本的方差被分为组间和组内两个部分,以最大程度地区分不同群体。在DAPC中,首先使用主成分分析(PCA)对数据进行转换,然后使用判别分析(DA)识别群集。这个教程基于Thibaut Jombart编写的vignette(代码示例。用户还可以通过在R中执行adegenetTutorial("dapc")来打开vignette。

# DAPC requires the adegenet package. Let's load this package:
library("adegenet")
data(H3N2) # load the H3N2 influenza data. Type ?H3N2 for more info.
pop(H3N2) <- H3N2$other$epid
dapc.H3N2 <- dapc(H3N2, var.contrib = TRUE, scale = FALSE, n.pca = 30, n.da = nPop(H3N2) - 1)
scatter(dapc.H3N2, cell = 0, pch = 18:23, cstar = 0, mstree = TRUE, lwd = 2, lty = 2)

在上文中使用的dapc()函数的参数解释如下:

  1. dataset:这个参数指的是正在分析的数据集,本例中是H3N2数据集。它包含了H3N2流感株的遗传数据。
  2. var.contrib:这个参数被设置为TRUE,表示我们希望在输出中保留对分析有贡献的变量信息(位点信息)。通过将其设置为TRUE,您可以后续查看哪些位点贡献了群体的分离。
  3. center:这个参数被设置为FALSE,表示我们不希望对数据进行重新缩放,使均值等于0。数据居中是一种预处理步骤,涉及将每个变量减去均值,这在某些分析中有帮助。但是,在这种情况下,不需要进行居中处理。
  4. n.pca:这个参数确定在主成分分析(PCA)步骤中保留的轴(主成分)的数量。如果设置为NULL(默认值),函数将根据数据自动确定适当的主成分数量。主成分捕捉到了遗传变异的主要方向。
  5. n.da:这个参数确定在判别分析(DA)步骤中保留的轴的数量。如果设置为NULL(默认值),函数将根据数据自动确定适当的判别轴的数量。判别轴是从主成分派生出来的,用于识别数据中的群集或群体。

这些参数提供了灵活性和对分析的控制,允许自定义在PCA和DA步骤中使用的成分数量,并指定是否包括变量贡献和居中处理。

可以看出2001到2005的数据根据横坐标一字排开,2006的数据和2001-2005的数据根据在纵坐标上分的很开。

接下来可以看一下,2006样本是不是存在和2001-2005差异很大的等位基因点。

set.seed(4)
contrib <- loadingplot(dapc.H3N2$var.contr, axis = 2, thres = 0.07, lab.jitter = 1)

399和906的SNPs很扎眼。所以接下来可以着重查看这两个点的SNPs的变化情况。

temp    <- seploc(H3N2)       # seploc {adegenet} creates a list of individual loci.
snp906  <- tab(temp[["906"]]) # tab {adegenet} returns a matrix of genotypes
snp399  <- tab(temp[["399"]])

# The following two commands find the average allele frequencies per population
(freq906 <- apply(snp906, 2, function(e) tapply(e, pop(H3N2), mean, na.rm = TRUE)))
##            906.c     906.t
## 2001 0.000000000 1.0000000
## 2002 0.000000000 1.0000000
## 2003 0.000000000 1.0000000
## 2004 0.000000000 1.0000000
## 2005 0.002155172 0.9978448
## 2006 0.616071429 0.3839286
(freq399 <- apply(snp399, 2, function(e) tapply(e, pop(H3N2), mean, na.rm = TRUE)))
##            399.c     399.t
## 2001 0.000000000 1.0000000
## 2002 0.000000000 1.0000000
## 2003 0.000000000 1.0000000
## 2004 0.001848429 0.9981516
## 2005 0.002079002 0.9979210
## 2006 0.357142857 0.6428571
# First, set the plotting parameters
# mfrow = number of columns, rows
# mar   = plot margin size
# las   = axis label style (3: always vertical)
par(mfrow = c(1, 2), mar = c(5, 4, 4, 0) + 0.1, las = 3)

matplot(freq906,  pch = c("c", "t"), type = "b",
        xlab = "year", ylab = "allele frequency", main = "SNP # 906",
        xaxt = "n", cex = 1.5)
axis(side = 1, at = 1:6, lab = 2001:2006)

matplot(freq399, pch = c("c", "t"), type = "b",
        xlab = "year", ylab = "allele frequency", main = "SNP #399",
        xaxt = "n", cex = 1.5)
axis(side = 1, at = 1:6, lab = 2001:2006)

这个图很好地说明了季节性H3N2流感病毒中突变后随之而来的选择或漂变的影响。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容