如何用binmapr进行遗传定位

binmapr是我折腾的一个R包,它能够将NGS测序得到SNP数据基于binmap进行纠错,用于更好的遗传定位。

在阅读本文之前,请先花点时间看看Bin, Bin, Bin!Map, Map, Map Now!, 我只是将里面的步骤整理成R包方便调用而已。

首先你得安装并加载R包。因为这个R包目前主要是方便自己使用,所以托管在GitHub上,需要用devtools进行安装

devtools::install_github("xuzhougeng/binmapr")

之后就可以和其他R包一样正常使用

library(binmapr)

R包的使用非常简单,就是调用batchCallGeno 将原本的genotype矩阵按照某个范围对snp进行纠正

geno <- batchCallGeno(GT_flt, CHROM = CHROM, 
                      outdir = ".",
                      pos.start = 7, fix.size = 10)

因此,你只要提供一个符合要求的输入即可。

以李广伟师兄的数据为例,我已经将其整理成示例数据,因此可以可以通过下面两行命令读取

data(geno)
data(pheno)

这两个都是数据框,其中geno存放的是基因型数据,而pheno存放的是表型数据

为了能够让batchCallGeno运行,我们需要将geno数据转成一个矩阵,其中行名是位置信息,列名是样本信息

GT <- as.matrix(geno[,-1:-4])
row.names(GT) <- paste0(geno$CHR, "_", geno$POS)

由于每个位点都在所有样本中都不一定存在,因此可以考虑过滤一些缺失比较多的位点.

miss_ratio <- rowSums(is.na(GT)) / ncol(GT)
GT_flt <- GT[miss_ratio < 0.20, ]

我这里过滤掉缺失大于20%的位点,原本是打算用5%,未曾想到这个标准过滤下去,90%的数据都快没了,吓得我赶紧用summary(miss_ratio)看了一波分布,改了下标准。

有了合适的数据类型后,就可以调用batchCallGeno函数了。运行结束后,除了得到一个列表外存放基因型外,还会在当前目录下输出csv和pdf文件。其中csv是基因型数据,而pdf则是纠错前后的基因型分布。

CHROM <- unique(geno$CHR)
geno_out <- batchCallGeno(GT_flt, CHROM = CHROM, 
                      pos.start = 7, fix.size = 10)

介绍下几个参数

  • CHROM: 用于构建binmap的染色体
  • pos.start, 该参数用于绘图时从行名中提取坐标,例如Chr1_1245需要设置为pos.start=6, 这里命名为chr01_12345所以要设置为pos.start=7
  • fix.size, 它和纠错有关,比如说你的基因型是00000100000, 中间的1很可能是错误的,因为它只出现了一次。fix.size需要根据具体数据来调整。

下一步,我们就可以用方差分析的方法来寻找和表型相关的区间

# Load phenotype
anova_analysis <- function(x, phenotype){
  
  p.lmout <- lm(phenotype ~ x, na.action = na.exclude)
  p <- anova(p.lmout)[,5][1]
  return(p)
}

geno_mt <- geno_out[[1]]
geno_mt_reorder <- geno_mt[,pheno$ID]
pvals <- apply(geno_mt_reorder, 
               1, 
               anova_analysis, 
               phenotype = pheno$PH)


接着画图

pos <- as.numeric(substring(row.names(geno_mt_reorder), 7))

plotQtl(pos = pos, 
        pvalue = pvals, 
        chr.name = "chr_01",
        ymax = 11,
        threshold = 3)
QTL mapping

我们可以从中看到一个非常显著的峰,里面的基因中就有一个碰巧是水稻里的绿色革命基因,sd1 LOC_Os01g66100 物理区间是 38382382-38385504,距QTL最显著位置只有258kb的距离,对于一个只有172个个体的F2群体而言,结果是不是已经很不错了。


版权声明:本博客所有文章除特别声明外,均采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 (CC BY-NC-ND 4.0) 进行许可。

扫码即刻交流
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容