2020-09-28

功能基因定位的方法:QTL定位(包括GWAS)和群体遗传(选择压力分析)

广义的QTL包括连锁分析关联分析。

首先介绍连锁分析:

1、连锁分析的基本原理:

   连锁分析,之所以被称为“连锁分析”,其本质还是利用功能基因与分子标记间的连锁与重组,实现对功能基因位置的定位。

例如下图中,Q基因型会导致个体变高,q基因型会导致个体变矮。我们可以看到,邻近的基因座Bb与Qq基因座连锁。B总是与Q连锁,导致B基因型的个体总是更高,对应b基因型的个体更矮。而远离Qq基因座的Ee基因座则没有这种现象。由于两者距离较远,彼此间没有必然的连锁关系(倾向自由重组),因此我们可以看到E基因座对应的既有高的个体,也有矮的个体。

在实际研究中,这些分子标记ABCDE都是位置已知的标记,但我们不知道Qq基因座的位置。如果通过数学的方法,我们发现Bb、Cc基因座与性状高矮相关,而其他基因座并非如此,我们就可以确定功能基因Qq就位于Bb和Cc之间。

2、最简单的连锁分析的方法(单标记分析

正如上文所说的,我们需要挖掘确认哪些分子标记与性状关联,从而进一步推断影响性状的功能基因与这类分子标记连锁,从而判断功能基因位于该分子标记附近。在统计学上,我们使用最简单的方差分析,也可以实现这样的推断。

如图2,我们可以将整个群体按照Bb基因座的基因型分为BB基因型群体和bb基因型群体的两个子群体。如果我们使用方差分析证明子群体BB的平均身高显著大于bb,则证明Bb基因座与性状相关。类似,我们将会发现按照Ee基因座分类的两个子群体在平均身高上则没有区别。这样我们就可以推断,由于Bb基因座与性状相关,那么决定身高的基因座Qq应该位于Bb附近,这样就实现了QTL初步定位。


3、略为复杂的连锁分析的方法

再看看图1的示意图,我们是否可以将其看成1个线性回归方程组:

身高 = u+A*GT_A+B*GT_B+C*GT_C+D*GT_D+ E*GT_E

#方程1

其中u为群体均值(也就是方程的截距),系数A是A基因座的遗传效应,GT_A是Aa基因座的基因型,可能是aa、Aa、AA,当然数学上可以使用0,1,2替代。其中,系数A、B、C、D、E都是待求解的变量。

如果求解这个多元线性方程组,我们将发现A、D、E均为0(效应为0),而B、C则显著大于0,则一样推断Bb和Cc基因座对身高是有贡献的。那么,它们为什么对身高有贡献呢?因为它们与功能基因连锁啊,由此我们知道了功能基因的初步位置。这就是QTL定位中的线性回归模型。

4、实际使用的简单线性模型(区间作图定位法

以上的方程组在实际情况中,将可能会面临自变量的数量(标记数量)大于因变量(样本数),那么这个方程是不可准确求得唯一解的。所以,通常会将多元线性回归方程简化为一元线性回归方程组。例如,针对Aa基因座,我们可以构建一个方程组如下:

身高 = u+A*GT_A+e # 方程2

其中,e是随机误差效应。那么在这里的案例中,方程1就可以拆解为针对5个不同分子标记的方程2,从而一一求解每个标记/区间的效应。因为,这只是个简单的一元线性回归方程,求解起来是非常简单快速的。

这就是在连锁分析中常用的区间作图定位法(interval Mapping)的基本原理。

5、实际应用最广的线性回归模型(复合区间作图定位

实际应用最广的线性回归模型为复合区间作图定位(Composite interval Mapping)。单标记分析虽然效率很高,但却可能会带来误差,例如遗传背景的不均一给目标位点效应判断带来误差。

例如下图,个体A和B有三个QTL位点的差异。假设红色的基因型相比褐色的基因型可以将个体的高度提高10厘米。现在我想计算标记Marker1的效应,如果我们只考虑单一标记Marker1的效应(使用方程2),最终我们计算的结果以为A个体 30厘米的身高优势都来自Marker1的差异,就误把Marker1的效应计为30厘米(高估)。

但如果我们使用多元线性回归分析,将Marker2和Marker3并入方程组,在方程组中统一考虑它们的效应,那么对Marker1效应的估算将会更加准确(三个标记效应都是10厘米)。


在实际情况下,那些被忽略的背景标记效应会对单标记分析模型带来各种假阳性和假阴性的情况,所以背景标记的效应是必须被考虑的。

但目前的高密度遗传图谱,标记数量成百上千个,如上文提到的,如果每个标记效应都被并入方程,那么使用标准的方法这个方程组是无法求解的(方程1)。所以,在经典的复合区间作图定位中,采用了一个折中的方式,大体步骤如下:

a)使用单标记回归以及逐步回归的方法,从整个基因组中筛选若干个(例如10个)效应最强的标记。

b)在计算某个标记(区间)效应的时候,将其他区域效应最强的那些标记整合入方程组中,如以下方程式:

身高 = u+A*GT_A+[ B*GT_B+… …+ K*GT_K]+ e

# 方程3

在方差3中,未知变量一共有11个(A~K标记的效应),只要个体足够多这个方程还是可以求解的。其中目标标记是A(我们期望算出它们的效应)。B~K就是基因组其他区域的效应最强的标记,虽然我们暂时并不关心它们具体的效应,但将它们引入方程会让我们对A的效应估算更准。我们将B~K标记这种并非我们直接关心,但和自变量(A 标记)一样,同样对因变量(身高)有影响的标记称为协变量(covariant)。

所以,目前某些同行公司使用区间作图模型进行连锁分析,实际上是不对的。对于数量性状,只有使用考虑协变量的模型(例如复合区间作图)才是合理的方法。

6、一些重要的概念

LOD值:这个p value的概念略有不同。P value是这个位点不存在QTL的概率。而LOD=log10(L1/L0),其中L1是这个位点有QTL的概率,L0是这个位点无QTL的概率。如果LOD=3,则意味着这个位点有QLT的概率是无QTL的概率的1000倍。

2-LOD置信区间:QTL定位的结果是1个LOD值在染色体上变化的波形图(如下图),QTL区域的LOD值会形成一个信号峰。功能基因理论上就位于信号最强(LOD值最大)的峰尖附近。但功能基因通常只是位于这个区间内,而不是必然位于峰尖。离峰尖距离越远的位置,LOD值不断下降,功能基因位于该位置的概率越低。

为了便于后续研究中筛选候选基因,我们通常会设置一个范围筛选候选基因。一般经验值会使用2-LOD置信区间。这个名词的意思就是LOD波动曲线从峰的最大值降低2的时候(Y轴),对应在遗传图谱上跨越的区域(X轴)。2-LOD置信区间大概对应99.8%的置信区间,即功能基因有99.8%概率已经落在这个区域内了。

1-LOD置信区间也是类似的概念,对应的置信区间大概是97%。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342