- 背景基因
与所研究的表现型直接有关的基因以外的全部基因的总称
- LD :
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)
LD 衰减距离相关解释(https://www.jianshu.com/p/a36bd4145ef7)
单体型块图(LD bolck)(https://www.omicshare.com/forum/thread-1201-1-1.html)
- 质量性状与数量性状
质量性状指相对性状的变异呈不连续性,呈现质的中断性变化的性状。由1对或少数几对主基因控制。如鸡羽的芦花斑纹和非芦花斑纹、角的有无、毛色、血型等都属于质量性状。
数量性状指相对性状的变异呈连续性,个体之间的差异不明显,很难明确分组。受微效多基因控制,控制数量性状的基因称为数量性状位点(quantitative trait loci, QTLs).在QTLs中, 基因的效应也有大有小。其中, 效应较大的称为主效QTL, 效应较小的称为微效QTL(或微效多基因)。动植物的许多重要经济性状都是数量性状,如作物的产量、成熟期,奶牛的泌乳量,棉花的纤维长度、细度等等。
但是,生物的许多性状并不是绝对的质量性状或数量性状, 多数表型介于两者之间,同时受到主基因和数量性状位点(QTLs)的控制。水稻包穗性状就是受到主基因和数量性状位点的共同控制。
- 关联分析和连锁分析
关联分析是以连锁不平衡(linkage disequilibrium, LD)为基础的。连锁不平衡是不同基因座位上等位基因的非随机组合。
1、连锁采用家系样本;关联采用散发样本
2、连锁应用LINKAGE核心IBD算法做计算;关联用卡方检验计算2组,找到相关行
3、连锁一般找到的是某个区域;关联找到的是某个点
4、连锁结果相对准确,假阳性小,但精细定位很困难,主要原因是家系问题。关联相对粗糙,假阳性很高,但可以直接定到基因位点
这里还有一个对于在人类疾病中的相关解释(https://huans.github.io/2017/12/18/QTL/)
- BLUP
最佳线性无偏预测(best linear unbiased prediction, 简称BLUP),是统计学上用于线性混合模型对随机效应进行预测的一种方法。随机效应的最佳线性无偏预测(BLUP)等同于固定效应的最佳线性无偏估计(best linear unbiased estimates, BLUE)
BLUP(best linear unbiased prediction)在育种中是指根据多次观测的结果,使用线性无偏估计的方法,去掉环境差异的影响,估计出由遗传因子决定部分,估计出的值我们常称为育种值(Estimated breeding value,EBVs),相比于均值,EBVs去除了环境差异导致的差异,所以更能代表该性状。但如果我们需要考虑基因型与环境互作时(G by E),则应该用多年多点观测的结果分别分析然后综合比较。
其他相关解释
关于BLUP方法的几点说明
动物育种核心算法BLUP介绍(公式版)
- 基因型分型
基因型分型(英语:genotyping)是一个通过生物检定法检测某一个体的DNA序列,并对比参照其他个体的基因型或序列的过程,可用于显示该个体等位基因从其父母遗传而来的情况. 通常,基因型分型利用DNA序列定义群体信息,而不涉及定义该个体的基因。
- 遗传力
遗传力又称遗传率,指遗传方差在总方差(表型方差)中所占的比值,可以作为杂种后代进行选择的一个指标。遗传力分为广义遗传力和狭义遗传力。数量性状受到环境因素的影响很大,那么表型的变异可能有遗传的因素,也有环境的因素,甚至还有环境和遗传相互作用的因素。
性状影响
例如15℃时基因型AA的植物平均高度为40cm,而基因型Aa型的植物仅有35cm高;但是在30℃时情况就不同了,AA植株的平均高度为55cm,而Aa型植株反长得更高,为60cm。同一种基因型在不同的温度下表型不同,这一变异是由环境引起的,所产生的方差称环境方差(VE);在同样的温度下,不同基因型的高度不同,这一表型变异是遗传因子所引起的,所产生的方差称遗传方差。在任何的温度下,植物的表型既受到温度的影响,又受到遗传因素的影响,这种影响产生的方差称环境和遗传的协方差。
表型是由遗传和环境共同作用的结果,可以下式表示。
P=G+E
遗传力
若以方差表示:
对于一个表型的变异究竟是遗传因子起主要作用还是环境因子起主要作用呢?为了解答这个问题人们又引入一个概念叫遗传力(heritability)。遗传力表明某一性状受到遗传控制的程度。它介于0与+1之间,当等于1时表明表型变异完全是由遗传的因素决定的,当等于0时表型变异由环境所造成。
- REML 方法
- 哈迪-温伯格定律
“哈迪-温伯格定律”是指在理想状态下,各等位基因的频率在遗传中是稳定不变的,即保持着基因平衡。该定律运用在生物学、生态学、遗传学。条件:①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变。
例如:当等位基因只有一对(Aa)时, 设基因A的频率为 p,基因a的频率为q,则A+a=p+q=1,AA+Aa+aa=p2+2pq+q2=1 。哈迪-温伯格平衡定律(Hardy-Weinberg equilibrium) 对于一个大且随机交配的种群,基因频率和基因型频率在没有迁移、突变和选择的条件下会保持不变。
- 协方差
协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
- eQTL
首先 QTL 是数量性状位点,比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状位点,而eQTL就是控制数量性状表达位点,即能控制数量性状基因(如身高基因)表达水平高低的那些基因的位点。
数量性状基因座:控制数量性状的基因在基因组中的位置称数量性状基因座。常利用DNA分子标记技术对这些区域进行定位,与连续变化的数量性状表型有密切关系
表达数量性状基因座(expression Quantitative Trait Loci,eQTL)是对上述概念的进一步深化,它指的是染色体上一些能特定调控mRNA和蛋白质表达水平的区域,其mRNA/蛋白质的表达水平量与数量性状成比例关系。eQTL可分为顺式作用eQTL和反式作用eQTL,顺式作用eQTL就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;反式作用eQTL是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。
eQTL就是把基因表达作为一种性状,研究遗传突变与基因表达的相关性: 就好像研究遗传突变与身高的相关性一样。
早年可以通过同时做一个个体的SNP芯片和cDNA芯片, 在全基因组尺度研究突变与表达的相关性, 这种研究需要较多个体(例如1000个); 现在随着深度测序的出现,很多人开始用RNA-Seq在较少量个体中研究allele-specific expression,本质上就是eQTL。
简单地说, 遗传学研究经常发现一些致病或易感突变, 这些突变怎样导致表型有时候不太直观; 所以用某个基因的差异表达作为过渡: 突变A-->B基因表达变化-->表型;
- 置换检验(Permutation test)
- 串联重复序列
串联重复序列是指以相对恒定的短序列为重复单位,首尾相接, 串联连接形成的重复序列,又称卫星DNA (satellite DNA)。在人类基因组中,串联重复序列约占10%,主要分布在非编码区, 少数位于编码区。编码区中的串联重复序列与功能有关,非编码区串联重复序列多分布在间隔DNA或内含子,重复单位短的仅2bp长的可达数十碱基对,重复次数少则数次,多则几百次。重复序列的重复次数不同,是形成DNA长度多态性的基础。按重复序列的长度和序列特征分成大卫星DNA、小卫星DNA和微卫星DNA等主要类型。