群体遗传学习笔记-基因型缺失数据的填充

Genotype Imputation是在高通量测序中常出现的定义，按照义译就是基因型填充。要真正理解imputation这个概念，我们就需要先理解基因型缺失（genotype missing）。

基因型缺失的定义

在重测序类的技术中，有一个关键的因素，就是测序数据对基因组的覆盖度，在上一章测序技术里面有提到。样本中没有被测序数据覆盖到的区域，基因型就属于未知的，我们将之称为缺失位点。例如下图中的个体是二倍体，在21个位点中仅有3个位点被检测到，其他标注为“.”的位点都属于缺失位点。

具体来说，基因型数据的缺失又分为遗传性缺失和检测性缺失。前者是个体遗传信息的变异（例如，这个位点DNA片段真实缺失）导致的基因型缺失。而后者，则是由于检测技术的局限、错误等导致的信息丢失。各类基因型检测技术都会产生检测性的基因型缺失。但我们要认识一点，基因型缺失是相对概念，如果缺失是“无”，那么肯定是和“有”比较出来的。

常见的描述为缺失（missing）的情形包括：这个基因位点在群体中其他样本上（可以是部分样本）检测到了，而在A样本中没有检测到，就认为这是A样本缺失位点。这个位点理论上该被检测到（例如，SNP 芯片中有探针覆盖的位点）而实际上没有被检测到，也会被定义为缺失位点。这个基因型在A技术中可以检测到，但B技术检测不到，那么也可以被定义为缺失。

下面我们罗列一下各类技术的缺失来源。

1.全基因组重测序技术

全基因组重测序理论上应该覆盖整个基因组，因此未覆盖的区域都可以被定义为缺失。那么群体研究中的低深度测序（一般平均深度低于10X），不可避免会产生大量随机缺失。

2.简化基因组测序

简化基因组测序是通过酶切，并富集限制性内切酶周边的片段并进行测序的策略。针对简化基因组，我们称的缺失一般指的是没有被检测到的酶切片段相关的位点。简化基因组的缺失，主要与酶切效率有关。酶切效率越高，缺失率越低。

3.外显子测序以及目标区域捕获测序

同简化基因组测序类似，基于探针杂交的DNA捕获以及测序技术，同样会产生大量的缺失。这种缺失主要是由于探针杂交捕获的效率所致。

4.SNP芯片

SNP芯片利用芯片杂交后的荧光信号，来判断某个位点的基因型。SNP芯片同样也会产生大量缺失。但在实际的研究中，SNP 芯片主要面临的问题是芯片型号不同，甚至来源不同的厂商，那么芯片中包含的SNP位点也不同。当来源不同的数据一起分析的时候，将面临数据不一致的问题。简单说来，就是你有的我没有，我有的你没有。如下图，Affymetrix和illuminate两大SNP 芯片厂商生产的人类芯片就使用的是不同的SNP集，当放在一起分析的时候将面临SNP不一致的问题。

最后，再次强调基因型缺失是1个相对性的概念。以上缺失的概念都是针对同种技术的比较。不同的技术比较，也可以定义为缺失。例如，同样一份样本，我们使用全部以上4种技术检测。如果以全基因组高深度测序（>30X）为参照标准，后续的3种技术都有大量位点没有检测到，处于基因型缺失的状态。

缺失的判断也有很简单的计算方法，就是缺失率（missing rate）。这个评价又分为样本水平的缺失率和位点水平的缺失率。例如下图，0、1、2 分别代表三种检测到的基因型，图中缺失位点使用“？”表示。那么样本1的缺失率=20%（总体10个位点，有两个位点缺失），而位点2的缺失率=60%（总体5个位点，有3个位点缺失）。

基因型缺失的影响

基因型缺失最直接的影响就是这个位置的信息缺失，从而影响下游分析（包括遗传图谱构建，QTL定位，选择压力分析，GWAS分析等）的信息完整性和准确性。例如，（b）中红色的点是（a）中缺失的位点。而与性状关联的SNP位点，恰恰位于虚线所在的区域内。这些显著位点在（a）中是缺失的，所以（a）没有检测到关联信号，从丢失了非常关键的信息

所以，基因型缺失最大的风险就是信息丢失。基因型缺失对GWAS分析、选择压力分析影响都比较大。这类研究中，重测序技术相比其他三种技术，最大的优势就是信息完整。

但某些研究对标记密度要求不是那么高，缺失的影响则较小。例如，对于遗传图谱类构建，通常几千个标记就足以保证检测所有的染色体重组事件。而简化基因组测序通常可以获得数万个标记，我们通常会将高缺失率的位点直接过滤放弃，只保留剩余的高质量的低缺失率位点（通常依然有几千个）用于下游分析，保证重组率计算的准确性。

应对数据缺失的方法——基因型填充

尽管基因型缺失有种种不利影响，但我们却无法完全避免，只能使用生物信息的策略，来减少缺失的影响。这个方法就是基因型填充（imputation）。

Imputation英文的原意应该是归罪、归属。而imputation在这里指代的意思是对这个位点的基因型规律进行总结，然后对缺失位点归到某类中，赋予其一个最可能的基因型。所以，我将之称为缺失填充。常见imputation的基本逻辑包括两步：

从目标位点/区域非缺失的位点中，总结这个区域的基因型规律，并分类。其实就是分析各个区域的单体型组成。
根据某样本缺失位点的上下其他非缺失位点，判断这个区域属于哪种单倍型。然后根据所属单倍型的基因型补充该样本的缺失位点。

其原理：基因型填充的最初构想基于家系样本的遗传特性。具有已知亲缘关系的个体之间具有共享的单体型（haplotype），这些由有限个遗传标记所构成的单体型随祖先一起遗传，反映连锁不平衡。

因此，在具有相同单体型的家系中，遗传标记少的样本可以参照遗传标记多的样本进行基因型填充。对于没有亲缘关系的样本，以上理论也基本适用，主要的差别在于无血缘关系的样本之间共享的单体型比家系样本之间的要短很多。对无亲缘关系样本进行基因型填充需要一个高密度遗传标记构成的单体型图谱作为参照。通过对比待填充样本和参考模板，找到两者之间共有的单体型，然后就可以将匹配上的参考模板中的位点复制到目标数据集中。

在图a中，那个有大量缺失基因型的个体就是图1中的个体。图中下半部分由多个个体构成的参考单倍型集（reference haploypes）。这些参考集的基因型都是完整的。从这些参考数据集中，我们可以推断整个群体的单倍型构成。然后，根据缺失样本有限的基因型信息（仅有3个位点），就可以判断这个样本与参考单倍型集中的哪种单倍型最为相似（图中分别对应紫色、绿色、黄色三种单倍型）。然后，将对应的最相似的单倍型赋予给该样本，从而让该样本获得完整的基因型，图b

基因型填充常用软件

目前,随着计算生物学和生物信息学的发展,有很多算法和软件都有能力完成基因型填充的任务。

这些方法基本可以分为两大类：

（i）计算密集型,比如IMPUTE、 IMPUTE2、MACH、和fastPHASE/BIMBAM。这种类型的方法在填充的过程中充分考虑到全部可以观察到的基因型信息，使得对缺失值的估算更加精确；但以上大部分软件都是针对人类的开发的。人类种群的遗传特性是个体杂合率较高、近交率低、系谱关系来源随机。很多植物，尤其作物的遗传特性则和人类相反。以玉米为例，玉米在育种过程中，会伴随大量的自交，因此纯合度较高，而且系谱关系（杂交方式）往往可控。以上针对人类学开发的软件就未必适用了。如果是遗传特性与玉米类似的植物的GBS数据，可以采用Tassel中包含的imputation模块。

（ii）计算高效型，比如PLINK、TUNA、WHAP和BEAGLE。此种算法仅仅关注与特定位点相邻的一小部分标记的基因型，因此在计算上更加快捷。表1列出了4种常见的基因型填充软件的特性

小结

对于人类的遗传研究，由于其条件与研究已经非常充分，缺失数据填充是很有必要的一步。对于其他物种，在允许的条件下，可以借助GBS或者一些测得比较好的SNP数据库去填充缺失的数据，如果条件不理想且自身杂交比较复杂，这步可以跳过。

转自整理于：奥迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html

群体遗传学习笔记-基因型缺失数据的填充