1092个人类基因组遗传变异的综合图谱（千人基因组计划）

这次分享的是1000基因组项目联合会在2012年发表在Nature (IF:49.962, 2020) 上的文章An integrated map of genetic variation from 1,092 human genomes。

摘要

通过描述人类遗传变异的地理分布和功能的图谱，1000基因组项目旨在建立一个资源，帮助了解遗传对疾病的贡献。在这里，我们描述了来自14个群体的1092个个体的基因组，它们是使用低覆盖率全基因组和外显子组测序的组合构建的。通过开发整合多种算法和不同数据源信息的方法，我们提供了经过验证的3800万个单核苷酸多态性的单倍型图，1400万个短插入和缺失，以及14000多个较大的缺失。我们发现，来自不同群体的个体具有不同的稀有和常见变异特征，而低频变异表现出显著的地理差异，这一差异通过纯化选择的作用进一步增强。我们表明，进化守恒和编码结果是纯化选择强度的关键决定因素，稀有变异负载在不同的生物途径中差异很大，每个个体在保守位点包含数百个稀有非编码变异，例如转录因子结合位点的模体破坏性变化。该资源在相关人群中以1%的频率捕获了高达98%的可访问单核苷酸多态性，能够分析来自不同人群（包括混合人群）的个体的常见和低频变异。

最近，通过对外显子和全基因组进行测序来绘制人类遗传变异图的努力，已经刻画了基因组中绝大多数常见单核苷酸多态性（SNPs）和许多结构变体的特征。然而，尽管在1000基因组项目的试点阶段发现了95%以上的常见（>5%频率）变异，但较低频率的变异，特别是编码外显子组以外的变异，仍然很难进行定性。在弱纯化选择条件下，低频变异因潜在的功能突变而丰富，例如，蛋白质改变的变异。此外，由于低频变异往往起源于最近，它们表现出更高的群体分化水平。因此，在一系列人群中对这些点突变和结构变化的变体进行表征，可能会识别出许多具有功能重要性的变体，并且对于解释单个基因组序列至关重要，例如，有助于将共有变异从家族私有的变异中分离出来。

我们现在报告了来自欧洲、东亚、撒哈拉以南非洲和美洲的14个种群的1092个个体的基因组，通过低覆盖率(2-6×)全基因组序列数据的组合分析，靶向深度(50-100×)外显子组序列数据和密集SNP基因型数据(表1)。试验第二阶段表明，除了最罕见的SNP和短插入缺失(indel)变异外，这种设计在发现和基因分型方面是强大而经济的。在这里，该方法得到了统计学方法的增强，从使用多种算法获得的候选变量中选择更高质量的变体调用，并在单一框架内整合SNP、indel和更大的结构变体(见BOX1)。由于在低复杂性区域识别大而复杂的结构变体和较短的INDEL的挑战，我们关注保守但高质量的子集：双等位基因INDEL和大片段缺失。

BOX1 构建一个综合的变异图
1000基因组计划作为第一阶段发布的1092个单倍型解析基因组，是几个中心在2008年至2010年期间从多种技术中收集不同数据的结果。BOX1中图描述了从原始数据生产到集成单倍型的过程。

a、不相关的个体（例外情况见补充表10）从更广泛的地理区域或基于祖先的群体2内的相关人群（Wright'sFST通常为1%）中以100人为一组进行抽样。为每个样本生成的原始数据包括低覆盖率（平均53个）全基因组和高覆盖率（平均803个，跨越超过15000个基因的24MB一致目标）外显子组序列数据，以及高密度的序列数据。b、在读取对齐之后，使用多种算法来识别候选变体。对于每个变体，获得了质量度量，包括关于周围序列唯一性的信息（例如，映射质量（map.qual.））、支持该变体的证据质量（例如，基础质量（base.qual.）和变异碱基在读取中的位置（读取位置）），以及种群中变异调用的分布（例如，近交系数）。使用这种多维信息的机器学习方法在一组高质量的已知变异（例如，高密度 SNP 阵列数据）上进行了训练，允许对变异位点进行置信排序，并随后设置阈值以确保低 FDR。c、在每个位点的每个样本中，都有一个等位基因位点（变体的0、1或2个拷贝）的存在。d、在外显子组数据中，统计方法可用于利用连锁不平衡模式的信息，从而推断单倍型（和基因型）。

总的来说，我们发现了3800万个单核苷酸多态性并对其进行了基因分型，140万个双等位基因缺失和14000个大的缺失（表1）。使用多种技术验证一组频率匹配的位点，以评估和控制所有变异类型的错误发现率（FDR）。在结果明确的情况下，185个外显子组位点中有3个（1.6%）、281个低覆盖率位点中有5个（1.8%）和3415个大片段缺失中有72个（2.1%）无法验证。发现初始indel calls具有较高的FDR（76个中有27个），这导致应用了进一步的过滤器，留下5.4%隐含的FDR。此外，对于2.1%的低覆盖率SNP和18%的indel位点中，我们发现了不一致或不明确的结果，这表明在表征低复杂度基因组区域的变异方面仍然存在重大挑战。我们之前描述了“可访问基因组”：参考基因组中短读数据可以导致可靠变异发现的部分。通过更长的读取长度，可访问部分从试点阶段的85%增加到94%（作为基因组注释提供），以及170万个试点阶段的低质量SNP已经被淘汰。

通过与外部SNP和高深度测序数据比较，我们估计，在研究样本中，频率为1%的SNP的检测能力在整个基因组中为99.3%，在一致的外显子靶点中为99.8%(图1a)。此外，在这项研究中，以0.1%的频率检测SNP的能力在外显子组中超过90%，在整个基因组中接近70%。在杂合子位点上，单个基因型调用的准确率对于普通SNPs大于99%，对于0.5%频率的SNPs大于95%(图1b)。通过整合连锁不平衡信息，从低覆盖率的数据中获得的基因型与从高深度外显子组数据中获得的snp的频率一样准确。对于非常罕见的SNPs(#0.1%，因此存在于一个或两个副本中)，结合连锁不平衡信息并不能提高基因型的准确性，因此准确性较低。样本间基因型准确性的差异主要是由测序深度(补充图3)和测序平台和版本(主成分分析可检测;补充图4)，而不是由人口水平特征。通过与样本子集中收集的母亲-父亲-后代三组SNP数据的比较，估计了在普通SNP上推断的单倍型的准确性。这表明平均每300-400 kb就会产生一个相位(开关)错误。

图1 | 能力和精度。a，通过与外显子组(绿色)和全基因组(蓝色)中的独立SNP阵列数据进行比较，可以检测整个样本中作为变异计数(和比例)函数的SNP。b，基因型准确性与作为变异频率函数的相同SNP阵列数据进行比较，通过外显子组内真实和推断基因型（编码为0、1和2）（绿色）、单倍型整合后的全基因组（蓝色）和无单倍型整合的全基因组（红色）之间的r²比较进行总结

1000基因组项目的一个关键目标是在广泛的人群中以1%的频率识别95%以上的SNP。我们目前的资源包括_{50%、98%和99.7%的单核苷酸多态性频率在}2500个UK样本基因组中分别为为~0.1%, 1.0%和5.0%（Wellcome信托基金资助的UK10K项目），从而实现了这一目标。然而，与研究对象关系不密切的人群的覆盖率可能较低。例如，我们的资源仅包括23.7%, 76. 9%和99.3%的单核苷酸多态性频率在撒丁岛隔离人群研究（撒丁岛研究）中的~2000个基因组测序结果中分别为0.1%, 1.0%和5.0%。

群体内和群体间的遗传变异

综合数据集提供了几个种群间变异的详细视图(如图2a所示)。最常见的变异体(图2a中94%的变异体频率为5%)在项目的当前阶段之前就已经知道，并通过早期的项目绘制了它们的单倍型结构。相比之下，在0.5-5%范围内，只有62%的变异，频率小于等于0.5%的变异有13%之前被描述过。为了进行分析，人口按血统的主要组成部分分组: 欧洲(CEU(该群体和其他群体的定义见图2a)、TSI、GBR、FIN和IBS)、非洲(YRI、LWK和ASW)、东亚(CHB、JPT和CHS)和美洲(MXL、CLM和PUR)。整个样本中10%以上的变异几乎在所有研究人群中都能找到。相比之下，在0.5-5%范围内的低频变异有17%在单一祖先组中观察到，在0.5%范围内的罕见变异有53%在单一群体中观察到(图2b)。在祖先组内，常见变异是弱分化的(Wright固定指数(FST)的大多数组内估计为1%)，尽管低于0.5%的频率变异在同一人群中发现的可能性是来自祖先组的随机样本的两倍(补充图6a)。种群间的罕见变异分化程度各不相同。例如，在欧洲，IBS和FIN种群携带了过多的罕见变异，这可能通过诸如最近的瓶颈、“氏族”繁殖结构以及与不同种群的混合等事件产生。

一些常见变异在以祖先为基础的群体中显示出很强的群体差异，其中许多可能是由当地的适应直接或通过搭便车驱动的。例如，非洲群体间分化最强的是st8sia1上游的NRSF(神经元限制性沉默因子)转录因子峰(PANC1细胞系)13(衍生等位基因频率LWK2YRI在rs7960970处的差异为0.475)，其产物参与神经节苷脂生成14。总的来说，我们发现17-343个SNPs(最少=CEU-GBR，最多=FIN-TSI)在一个祖先组内的对种群之间的频率差异至少为0.25。

驱动等位基因频率分布显示出频率低于40%的群体之间的巨大差异(图2c)，例如，来自大量非洲血统(YRI, LWK和ASW)群体的个体携带的低频变异(0.5-5%频率)是来自欧洲或东亚血统群体的个体的三倍。此外，来自所有种群的个体都表现出了丰富的罕见变异(频率为0.5%)，这反映了种群规模的近期爆炸性增长和地理差异的影响。与恒定种群大小模型的预期相比，来自所有种群的个体显示出大量的高频衍生变异(>80%的频率)。

因为罕见的变种通常是新近出现的，它们的共享模式可以揭示人口历史的各个方面。在整个样本中出现两次变异（称为f₂变异），通常是最新的信息突变，53%的病例在同一人群中发现（图3a）。然而，人口之间的共享确定了最近的历史联系。例如，如果携带f₂变体的个体中有一个来自西班牙人群（IBS），而另一个不是（称为IBS-X），那么另一个个体更可能来自美洲人群（48%，校正样本量），而不是来自欧洲其他地区（41%）。在东亚人群中，CHS和CHB之间的f₂共享性（CHS2X和CHB2X变体分别为58%和53%）强于JPT，但JPT更接近CHB而非CHS（44%对35%的JPT-X变体）。在非洲祖先群体中，ASW比LWK（28%）更接近YRI（42%的ASW-X存在f₂变体），这与历史信息和基于常见SNPs的遗传证据一致。有些分享模式令人惊讶；例如，2.5%的f₂ FIN-X变体与YRI或LWK群体共享。

关于变异年龄的独立证据来自于发现它们的共享单倍型的长度。我们发现，正如预期的那样，变异频率和共享单倍型的平均长度之间存在负相关，因此携带1%频率变异的染色体共享100-150kb的单倍型（通常为0.08-0.13cm；图3b和补充图7a），尽管分布高度倾斜，最罕见SNP周围2–5%的单倍型延伸超过1兆碱基（Mb）（补充图7b，c）。单倍型阶段化和基因型调用错误将限制检测长共享单倍型的能力，观察到的长度比允许最近爆炸性增长的模型预测的长度短2-3倍（补充图7a）。然而，群体内部和群体之间共享的变异的单倍型长度是关于相对等位基因年龄的信息。在最近有共同祖先的种群内部和种群之间（例如，通过混合和大陆内部），f₂变体通常位于长期共享的单倍型上（祖先群中的中位数为103 kb；补充图8）。相比之下，在没有最近的共同祖先的人群中，F2变异存在于非常短的单倍型上，例如，Fin2YRIF2变异的平均值为11KB（不包括混合的祖先群体之间的中位数为15KB），因此可能反映复发性突变和偶然的古代结合事件。

为了分析具有大量历史混合的群体，对每个个体应用统计方法来推断具有不同祖先的基因组区域。人口和个人在混合比例上有很大差异。例如，MXL群体中土著美洲血统的比例最大（平均47%，而CLM为24%，PUR为13%），但个体之间的比例从3%到92%不等（补充图9a）。变异发现率、非同义变异与同义变异的比率以及新变异的比例在不同祖先的地区之间存在系统性差异。美洲土著血统的地区显示出较少的变异，但与欧洲血统的地区（2.6%）相比，发现的变异中有较高比例是新的（每个样本3.0%的变异；图3c）。非洲血统的地区显示出最高的新颖性（6.2%）和杂合性（补充图9b，c）。

图3 | 群体内部和群体之间的等位基因共享。a、共享off2变异，即在整个样本中，在群体内和群体之间发现两次的变异。每行代表与目标群体共享ANF2变体的样本来源在群体间的分布（由左侧指示）。灰色条表示每个群体中随机选择的基因组携带的2个变体的平均数量。b、在每个群体中共享给定频率变体的两条染色体之间的单倍型身份中位数长度（不包括隐蔽相关样本和单体变体，并允许最多两个基因型错误）。估计数来自200个随机抽样区域，每个区域1 Mb，每个变异最多15对个体。c、在推测ASW、PUR、CLM和MXL人群中具有不同祖先的地区发现的新变异的平均比例（与项目试验阶段相比）。错误条表示95%的引导置信区间。纳塔姆，美洲土著人。

人类变异的功能谱

第一阶段的数据使我们能够针对不同的基因组特征和变异类型，比较纯化选择对进化保守性、等位基因频率分布和群体间分化水平的影响。在最高度保守的编码位点，85%的非同义变异和90%以上的stop-gain和剪接中断变异低于0。频率为5%，不同频率范围内非同义变体与同义变体的比率。罕见（<0.5%）变异的非同义与同义比率通常在1-2范围内，而常见变异的非同义与同义比率在0.5–1.5范围内，表明25–50%的罕见非同义变异是有害的。然而，KEGG路径中基因组之间的分离稀有负荷变化很大（补充图11a和补充表13）。某些群体（例如，涉及细胞外基质（ECM）-受体相互作用、DNA复制和戊糖磷酸途径的群体）表现出大量过量的罕见编码突变，这与进化保守的平均程度只有微弱的相关性。显示稀有功能变体过量的途径和过程因大陆而异（补充图11b）。此外，在欧洲和东亚血统的人群中，罕见非同义变异的过量通常较高（例如，欧洲人群中ECM-受体相互作用途径负荷最强）。其他基因组（如与同种异体移植排斥反应相关的基因）在常见变异中具有较高的非同义对同义比率，这可能表明阳性选择的影响。

全基因组数据为非编码基因组中功能多态性的发生率提供了重要的见解。例如，我们考虑与转录阻遏物CTCF一致的基序，其具有良好的特征和高度保守的结合基序。在染色质免疫沉淀测序（ChIP-seq）实验确定的CTCF结合峰内，基序内的平均保守性水平与第三密码子位置相当，而峰外没有保守性（图4b）。在峰值内，遗传多样性水平通常降低25–75%，这取决于基序中的位置（图4b）。出乎意料的是，在一些简并位置，例如在motif中的位置8，多样性的减少与在非简并位置的多样性减少一样大，这表明基序简并性可能与功能重要性没有简单的关系。峰内变异表现出微弱但一致的罕见变异过度（与频率的比例，峰内0.5%为61%，而峰外58%；补充图12），支持调节序列包含大量弱有害变异的假设。

如果净化选择的强度和效果在不同群体中有所不同，那么净化选择也会影响群体分化。尽管影响程度很弱，但对于频率小于10%的变异，非同义变异始终比同义变异表现出更高的群体分化水平（补充图13）。

1000个基因组项目数据在医学遗传学中的应用

来自1000基因组项目的数据被广泛用于筛选在外显子组数据中发现的变异，这些变异来自遗传性疾病个体和癌症基因组项目。此处提供的增强目录提高了此类筛选的能力。此外，它还提供了一个“零期望”，即在不同人群中随机抽样个体中发现的具有不同功能后果的罕见、低频和常见变异的数量。

来自 1000 Genomes Project 的数据被广泛用于筛选在遗传疾病个体和癌症基因组计划的外显子组数据中发现的变异。此处提供的增强型目录提高了此类筛选的能力。此外，它为具有不同功能后果的罕见、低频和常见变异的数量提供了“零期望”，这些变异通常在来自不同人群的随机抽样个体中发现。

具有不同序列影响的变体总数的估计值与之前的值。然而，其中只有一小部分可能与功能相关。通过在保守位置（此处定义为基因组进化速率分析 (GERP) 保守评分大于 2 的位点）或功能（例如，stopgain变体）是强的并且独立于守恒（表2）。

我们发现个体通常在保守位点携带超过 2,500 个非同义变体，在保守位点携带20-40个被鉴定为破坏性的变体，以及大约 150 个功能丧失 (LOF) 变体（stopgain、编码序列中的移码插入缺失）以及对重要剪接位点的破坏）。然而，其中大多数是常见的 (>5%) 或低频 (0.5-5%)，因此这些类别中罕见 (<0.5%) 变异的数量（可能被视为病理候选）要低得多; 每个个体 130-400 个非同义变体，10-20 个 LOF 变体，2-5 个破坏性突变，以及之前从癌症基因组测序中鉴定的 1-2 个变体。

通过与同义变体的比较，我们可以估计出稀有变体的过量；那些足够有害的突变，它们永远不会达到高频率。我们估计个体携带超过 76-190 个罕见的有害非同义变体和多达 20 个 LOF 和疾病相关变体。有趣的是，低频变异的总体过剩与罕见变异相似（表 2）。由于导致疾病风险的许多变异可能以低频率分离，我们建议在使用资源识别病理候选时考虑变异频率。

表2 保守位点的个体差异负荷

变异数据与调节功能信息的结合可以潜在地提高检测病理性非编码变异的能力。我们发现个体通常在保守（GERP 保守评分>2）非翻译区（UTR）、非编码 RNA 和转录因子结合motif中包含数千个变体（和数百个罕见变体）（表 2）。在实验定义的转录因子结合位点内，个体携带 700-900 个保守motif丢失，其中 18-69 个是罕见的（<0.5%），并显示了强有力的证据来反对。motif gain较少（~保守位点每个人200个），但与没有功能注释的保守位点相比，它们也显示出稀有变异过多的证据（表 2）。其中许多变化可能对基因调控和功能产生微弱的、轻微有害的影响。

千人基因组计划数据在医学遗传学中的第二个主要用途是在现有的全基因组关联研究 (GWAS) 中估算基因型。对于常见变体，使用 I 期数据估算不在原始 GWAS SNP 阵列上的位点的基因型的准确性在非非洲（non-African）人中通常为 90-95%，在非洲血统基因组中约为 90%（图 5a)，这与使用高质量基准单倍型实现的准确度相当。尽管有关此类变异和基因型的准确性的信息不同，但对于基因间SNP，外显子SNP，Indels和大片段缺失而言，插补精度相似。对于低频变异（1-5%），估算的基因型在所有人群中具有 60% 到 90% 的准确度，包括具有混合血统的人群（也与三相单倍型的准确度相当）。

a，将全基因组 SNP、外显子 SNP 和插入缺失（使用 Illumina 1 M 阵列上的位点）插补到 10 个非洲血统个体（三个 LWK、四个来自肯尼亚 Kinyawa 的 Masaai   (MKK)、两个 YRI）的准确度，测序到高由独立技术覆盖。仅分析频率 > 1% 的高序列复杂性区域中的插入缺失。通过与数组数据比较估计的缺失精度（请注意，这是针对不同的个体集，尽管具有相似的祖先，但为了清楚起见包含在同一图上）。根据1000个基因组数据估计的频率范围内所有位点的估算剂量和真实剂量之间的皮尔逊相关系数的平方测量精度。线条代表全基因组 SNP（实线）、外显子组 SNP（长破折号）、短插入缺失（虚线）和大片段缺失（短破折号）。 SV，结构变体。 b，在 GWAS 中鉴定的焦点 SNP 连锁不平衡的平均变异数（欧洲人中 r2 > 0.5）作为与索引 SNP 距离的函数。线条表示 HapMap（绿色）、pilot（红色）和 phase I（蓝色）变体的数量。

插补有两个主要用途：精细映射现有关联信号和检测新关联。GWAS 只有少数成功精细映射到单个因果变异的例子，这通常是因为关联区域内广泛的单倍型结构。我们发现，在欧洲人中，每个先前报告的 GWAS 信号平均而言都处于连锁不平衡状态（r 2 ≥ 0.5) ，具有 56 个变体：51.5 个 SNP 和 4.5 个插入缺失。在 19% 的情况下，这些变体中至少有一个改变了附近基因的编码序列（相比之下，在与频率、到最近基因的距离和 GWAS 阵列中的确定相匹配的对照变体中，这一比例为 12%），在 65% 的情况下，至少有一个其中 GERP > 2 的站点（匹配对照中为 68%）。相关区域的大小通常小于 200 kb（图 5b）。我们的观察表明，跨种族精细映射实验可能特别有价值：在具有典型 GWAS 信号的强连锁不平衡的 56 个变体中，大约 15 个在我们的四个大陆组中表现出强烈的不平衡。与项目的试点阶段相比，我们当前的资源将每个 GWAS 信号的连锁不平衡中的变体数量增加了 25%，与 HapMap 资源相比增加了两倍以上。

讨论

孟德尔疾病遗传学中外显子组测序的成功以及在与复杂疾病相关的基因中发现罕见和低频疾病相关变异有力地支持了这样的假设，即除了上位性等因素和基因 - 环境相互作用，许多其他具有实质性影响的遗传风险因素仍有待通过对罕见变异的研究来发现。千人基因组计划产生的数据不仅有助于解释所有遗传关联研究，而且还提供了如何最好地设计和分析基于测序的疾病研究的经验教训。

此处展示了收集多种数据类型（低覆盖全基因组序列、靶向外显子组数据、SNP 基因型数据）以发现变异和重建单倍型的用途和成本效益。外显子组捕获提供了被低覆盖率数据遗漏的私有和稀有变体（样本中大约 60% 的单例变体仅从外显子组数据中检测到，而 5% 仅从低覆盖率数据中检测到）。然而，全基因组数据能够表征功能性非编码变异和准确的单倍型估计，这对于分析基因周围的顺式效应至关重要，例如由上游调控区域变异引起的效应。整合 SNP 阵列数据也有好处，例如，改进基因型估计并在已收集有关其他家族成员的阵列数据的情况下帮助进行单倍型估计。原则上，基因型信息的任何来源（例如，来自阵列 CGH）都可以使用此处开发的统计方法进行整合。

第一阶段的主要方法学进展，包括改进的变异检测和基因分型方法、用于评估候选变异调用质量的统计和机器学习方法、基因型似然性建模和执行统计单倍型整合，已经产生了高质量的资源。然而，低序列复杂性区域、卫星区域、大重复区域和许多大规模结构变异，包括拷贝数多态性、节段复制和倒置(这些构成了大多数“不可接近的基因组”)，仍然是短读技术面临的主要挑战。一些问题可能会通过方法的发展得到改善，例如更好地建模读取级别错误，集成从头组装并结合多种信息源以帮助对结构多样的区域进行基因分型。重要的是，即使数据类型、数据处理或算法的细微差异也可能导致样本之间假阳性和假阴性错误模式的系统性差异。这种差异使比较测序研究之间的基因型的工作变得复杂。此外，在异构数据集上天真地结合不同呼叫和基因型的分析很容易受到人为干扰。因此，跨多个数据集的分析必须要么以标准方式处理它们，要么使用将关联统计数据（但不是原始数据）结合到研究中的元分析方法。

最后，低频变异的分析证明了在基因组中功能相关位点纯化选择的普遍影响，以及这如何与种群历史相互作用以导致实质性的局部分化，即使当标准的结构指标如F_ST是很小。产生这种影响的主要原因是稀有变体往往是最近的，因此在地理上受到限制。这意味着对患有特定疾病的个体的罕见变异的解释应该在当地（地理或祖先）遗传背景的背景下进行。此外，它主张继续对来自不同人群的个体进行测序以表征人类遗传变异谱并支持跨不同群体的疾病研究的价值。来自 12 个新种群的另外 1,500 人，包括至少 15 个高深度三人组，将构成该项目的最后阶段。

purifying selection：纯化选择，即负选择（negative selection）。指某位点突变的等位基因对该物种的生存有害而在进化中被淘汰掉。与正选择（positive selection）互为反义。

imputation：插补、填充。基于家系样本的遗传特性。具有已知亲缘关系的个体之间具有共享的单体型（haplotype），这些由有限个遗传标记所构成的单体型随祖先一起遗传，反映连锁不平衡。

从目标位点/区域非缺失的位点中，总结这个区域的基因型规律，并分类。其实就是分析各个区域的单体型组成；
根据某样本缺失位点的上下其他非缺失位点，判断这个区域属于哪种单倍型。然后根据所属单倍型的基因型补充该样本的缺失位点；

end

1092个人类基因组遗传变异的综合图谱（千人基因组计划）