根据测序数据的类型和样本的群体可以分为如下的类型:
| 方法 | 分析软件 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 统计Phasing | (SHAPEIT4, Eagle2) | 无需额外实验成本;利用群体信息,对稀疏基因型数据效果好 | 精度依赖于群体大小和结构;在 singleton 变异上可能不可靠 | 大规模群体研究(如UK Biobank);基因芯片数据或低覆盖度WGS |
| 读长Phasing | (WhatsHap) | 精度高,是黄金标准;不依赖群体信息 | 受读长长度和覆盖度限制;可能需要更昂贵的测序技术 | 三代测序数据;10x Genomics等链测序数据 |
| 家系Phasing | (SHAPEIT4, DuoHMM) | 精度最高 | 需要父母/子女的测序数据 | trio(父母-子)家系设计; |
常用的基因型填充工具beagle V5在进行基因型填充时会自动计算单倍型。
shapeit5: Segmented HAPlotype Estimation and Imputation Tool
SNP分型
OutcrossSeq
https://github.com/xhhuanglab/OutcrossSeq
https://mp.weixin.qq.com/s/GH5JN6ofU7KA-SLEQcLYYw