从业多年,在人类线粒体分析时遇到的几个坑,在此分享一下,共同进步。
1.版本问题
线粒体参考基因组一直以来都有两个版本,两个版本之间大小相差2bp,注意这2bp并不是简单的差异2个碱基。
- 16569bp版本,https://www.ncbi.nlm.nih.gov/nuccore/NC_012920
又称修订的剑桥版(rCRS),目前行业最多使用的版本,大部分的数据库,比如MITOMAP,依据的是这个版本。在其修订过程中发现其实应该是16568bp,为了保持历史数据统一,在nt3107位置补了一个N来占位(这个N很闹心,经常需要解释)。 - 16571bp版本,https://www.ncbi.nlm.nih.gov/nuccore/NC_001807.4?report=genbank
又称NCBI版,较少使用的版本,但UCSC的hg19参考基因组用的是这个版本,没有改成rCRS版本(所以最好挑选rCRS版本的参考基因组,或者自己替换)。
2.核基因同源问题
线粒体mtDNA与核基因nuMTs之间存在同源相似区,部分同源区的相似程度可达100%,已有文献研究表明在做全基因组比对时,随着读长、测序模式的不同,会造成不同程度的覆盖率缺失,影响后续突变寻找。
文献链接: https://pubmed.ncbi.nlm.nih.gov/31612134/
因为这个问题的存在,选择全染色体作为参考基因组还是仅使用线粒体作为参考基因组是一个需要考量的问题。
怎么选?
细胞里的线粒体拷贝数量很多,在WGS测序数据中,一般线粒体的深度约是常染色体的50-100倍(和细胞类型关系密切,比如肌细胞的线粒体深度可能远远超过这个倍数)。照此推断核基因同源区的影响占比可能在1-2%左右,如果仅使用线粒体作为参考基因组,这部分数据肯定是会误比对到线粒体上的;但如果使用完整的参考基因组,又会因为同源性问题丢失部分判断不了来源的数据,所以怎么选择还是和项目具体需求有关。
- 如果追求准确,不在意数据量丢失,使用完整参考基因组
- 如果追求比较好的深度覆盖,不在意那1%的影响,使用单独线粒体参考基因组
3.线粒体结构问题
线粒体是环状的,虽然从参考基因组序列上看不出来,但是实际上第16569bp和第1bp是连着的。对于比对软件来说,会造成“半截比对”的现象,即只能选择头或尾其中一个位置,且一条read只有部分能比对上,剩余部分会被判定为soft clip,导致头尾的深度会下降,损失部分数据量。
怎么办?
还是那句话,选择和实际项目情况紧密相关,如果你深度足够深,不在意这点损失的话,可以不去理会。此外,也有公司推出了一些解决方案,比如搞一个16569+前80bp的16649bp版本基因组用于比对。
文献链接:https://pubmed.ncbi.nlm.nih.gov/34769461/
软件链接:https://github.com/filcfig/PCP
因为本人尚未测试,所以暂时没有试用结果和结论。