文献学习01:DNA重复区域和二代测序

粗读了文章中的几张图片,整理笔记如下。

DNA重复

人类基因组包含大量DNA重复区域:

这些重复区域在染色体上分布情况如下:

重复区域的比对

虽然一个基因可能有多拷贝,当拷贝之间可能存在一定的差异。下图中,X_1, X_2表示两个拷贝,两者相似度100%。Z_1, Z_2是相似度只有70%的两个拷贝。

当reads比对到这些重复区域时,如果一个reads存在多个等同的多比对,则认为可信度非常低(A图红色)。如果多比对之间存在一定差异,则得分高的比对位置可信度越高(A图蓝色)。

比对可能引起假阳性(B图)。位置a和b均只有1个错配,如果gap罚分高于mismatch,则a得分高,则比对工具认为序列比对到a位置。但可能该reads实际来自于b位置。

多比对定量

多比对发生时,reads处理方式有3种:

  • reads剔除,不纳入统计;

  • reads分配给得分最高的位置。如果存在多个得分最高的位置,随机选择一个位置分配;

  • reads同时分配给多个位置。

DNA重复单元给组装带来挑战

下图描述DNA重复单元引起的组装错误。方块A、B、C、D分别表示4个DNA片段,R1和R2表示两个重复。

以A图为例,Ab表示实际情况,Ac表示重复引起的错误组装。

图B和C同理。

组装需要长读长

参考资料

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。