Hi-C数据质控原理

作者:ahworld
链接Hi-C数据质控原理
来源:微信公众号-seqyuan
著作权归作者所有,任何形式的转载都请联系作者。

Hi-C数据质控原理-视频

Hi-C文库的插入片段是经过酶切连接的片段,其测序数据的比对和有效数据的筛选比较特殊。这个视频重点介绍了以下3个方面:

  • Hi-C实验建库原理
  • Hi-C数据的比对策略
  • Hi-C文库的分子类型

Hi-C实验建库原理

Hi-C实验建库原理的部分重点介绍了什么样的实验建库原理导致了"PE测序的Reads1 Reads2分别来自不同的基因组酶切片段才符合Valid Pair Reads特征"

Hi-C数据常用的数据质控软件HiC-Pro的主要分为:Alignment和Map2Fragment两个主要步骤。

Hi-C数据的比对策略

在这一部分重点介绍了以下4点内容:

  1. Reads1 Reads2分别比对到基因组
  2. 挑选R1、R2分别比对到基因组唯一位置的PE Reads进行后续分
  3. Hi-C文库是junction类型,对于跨LS site的Reads有提高比对率的比对策略设计
  4. 建议在平衡unique map 和multiple map的情况下用比较短的Reads进行比对(避免Reads跨过ligation site)

Hi-C文库的分子类型

这一节主要讲了,对来源于相同酶切片段的PE Reads进行细分统计,有利于我们改进Hi-C实验条件,实现Valid reads比例的提升。Dangling 太高可能是由于连接步骤不好,导致后面步骤末端生物素没有去除干净等原因

对map到不同酶切片段的Pre Valid Pair Reads再进行严格质控是Dumped reads pair的主要来源。具体的严格质控点包括:

  1. R1/R2 所在的Fragment1/Fragment2 大小不符合设定范围
  2. Prediction insert size不在设定的参数范围

“R1和R2比对到同一条染色体的情况,R1与R2比对位置之间的线形距离过小”的情况该不该被去除?,如果想去除选择设置哪个参数?

Re-Ligation是什么?怎样产生的?

Hi-C文库的PCR Dup应该怎么处理?为什么需要处理。

如果对这些问题感兴趣,欢迎观看视频。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 来源: 三维基因组Magic [三维基因组Magic](javascript:void(0);) 2017-11-...
    caokai001阅读 13,704评论 5 31
  • 基于Hi-C数据的深层挖掘和多组学联合分析已经成为了三维基因组领域的重要组成部分。而工欲善其事必先利其器,夯实基础...
    Ray钱阅读 14,654评论 0 35
  • SAM(The Sequence Alignment / Map format)格式,即序列比对文件的格式,详细介...
    oddxix阅读 5,684评论 0 1
  • 姓名:汤晶 公司:常州新日催化剂有限公司 【日精进打卡第35天】 【知~学习】 《六项精进》0遍 共177遍 ...
    晶晶_7485阅读 803评论 0 0
  • 相信很多人都做过自我介绍,但是大多情况下,很多人都羞于对站在人多的地方向大家介绍自己,第1个不知道怎么去开口介绍自...
    坚持坚持再坚持00阅读 1,521评论 0 2