最近在梳理知识,从基本常识开始恶补。
先贴上收集的一些资料:
解螺旋的矿工
从零开始完整学习全基因组测序(WGS)数据分析:第1节 DNA测序技术
沈梦圆博客中的RNA seq
简简单单讲insertion size
链特异建库那点事
NGS测序数据的质量控制 (Quality Control,QC)
华大转录组常见问题解答
不同组学研究建议采用的测序策略
转录组分析工具大比拼 (完整翻译版)
在查资料的时候才发现自己连很多基本的概念都是不太清楚的,比如:
插入片段的大小到底是什么?为什么会有插入片段大小这种东西?
插入片段大小(insertion size)是adaptors之间的序列,并不是至R1和R2之间的unknown gap。而unknown gap则称为inner mate。
因此,insertion size小的好处就是:测序的覆盖度高,但在进行de novo 组装时,如果重复序列长于reads长度,那就无法确定重复序列的位置,无法进行拼接,也就只能得到一些contig。这个时候就会需要一些long reads看来确定位置,也就是MP文库。
但问题又来了:为什么又需要双端测序呢?因为经常reads的长度短于insertion,为了增加覆盖度就从insert两端同时测序。
还有就是为何在测序的数据里会需要去接头呢?像trimmomatic里的接头文件里的universal adaptor和indexed adatpor又是什么?
在软件中我们会看到的5-3的universal adaptor和3-5的indexed adatpor。接头在illumina中一般分为P5和P7接头,其中一个带有和flowcell上的探针反向互补的序列,以完成待测序列和探针结合的作用,另外一个接头带有barcord序列以区分不同的样本。因此,这个接头就不是我们所需要测的样品里的序列,需要把它去掉。
那为何会测到接头呢?这是因为如果insertion 太小的话,就会直接测穿,也就是测到了adaptor。
又比如在IGV的说明里会看到reads分为RF、FR等等方向,一直没搞懂。
原来是RNA seq里特异链建库中uDTP测序方法中的fr-firstrand,也就是RF。
dUTP测序中pair read 中的read1(R1)和基因方向相反,read2(R2)和基因方向相同。
切记在看资料时,边看边思考,问问自己到底是怎么回事?
才能将问题想明白。