参考链接:基因水平定量与转录本水平定量区别 - 简书 (jianshu.com)
QC
QC:质控主要进行低质量,含N,含adpter的过滤
raw reads,里面含有带接头的、低质量的reads。对raw reads过滤,得到clean reads,后续分析都基于 clean reads
正常情况下数据有效数据利用率一般要求高于95%,现在正常项目大多在99%
Q20一般要>90%(illunima官方承诺85%)
Q30一般要>85%(illunima官方承诺80%)
GC含量一般为40%-60%,以45%-55%为宜。
比对
mapping reads:指mapping到参考基因组上的reads(包括单端比对和双端比对)
total reads:有效测序数据的reads总条数
mapping rate:比对率,指比对到参考基因组上的reads数目除以有效测序数据的reads数目。人类基因组的比对率期望值是70-90%
定量
定量:fastq文件比对到基因组上以后,需要对比对到基因组上的reads数进行计数,看比对到基因上边的reads有多少,一般有基因水平、转录水平、外显子水平计数,但比较常用的还是基因水平的计数,因为转录本和外显子水平特别复杂。
外显子水平的定量:数一下与每一个被注释的外显子重合的reads。
基因水平的定量:数一下与每一个基因区域重合的reads。基因水平定量需要基因组注释文件,即常见的hg19/hg38这些。
转录组水平的定量:把reads比对到所有已知的转录本序列上。而转录本是一条(或一串基因)通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。转录本在测序中得到的序列数量受转录水平、测序深度、转录本序列长度、样本中其他转录本的表达水平等因素影响。
基因组比对就是把reads比对到完整的基因组序列上,而转录组比对则是把reads比对到所有已知的转录本序列上。如果不是很急或者只想知道已知转录本表达量,个人建议使用基因组比对的方法(大多数实验室也是用的基因水平)进行分析,理由如下:
① 转录组比对需要准确的已知转录本的序列,对于来自未知转录本(比如一些未被数据库收录的lncRNA)或序列不准确的reads无法正确比对;
② 与上一条类似,转录组比对不能对转录本的可变剪接进行分析,数据库中未收录的剪接位点会被直接丢弃;
③ 由于同一个基因存在不同的转录本,因此很多reads可以同时完美比对到多个转录本,reads的比对评分会偏低,可能被后续计算表达量的软件舍弃,影响后续分析(有部分软件解决了这个问题);
④ 由于与DNA测序使用的参考序列不同,因此不利于RNA和DNA数据的整合分析。
而上面的问题使用基因组比对都可以解决。