二代测序数据评估软件: FastQC
测序质量分析:
包含多项内容,如测序reads碱基质量、GC含量、reads长度、k-mer分布
Basic Statics中统计了测序数据类型、测序平台、测序数据中包含的总reads数、测序reads长度范围及测序reads的平均GC含量等
Per base sequence quality
以箱线图的形式展示了测序reads沿5’到3’方向所有碱基的测序质量值的分布。图中,横坐标为碱基在reads中的位置,纵坐标为单碱基错误率Q,其中Q = -10*log10(error P)即20表示1%的错误率,30表示0.1%。
根据测序技术的特点,测序片段末端的碱基质量一般会比前端的低,属正常现象。若reads末端测序质量明显较差,可考虑将末端碱基统一裁剪去除。
若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”。
在本示例中,我们可见测序数据“reads_1.fq”中的碱基质量几乎全部集中在低质量区域(红色区域),表明该数据测序质量较差。
Per sequence quality scores,横轴为reads碱基平均质量值,纵轴是reads数目。若测序质量越高,则绝大多数reads分布在高质量值区域,即曲线峰值的横坐标对应在高分区。
当峰值横坐标小于27(错误率0.2%)时报“WARN”,当峰值横坐标小于20(错误率1%)时报“FAIL”。
Per base sequence content,统计了测序碱基A、T、C、G的含量分布,可以一定程度上反映测序是否正常。图中横坐标为碱基在reads中的位置,纵坐标为该位置处各碱基含量百分比,根据碱基互补原则,A和T的比例应该接近,C和G的比例也应该是接近的。
实验过程所用的随机引物会引起前几个位置的碱基组成出现波动,这属于正常情况,或者可考虑将5'端前几个位置处的碱基统一裁剪去除。
当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。
所以看咱这个序列怎么这么奇怪呢,前面反而没有波动,后面咋回事???
Per sequence GC content,展示了测序reads的GC含量分布。图中横坐标为reads GC含量,纵坐标为reads数量;蓝色曲线为理想状态下的GC含量曲线(显著单峰),红色曲线为实际的GC含量曲线。
若红色曲线与蓝色曲线的拟合程度越高,则测数据序质量越好。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads),形状接近正态但偏离理论分布的情况提示我们可能有系统偏差,当红色出现双峰是表示混入了其它DNA序列。
偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”。
你看这做的什么鬼东西???
Per base N content,当出现测序仪不能分辨的碱基时会产生N,该图统计了N碱基的含量分布。图中横坐标为碱基在reads中的位置,纵坐标为该位置处N碱基含量百分比,N碱基含量越低越好。
当任一位置N的比率超过5%报“WARN”,超过20%报“FAIL”。所以咱的基本是超过5%的,梅西了。
Sequence Length Distribution,统计了测序reads的长度分布,图中横坐标为reads长度,纵坐标是reads数目。
对于测序原始raw reads,每次测序仪测出来的长度在理论上应该是完全相等的;对于质控后的clean reads,由于切除测序接头、低质量碱基等后会导致长度出现波动,但就“好的测序数据”来讲,reads长度分布仍然集中在最长区域。
你看看你,这长度波动这么大,你想上天啊?
Sequence Duplication Levels,统计序列完全一致的reads的频率,判定为duplication reads(重复序列),由二代测序过程中PCR的偏好性扩增导致。一般测序深度越高,越容易产生一定程度的duplication reads,属于正常现象。图中,横坐标表示duplication的次数,纵坐标表示duplication reads的数目的百分比。理论上,duplication reads的比例越低越好。
当测序数据量很大时,使用全部数据计算duplication reads将相当费时,此时FastQC会选取数据中前200000条reads统计其在全部数据中的duplication reads情况,同时重复数目大于等于10的reads被合并统计。由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当duplication reads占总数的比例大于20%时,报“WARN”;当duplication reads占总数的比例大于50%时,报“FAIL”。
Adapter Content,统计测序reads两端接头序列(adapter sequence)长度所占比例,图中横坐标为碱基在reads中的位置,纵坐标表示该位置的碱基为测序接头序列碱基的百分比。
对于raw reads来讲,会存在一定比例的测序接头序列,需要过滤去除;而对于clean reads来讲,理论上测序接头序列应当已经被过滤干净。没有!看见没?这就是艺术!
参考