2023-07-31

FastQC使用与结果解读
1.1 FastQC 使用参数指令:fastqc -f inputfile -o outputfile-o 结果文件输出路径,需要自己事先建立好文件夹,默认输出文件是压缩文件,加--noextract则不压缩 -t 设置所使用的核数 -f 强制指定输入文件格式,默认自动检测 -c 污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,#开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析 -q 会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况1.2 FastQC结果详细解读根据输入指令,能够输出结果有一个.html问价和一个压缩文件,.html文件用浏览器打开即可得到FastQC Report

1.2.1 Summary:整体查阅信息

绿色:PASS;符合质量要求
黄色:WARN;需要查看结果信息
红色:FALL;不符合质量要求1.2.2 Basic Statistics:基本信息统计

Filename:检测的fastq文件名称;File type:文件类型;Encoding:测序平台的版本和相应的编码版本号;Total Sequence:总reads数;Sequences flagged as poor quality:低质量序列数量;Sequence:测得的序列长度范围;%GC:GC含量。Per base sequence quality:序列测序质量统计1.2.3 Per base sequence quality:序列测序质量统计

横轴为read长度,纵轴为质量得分,Q = -10*log(error P),Q20表示1%的错误率,Q30表示0.1%的错误率;柱状表示该位置所有序列的测序质量的统计,柱状是25%-75%区间质量分布,error bar 是10%-90%区间质量分布,蓝线表示平均数;一般要求所有位置的10%分位数大于20,即最多允许该位置10%的序列低于Q20。当任何碱基质量低于10,或者任何中位数低于25报告WARN,当任何碱基质量低于5或任何中位数低于20报告FALL。1.2.4 Per tile sequence quality 每个tail测序的情况

上图展示了每个tail的测序情况。每个tile的测序质量,横坐标表示序列的长度位置从1到N,纵坐标是tile的编号,蓝色表示测序质量很好,颜色越红越不好横轴表示每个碱基的位置;纵轴是tail的Index编号;这个图主要是为了防止,在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低;蓝色代表测序质量很高,暖色代表测序质量不高,如果某些tail出现暖色,可以在后续分析中把该tail测序的结果全部都去除。1.2.5 Per sequence quality scores:序列的测序质量

对每条序列(reads)的测序质量统计。假如我测的1条序列长度为101bp,那么这101个位置每个位置Q值的平均值就是这条reads的质量值;该图横轴是0-40,表示Q值,即该序列(reads)质量得分;纵轴是每个值对应的reads数目;我们的数据中,测序结果主要集中在高分中,证明测序质量良好1.2.6 Per base sequence content 序列各个位置碱基比例分布

上图显示了A T C G在每个位置的平均分布情况。横轴表示每个碱基的位置,纵轴表示百分比;图中四条线代表A T C G在每个位置平均含量;理论上来说,A和T应该相等,G和C应该相等,但是一般测序的时候,刚开始测序仪状态不稳定,很可能出现上图的情况。像这种情况,即使测序的得分很高,也需要cut开始部分的序列信息。1.2.7 Per sequence GC content 序列平均GC分布(普遍会出现警告)

上图展示了序列平均GC分布。横轴为平均GC含量; 纵轴为每个GC含量对应的序列数量;蓝线为系统计算得到的理论分布;红线为测量值,二者越接近越好;这里不相符可能有两个原因:GC可以作为物种特异性根据,这里出现了其他的峰有可能混入了其他物种的DNA;目前二代测序基本都会有序列偏向性(所说的 bias),也就是某些特定区域会被反复测序,以至于高于正常水平,变相说明测序过程不够随机。这种现象会对以后的变异检测以及CNV分析造成影响。1.2.8 Per base N content N碱基含量分布 (基本不出现错误)

上图N碱基含量分布N碱基是指仪器不能识别的碱基,一般不会出现。但是如果出现并且量还很大,应该就是测序系统或者试剂的问题;任意位置的N的比例超过5%,报"WARN";任意位置的N的比例超过20%,报"FAIL"。1.2.9 Sequence Length Distribution 序列测序长度统计

上图展示了检验文件中序列的长度统计。每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差;比如此图中,126-127bp是主要的,但是还是有少量的120-121bp的长度,不过数量比较少,不影响后续分析;当测序的长度不同时,如果很严重,则表明测序仪在此次测序过程中产生的数据不可信。1.2.10 Sequence Duplication Levels 统计序列完全一样的reads的频率

谈到NGS数据的duplicated reads(暂且翻译为“重复数据”),我们通常会直观地认为:duplicated reads是在NGS文库构建过程中,由于PCR过度扩增导致同一个模板DNA片段被反复测序多次,得到一模一样的reads;上图中横坐标是duplication的次数;纵坐标是duplicated reads的数目(红线);正常情况下的确,测序深度越高,越容易产生一定程度的duplication。高程度的duplication level,提示我们可能有bias的存在(如建库过程中的PCR duplication)。1.2.11 Overrepresented sequences 大量重复序列

Overrepresented sequences是指一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。这个模块列出来大于全部转录组1%的reads序列,但是因为用的是前200,000条,所以其实参考意义不大,完全可以忽略。和duplication计算一样,取前200,000进行统计,大于75bp只取50bp;发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“;1.2.12 Adapter Content 序列Adapter

此图衡量的是序列中两端adapter的情况如果在当时fastqc分析的时候-a选项没有内容,则默认使用图例中的四种通用adapter序列进行统计本例中adapter都已经去除,如果有adapter序列没有去除干净的情况,在后续分析的时候需要先使用cutadapt软件进行去接头。接下来就是基于QC结果对数据进行质量控制,我们应用cutadapt来做。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 原先就想仔细研究一下fastqc和fastp的质控报告,对比一下到底有多大区别。正好现在对一个公开数据进行质控,还...
    土雕艺术家阅读 1,991评论 1 0
  • 因为课题就是做转录组测序的,所以基础知识有一些了解,接下来从数据处理部分开始进行笔记。 数据初步分析: 使用fas...
    宣Xuanan阅读 571评论 0 1
  • 二代测序数据质量评估软件FastQC的安装及使用说明 标签:_生信工具, _测序数据质控及评估 二代测序数据质量评...
    星空_2739阅读 1,053评论 0 2
  • 拿到二代测序数据后,首先要查看一下测序质量如何,以评估该测序数据是否满能够进行后续的生信分析。 这里介绍一款常用的...
    生信师姐阅读 4,524评论 0 6
  • 测序的世界很奇妙,不同的数据处理可能得出不同的结论,入门生信首先要做的就是了解你的数据还等什么?跟我一起来探索吧~...
    刘小泽阅读 25,680评论 13 182