引言:
随着NGS测序成本的降低,高通量测序分析变得越来越普遍。然而,在实际工作中,生信人员往往拿到测序公司提供的数据之后,就直接开始跑流程,去接头、过滤、鉴定变异位点…
然而,过滤前和过滤后的数据到底有什么不同?数据中N碱基的含量如何?低质量的数据是否居多?测序深度是否达到要求?靶标区域覆盖度如何?这一系列的问题往往被急于出分析结果的生信人员(尤其在大Boss的问[逼]候[迫]下)抛之脑后。
满心欢喜去交付自己麻溜完成的分析成果,却遭到了客户对结果的质疑。苦苦回溯分析过程,查找众多可能的出错步骤,最终发现是测序数据质量不过关。前功尽弃,何其郁闷哉…
为保证分析结果的可靠性,对测序数据进行质量控制统计分析意义重大。尤其在临床二代测序检测领域,分析结果的可靠性与否关乎医生的诊断和病人的安危。
参照《临床分子病理实验室二代基因测序检测专家共识》、《二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识》中要求的指标,以及实际测序数据分析经验,GeneDock的小伙伴为全外显子组和全基因组产品增加了质控统计步骤,主要包括:(1)过滤前后FASTQ文件的基本测序质量统计;(2)比对后BAM文件的基本统计。
FASTQ文件的基本测序质量统计
1.基本统计表格
统计指标 | 描述 |
---|---|
Number of Reads | reads数目 |
Data Size | 碱基数量 |
N of fq1 | reads1中N碱基数目 |
N of fq2 | reads2中N碱基数目 |
Low qual base of fq1(<=15) | reads1中低质量的碱基数目 |
Low qual base of fq2(<=15) | reads2中低质量的碱基数目 |
Q20 of fq1 | reads1中质量值>=20的碱基所占的比例 |
Q20 of fq2 | reads2中质量值>=20的碱基所占的比例 |
Q30 of fq1 | reads1中质量值>=30的碱基所占的比例 |
Q30 of fq2 | reads2中质量值>=30的碱基所占的比例 |
GC of fq1 | reads1的GC含量 |
GC of fq2 | reads2的GC含量 |
Error of fq1 | reads1的错误率 |
Error of fq2 | reads2的错误率 |
Discard Reads related to N and low qual | N碱基和低质量的reads所占比例 |
Discard Reads related to Adapter | 带接头的reads比例 |
2.质量值和GC含量图
1)碱基含量分布图
根据reads中每个位置碱基 A、T、G、C、N 所占的比例,绘制碱基含量分布图。根据碱基互补原理,A和T、G和C的含量应该基本一致,前几bp出现抖动情况是由于随机引物、测序反应开始酶和底物结合不太稳定导致,属于测序本身所带来的正常抖动。碱基含量分布与建库、测序和物种相关。
碱基含量分布图:
图中,横坐标为reads中的碱基位置,纵坐标为碱基所占的比例,不同颜色代表不同的碱基类型,左右两侧分别为双端测序序列两条reads的碱基分布情况。
2)测序质量分布图
根据reads中每个位置碱基的平均测序质量值,绘制测序质量分布图。测序片段末端的碱基质量一般会比前端的低,但测序质量主要会分布在 Q20 以上,才能为后续数据分析提供保证。
测序质量分布图:
图中,横坐标为reads中的碱基位置,纵坐标为每个位置的平均测序质量值,左右两侧分别为双端测序序列两条reads的质量值分布情况。
3) 碱基总体质量分布图
根据不同测序质量值的碱基数目情况,绘制碱基总体质量分布图。对于二代测序,一般要求达到Q20的碱基比例 >95%(最差 >=90%),Q30的碱基比例 >85%(最差 >=80%)。
图3:碱基总体质量分布图:
图中,横坐标为测序质量值,纵坐标为该质量值处的碱基数目。
4) 测序错误率分布图
测序错误率与碱基质量负相关,受测序仪本身、测序试剂、样品等多个因素共同影响。一般来说,测序片段末端的错误率会偏高。
图4:测序错误率分布图:
图中,横坐标为reads中的碱基位置,纵坐标为单碱基错误率,左右两侧分别为双端测序序列两条reads的测序错误率分布情况。</center>
比对后BAM文件的基本统计
1. 基本统计表格
统计指标 | 描述 |
---|---|
Total_reads_num_in_bam | bam文件中reads数目 |
Total_reads_num_in_bam_on_target | bam文件中属于目标区域的reads数目 |
Mapped_reads_num | 比对上的reads数目 |
Mapped_reads_num_on_target | 目标区域比对上的reads数目 |
Mapping_rate(%) | 比对率 |
Mapping_rate_on_target(%) | 目标区域比对率 |
Duplication_reads_num | 重复的reads数目 |
Duplication_reads_num_on_target | 目标区域重复的reads数目 |
Duplication_rate(%) | reads重复率 |
Duplication_rate_on_target(%) | 目标区域reads重复率 |
Mapped_bases_num | 比对上的碱基数目 |
Mapped_bases_num_on_target | 目标区域比对上的碱基数目 |
Mapped_bases_num (cigar) | CIGAR中比对上的碱基数目 |
Mapped_bases_num_on_target (cigar) | 目标区域CIGAR中比对上的碱基数目 |
Mismatch_num | 错配的碱基数目 |
Mismatch_num_on_target | 目标区域错配的碱基数目 |
Mismatch_rate(%) | 碱基错配率 |
Mismatch_rate_on_target(%) | 目标区域碱基错配率 |
Average_read_length(bp) | 平均reads长度 |
Target_region_size(bp) | 目标区域长度 |
BaseNum_covered_on_target(bp) | 目标区域覆盖的碱基数目 |
Coverage_of_target_region(%) | 目标区域覆盖率 |
Average_sequencing_depth_on_target | 目标区域平均测序深度 |
Fraction_of_target_covered_with_at_least_150x(%) | 目标区域测序深度>=150X的百分比 |
Fraction_of_target_covered_with_at_least_100x(%) | 目标区域测序深度>=100X的百分比 |
Fraction_of_target_covered_with_at_least_50x(%) | 目标区域测序深度>=50X的百分比 |
Fraction_of_target_covered_with_at_least_30x(%) | 目标区域测序深度>=30X的百分比 |
Fraction_of_target_covered_with_at_least_20x(%) | 目标区域测序深度>=20X的百分比 |
Fraction_of_target_covered_with_at_least_10x(%) | 目标区域测序深度>=10X的百分比 |
2.测序深度图
1) 目标区域测序深度图
根据目标区域每个位点的覆盖度,绘制测序深度分布图,可直观展示平均测序深度情况,同时用来衡量目标区域测序的随机性。当平均测序深度和峰值重合时,测序的随机性较好。
目标区域测序深度图图中,横坐标为测序深度,纵坐标为该测序深度碱基位点所占的百分比,其中红色和黄色箭头分别代表测序深度平均值和中位数。
测序深度累积曲线
根据测序深度累积曲线,可直观得到大于某测序深度时的碱基覆盖率。和目标区域测序深度图一样,可用于指导后续数据分析时的参数的设置。例如:检测SNP时,至少需要多少reads的支持。
图6:测序深度累积曲线:
图中,横坐标为累积型测序深度,纵坐标为累积型测序深度所占的百分比。
小结
测序质量的好坏直接影响下游的数据分析,对测序数据进行质控统计意义重大。GeneDock 公有云平台目前为 WES Germline,WGS Germline 和 WGS Somatic三套分析流程均提供了质控统计步骤,为您的数据分析提供前提保障。
原文:测序数据质控统计