测序数据质控统计（转载）

引言：

随着NGS测序成本的降低，高通量测序分析变得越来越普遍。然而，在实际工作中，生信人员往往拿到测序公司提供的数据之后，就直接开始跑流程，去接头、过滤、鉴定变异位点…

然而，过滤前和过滤后的数据到底有什么不同？数据中N碱基的含量如何？低质量的数据是否居多？测序深度是否达到要求？靶标区域覆盖度如何？这一系列的问题往往被急于出分析结果的生信人员（尤其在大Boss的问[逼]候[迫]下）抛之脑后。

满心欢喜去交付自己麻溜完成的分析成果，却遭到了客户对结果的质疑。苦苦回溯分析过程，查找众多可能的出错步骤，最终发现是测序数据质量不过关。前功尽弃，何其郁闷哉…

为保证分析结果的可靠性，对测序数据进行质量控制统计分析意义重大。尤其在临床二代测序检测领域，分析结果的可靠性与否关乎医生的诊断和病人的安危。

参照《临床分子病理实验室二代基因测序检测专家共识》、《二代测序（NGS）技术应用于临床肿瘤精准医学诊断的共识》中要求的指标，以及实际测序数据分析经验，GeneDock的小伙伴为全外显子组和全基因组产品增加了质控统计步骤，主要包括：（1）过滤前后FASTQ文件的基本测序质量统计；（2）比对后BAM文件的基本统计。

FASTQ文件的基本测序质量统计

1.基本统计表格

统计指标	描述
Number of Reads	reads数目
Data Size	碱基数量
N of fq1	reads1中N碱基数目
N of fq2	reads2中N碱基数目
Low qual base of fq1(<=15)	reads1中低质量的碱基数目
Low qual base of fq2(<=15)	reads2中低质量的碱基数目
Q20 of fq1	reads1中质量值>=20的碱基所占的比例
Q20 of fq2	reads2中质量值>=20的碱基所占的比例
Q30 of fq1	reads1中质量值>=30的碱基所占的比例
Q30 of fq2	reads2中质量值>=30的碱基所占的比例
GC of fq1	reads1的GC含量
GC of fq2	reads2的GC含量
Error of fq1	reads1的错误率
Error of fq2	reads2的错误率
Discard Reads related to N and low qual	N碱基和低质量的reads所占比例
Discard Reads related to Adapter	带接头的reads比例

2.质量值和GC含量图

1）碱基含量分布图

根据reads中每个位置碱基 A、T、G、C、N 所占的比例，绘制碱基含量分布图。根据碱基互补原理，A和T、G和C的含量应该基本一致，前几bp出现抖动情况是由于随机引物、测序反应开始酶和底物结合不太稳定导致，属于测序本身所带来的正常抖动。碱基含量分布与建库、测序和物种相关。
碱基含量分布图：

image

图中，横坐标为reads中的碱基位置，纵坐标为碱基所占的比例，不同颜色代表不同的碱基类型，左右两侧分别为双端测序序列两条reads的碱基分布情况。

2）测序质量分布图

根据reads中每个位置碱基的平均测序质量值，绘制测序质量分布图。测序片段末端的碱基质量一般会比前端的低，但测序质量主要会分布在 Q20 以上，才能为后续数据分析提供保证。
测序质量分布图：

image

图中，横坐标为reads中的碱基位置，纵坐标为每个位置的平均测序质量值，左右两侧分别为双端测序序列两条reads的质量值分布情况。

3) 碱基总体质量分布图

根据不同测序质量值的碱基数目情况，绘制碱基总体质量分布图。对于二代测序，一般要求达到Q20的碱基比例 >95%（最差 >=90%），Q30的碱基比例 >85%（最差 >=80%）。
图3：碱基总体质量分布图：

image

图中，横坐标为测序质量值，纵坐标为该质量值处的碱基数目。

4) 测序错误率分布图

测序错误率与碱基质量负相关，受测序仪本身、测序试剂、样品等多个因素共同影响。一般来说，测序片段末端的错误率会偏高。
图4：测序错误率分布图：

image

图中，横坐标为reads中的碱基位置，纵坐标为单碱基错误率，左右两侧分别为双端测序序列两条reads的测序错误率分布情况。</center>

比对后BAM文件的基本统计

1. 基本统计表格

统计指标	描述
Total_reads_num_in_bam	bam文件中reads数目
Total_reads_num_in_bam_on_target	bam文件中属于目标区域的reads数目
Mapped_reads_num	比对上的reads数目
Mapped_reads_num_on_target	目标区域比对上的reads数目
Mapping_rate(%)	比对率
Mapping_rate_on_target(%)	目标区域比对率
Duplication_reads_num	重复的reads数目
Duplication_reads_num_on_target	目标区域重复的reads数目
Duplication_rate(%)	reads重复率
Duplication_rate_on_target(%)	目标区域reads重复率
Mapped_bases_num	比对上的碱基数目
Mapped_bases_num_on_target	目标区域比对上的碱基数目
Mapped_bases_num (cigar)	CIGAR中比对上的碱基数目
Mapped_bases_num_on_target (cigar)	目标区域CIGAR中比对上的碱基数目
Mismatch_num	错配的碱基数目
Mismatch_num_on_target	目标区域错配的碱基数目
Mismatch_rate(%)	碱基错配率
Mismatch_rate_on_target(%)	目标区域碱基错配率
Average_read_length(bp)	平均reads长度
Target_region_size(bp)	目标区域长度
BaseNum_covered_on_target(bp)	目标区域覆盖的碱基数目
Coverage_of_target_region(%)	目标区域覆盖率
Average_sequencing_depth_on_target	目标区域平均测序深度
Fraction_of_target_covered_with_at_least_150x(%)	目标区域测序深度>=150X的百分比
Fraction_of_target_covered_with_at_least_100x(%)	目标区域测序深度>=100X的百分比
Fraction_of_target_covered_with_at_least_50x(%)	目标区域测序深度>=50X的百分比
Fraction_of_target_covered_with_at_least_30x(%)	目标区域测序深度>=30X的百分比
Fraction_of_target_covered_with_at_least_20x(%)	目标区域测序深度>=20X的百分比
Fraction_of_target_covered_with_at_least_10x(%)	目标区域测序深度>=10X的百分比

2.测序深度图

1) 目标区域测序深度图

根据目标区域每个位点的覆盖度，绘制测序深度分布图，可直观展示平均测序深度情况，同时用来衡量目标区域测序的随机性。当平均测序深度和峰值重合时，测序的随机性较好。

image

目标区域测序深度图图中，横坐标为测序深度，纵坐标为该测序深度碱基位点所占的百分比，其中红色和黄色箭头分别代表测序深度平均值和中位数。

测序深度累积曲线

根据测序深度累积曲线，可直观得到大于某测序深度时的碱基覆盖率。和目标区域测序深度图一样，可用于指导后续数据分析时的参数的设置。例如：检测SNP时，至少需要多少reads的支持。
图6：测序深度累积曲线：

image

图中，横坐标为累积型测序深度，纵坐标为累积型测序深度所占的百分比。

小结

测序质量的好坏直接影响下游的数据分析，对测序数据进行质控统计意义重大。GeneDock 公有云平台目前为 WES Germline，WGS Germline 和 WGS Somatic三套分析流程均提供了质控统计步骤，为您的数据分析提供前提保障。
原文：测序数据质控统计