测序数据质控统计(转载)

引言:

随着NGS测序成本的降低,高通量测序分析变得越来越普遍。然而,在实际工作中,生信人员往往拿到测序公司提供的数据之后,就直接开始跑流程,去接头、过滤、鉴定变异位点…

然而,过滤前和过滤后的数据到底有什么不同?数据中N碱基的含量如何?低质量的数据是否居多?测序深度是否达到要求?靶标区域覆盖度如何?这一系列的问题往往被急于出分析结果的生信人员(尤其在大Boss的问[逼]候[迫]下)抛之脑后。

满心欢喜去交付自己麻溜完成的分析成果,却遭到了客户对结果的质疑。苦苦回溯分析过程,查找众多可能的出错步骤,最终发现是测序数据质量不过关。前功尽弃,何其郁闷哉…

为保证分析结果的可靠性,对测序数据进行质量控制统计分析意义重大。尤其在临床二代测序检测领域,分析结果的可靠性与否关乎医生的诊断和病人的安危。

参照《临床分子病理实验室二代基因测序检测专家共识》、《二代测序(NGS)技术应用于临床肿瘤精准医学诊断的共识》中要求的指标,以及实际测序数据分析经验,GeneDock的小伙伴为全外显子组和全基因组产品增加了质控统计步骤,主要包括:(1)过滤前后FASTQ文件的基本测序质量统计;(2)比对后BAM文件的基本统计。

FASTQ文件的基本测序质量统计

1.基本统计表格

统计指标 描述
Number of Reads reads数目
Data Size 碱基数量
N of fq1 reads1中N碱基数目
N of fq2 reads2中N碱基数目
Low qual base of fq1(<=15) reads1中低质量的碱基数目
Low qual base of fq2(<=15) reads2中低质量的碱基数目
Q20 of fq1 reads1中质量值>=20的碱基所占的比例
Q20 of fq2 reads2中质量值>=20的碱基所占的比例
Q30 of fq1 reads1中质量值>=30的碱基所占的比例
Q30 of fq2 reads2中质量值>=30的碱基所占的比例
GC of fq1 reads1的GC含量
GC of fq2 reads2的GC含量
Error of fq1 reads1的错误率
Error of fq2 reads2的错误率
Discard Reads related to N and low qual N碱基和低质量的reads所占比例
Discard Reads related to Adapter 带接头的reads比例

2.质量值和GC含量图

1)碱基含量分布图

根据reads中每个位置碱基 A、T、G、C、N 所占的比例,绘制碱基含量分布图。根据碱基互补原理,A和T、G和C的含量应该基本一致,前几bp出现抖动情况是由于随机引物、测序反应开始酶和底物结合不太稳定导致,属于测序本身所带来的正常抖动。碱基含量分布与建库、测序和物种相关。
碱基含量分布图:


image

图中,横坐标为reads中的碱基位置,纵坐标为碱基所占的比例,不同颜色代表不同的碱基类型,左右两侧分别为双端测序序列两条reads的碱基分布情况。

2)测序质量分布图

根据reads中每个位置碱基的平均测序质量值,绘制测序质量分布图。测序片段末端的碱基质量一般会比前端的低,但测序质量主要会分布在 Q20 以上,才能为后续数据分析提供保证。
测序质量分布图:


image

图中,横坐标为reads中的碱基位置,纵坐标为每个位置的平均测序质量值,左右两侧分别为双端测序序列两条reads的质量值分布情况。

3) 碱基总体质量分布图

根据不同测序质量值的碱基数目情况,绘制碱基总体质量分布图。对于二代测序,一般要求达到Q20的碱基比例 >95%(最差 >=90%),Q30的碱基比例 >85%(最差 >=80%)。
图3:碱基总体质量分布图:


image

图中,横坐标为测序质量值,纵坐标为该质量值处的碱基数目。

4) 测序错误率分布图

测序错误率与碱基质量负相关,受测序仪本身、测序试剂、样品等多个因素共同影响。一般来说,测序片段末端的错误率会偏高。
图4:测序错误率分布图:


image

图中,横坐标为reads中的碱基位置,纵坐标为单碱基错误率,左右两侧分别为双端测序序列两条reads的测序错误率分布情况。</center>

比对后BAM文件的基本统计

1. 基本统计表格

统计指标 描述
Total_reads_num_in_bam bam文件中reads数目
Total_reads_num_in_bam_on_target bam文件中属于目标区域的reads数目
Mapped_reads_num 比对上的reads数目
Mapped_reads_num_on_target 目标区域比对上的reads数目
Mapping_rate(%) 比对率
Mapping_rate_on_target(%) 目标区域比对率
Duplication_reads_num 重复的reads数目
Duplication_reads_num_on_target 目标区域重复的reads数目
Duplication_rate(%) reads重复率
Duplication_rate_on_target(%) 目标区域reads重复率
Mapped_bases_num 比对上的碱基数目
Mapped_bases_num_on_target 目标区域比对上的碱基数目
Mapped_bases_num (cigar) CIGAR中比对上的碱基数目
Mapped_bases_num_on_target (cigar) 目标区域CIGAR中比对上的碱基数目
Mismatch_num 错配的碱基数目
Mismatch_num_on_target 目标区域错配的碱基数目
Mismatch_rate(%) 碱基错配率
Mismatch_rate_on_target(%) 目标区域碱基错配率
Average_read_length(bp) 平均reads长度
Target_region_size(bp) 目标区域长度
BaseNum_covered_on_target(bp) 目标区域覆盖的碱基数目
Coverage_of_target_region(%) 目标区域覆盖率
Average_sequencing_depth_on_target 目标区域平均测序深度
Fraction_of_target_covered_with_at_least_150x(%) 目标区域测序深度>=150X的百分比
Fraction_of_target_covered_with_at_least_100x(%) 目标区域测序深度>=100X的百分比
Fraction_of_target_covered_with_at_least_50x(%) 目标区域测序深度>=50X的百分比
Fraction_of_target_covered_with_at_least_30x(%) 目标区域测序深度>=30X的百分比
Fraction_of_target_covered_with_at_least_20x(%) 目标区域测序深度>=20X的百分比
Fraction_of_target_covered_with_at_least_10x(%) 目标区域测序深度>=10X的百分比

2.测序深度图

1) 目标区域测序深度图

根据目标区域每个位点的覆盖度,绘制测序深度分布图,可直观展示平均测序深度情况,同时用来衡量目标区域测序的随机性。当平均测序深度和峰值重合时,测序的随机性较好。

image

目标区域测序深度图图中,横坐标为测序深度,纵坐标为该测序深度碱基位点所占的百分比,其中红色和黄色箭头分别代表测序深度平均值和中位数。

测序深度累积曲线

根据测序深度累积曲线,可直观得到大于某测序深度时的碱基覆盖率。和目标区域测序深度图一样,可用于指导后续数据分析时的参数的设置。例如:检测SNP时,至少需要多少reads的支持。
图6:测序深度累积曲线:


image

图中,横坐标为累积型测序深度,纵坐标为累积型测序深度所占的百分比。

小结

测序质量的好坏直接影响下游的数据分析,对测序数据进行质控统计意义重大。GeneDock 公有云平台目前为 WES Germline,WGS Germline 和 WGS Somatic三套分析流程均提供了质控统计步骤,为您的数据分析提供前提保障。
原文:测序数据质控统计

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343