转录组分析 | 使用FastQC进行数据质控

随着测序成本的不断降低,RNA-seq已经是许多实验的标配。经过小编一段时间的准备,接下来的几周时间里,将推出一系列的转录组分析教程,教大家从零开始学习转录组分析,欢迎大家持续关注!

在拿到测序数据后,我们首先要了解手中数据的质量,因为测序的质量直接影响下游分析的准确性,所以在我们进行转录组数据分析前,第一步应该判断测序质量的好坏。

判断测序数据质量的工具有很多,今天教大家用FastQC 检测测序数据的质量。

## 下载FastQC
wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
## 解压
unzip fastqc_v0.11.8.zip
## 进入目录
cd FastQC
## 运行FastQC
./fastqc seq1.fq.gz seq2.fq.gz -o output_dir -t threads

-o:输出文件目录

-t:线程数

运行完FastQC以后,输出目录下会产生一个fastqc.html文件,我们可以打开该文件来评估测序数据的质量。

FastQC产生的结果文件中主要包含以下几个指标:

其中绿色代表通过质控(质量高),橙色代表警告(质量一般,数据还可以用),红色代表未通过质控(质量差,需要确定一下该指标未通过的原因)。

指标1:基本统计信息

表格展示了我们数据的基本信息。从表格里我们可以得出fastq文件的测序平台,总reads数,reads长度和GC含量等信息。

指标2:碱基测序质量

图中横坐标表示每条reads上碱基的位置,由图可知,我们的reads长150。纵坐标表示碱基的质量值QUAL,该QUAL=-10*log10(碱基错误率),如果QUAL为20,则表示该处碱基测序错误率为1%(0.01),如果QUAL为30,则表示该处碱基测序错误率为0.1%(0.001)。黄色的箱形图表示所有reads在这个位置的质量值分布,箱形图上的红线代表质量值的中位数,蓝线代表质量值的平均数。一般来说,reads末端的碱基质量值会低一些,但是只要没有大面积的碱基质量低于20,问题都不是很大。如果一些位置碱基质量太低的话,可以考虑去掉。

指标3:每条reads的碱基质量平均值

图中横坐标表示每条reads的碱基质量平均值,纵坐标表示reads数。由图可知,大部分reads的碱基质量平均值集中在36左右,几乎全部reads的碱基质量平均值都在20以上,说明测序质量非常好。

指标4:碱基分布情况

图中横坐标表示每条reads上碱基的位置,纵坐标表示每种碱基在该位置数量的百分比。一般来说,如果测序过程是随机的话,A和T的比例应该相近,C与G的比例也应该相近,像图中9bp前出现的碱基比例波动其实是不正常的,可以考虑将其切掉。但如果大家发现自己的数据只是前2bp有波动,其实数据还是可以的,因为测序开始时,状态不稳定,很容易产生波动。

指标5:GC含量统计

图中横坐标为reads的GC含量,纵坐标是reads的数目。蓝线是GC含量理论值,红线是实际值。一般来说两个曲线越接近数据质量越好。像上图这种情况,有可能是某些区域被反复测序导致的。

指标6:N碱基含量

图中横坐标表示每条reads上碱基的位置。纵坐标表示N碱基的百分比。理论上N碱基应该如图所示,基本是不存在的。

指标7:reads长度分布

图中横坐标表示reads的长度,纵坐标表示reads的数量。由图可知,数据里reads的长度集中在150bp,未出现极短的reads,说明数据质量较好。

指标8:重复序列比例

图中横坐标表示reads重复次数,纵坐标表示reads比例。蓝线表示所有reads的分布情况,红线表示去重后reads的分布情况。如果含有的重复序列超过50%,说明测序数据可能有一些问题。

指标9:过表达序列

过表达序列指大量重复出现的序列,图中显示无过表达序列,说明测序质量很好。

指标10:接头序列

图中横坐标表示每条reads上碱基的位置。纵坐标表示接头序列碱基的百分比。图中显示数据中不含接头序列。


通过以上10个指标对测序数据进行初步评估,我们就可以对自己数据的质量有一个大概了解,进入下一步的分析阶段。

如果对以上步骤有任何疑问,可以随时在后台与小编交流~


参考资料:

https://zhuanlan.zhihu.com/p/28802083

https://www.jianshu.com/p/fe6af418a8bc

http://blog.sciencenet.cn/blog-3406804-1161193.html

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3+Analysis+Modules/

欢迎关注微信公众号“生信小王子 ”,里面干货更多哦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335