2020-01-12 FASTQ文件可视化和质控(QC)

XII部分讲数据的质控,因为已经拿到数据了,就先从这一步开始做吧:




换算成第三张图的error values就可以可视化了。
但是error value非常不可靠,将error values作为一种建议而非精确的测量值(“treat them as an advisory rather than accurate measurements”)

FastQC工具

FastQC并不进行质控,只是可视化数据的质量。也是目前最好的FASTQ质量可视化工具

即使它是事实上的可视化标准,其结果也不总是最容易解释的。

  • 优点:
    该工具易于运行(仅需要Java),并且可以绘制出美观的图表。
  • 缺点:
    已针对Illumina平台进行了调试,在其他类型的数据上可能不稳定。
    某些精美图表并未提供足够信息或导致困惑。 例如K-MER图和Overrepresented Sequences图,并没有给出多数人希望给出的内容。
    可视化结果需要一个一个点开,不太方便。

FastQC如何工作

FastQC通过评估一小部分数据并将这些结果外推到整个数据集来生成报告。许多指标只在最初的200000个测量值上计算,然后通过其余数据进行跟踪。

FastQC工具的帮助文档:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help

如何运行FastQC执行可视化

下载示例数据

wget http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gz
tar xzvf sequencing-platform-data.tar.gz
# 包含了illumina.fq, iontorrent.fq, pacbio.fq, minion.fq四个平台的.fq文件

head -10一下fastq文件


运行FastQC工具

fastqc illumina.fq

命令生成一个HTML文件,包含运行结果


感言:

  1. 对fq.gz使用tar没用
  2. gunzip不知是否是没有指定目标文件的缘故,原压缩文件在解压后消失了。。7G的压缩文件变成了33G
  3. 随后执行fastqc QFPG_2.fq
  4. 生成的html在服务器上,使用Xftp 6软件进行传输

FastQC可视化结果
参考博文:《FastQC数据质控报告的详细解读》
https://www.jianshu.com/p/dc6820eb342e

  • 基本信息,序列长度150bp,GC含量52%,总共测了90million的序列
    Conventional base calls什么意思..

  • 每个序列reads的质量,前几个read是质量慢慢升高,稳定,最后下降



  • 每个tile的序列质量,tile应该指chip-lane-swath-tile



  • 序列平均质量的分布



  • 每个序列的碱基含量,为什么前15个reads碱基比例波动这么大!

  • 序列GC含量的分布,有3个峰,理论分布为正态分布?

  • N碱基的含量,第1个碱基N的百分比较高



  • 读长150bp,很稳



  • 序列重复水平,非unique reads占总数比例60%左右。横轴为序列重复水平,蓝线unique reads总数(蓝线)作为100%,重复2次序列占10%,重复>10次序列占10%,重复>10k序列占15%

  • 大量表达的序列



  • 接头含量



  • 重复短序列含量 这个图不怎懂


序列的质量控制

质量控制(QC)通过去除数据中可识别的错误来改善数据。 通常是数据采集后执行的第一步。
由于这是更改数据的过程,因此我们必须非常谨慎,理想情况下,我们只希望相同的 (same),更准确 (more accurate)的数据。由于QC不能把不好的数据变成有用的数据,不能对QC抱有不合理的期望。

一些观念上的错误

  1. 进行简单的QC后数据就可以使用了,不要浪费时间抠细节
  2. 不要反复调整QC,以似乎“改善”最终结果。 这样做的危险是过拟合——使数据与期望的结果匹配。

执行QC的时机

  1. 序列比对前:这时所有数据的QC protocol都是一样的
  2. 序列比对后:这时根据分析的不同执行不同的protocol

执行QC的具体步骤

  1. 可视化数据
  2. 当数据质量不错时,直接进行分析
  3. 若质量不可靠,执行QC,回到第1步

QC工具有多可靠

没多可靠。这是现实。
对于什么是“好数据”,充斥着各种主观的判断

QC同样会产生新的错误

每个QC步骤都会引入新的错误。
终极哲学问题:你是愿意处理仪器引起的错误,还是愿意处理校正仪器错误时引入的新的错误?
因此如果数据没问题,那就不要QC了。

QC工具列表

作者推荐Trimmomatic, BBDuk, flexbar, cutadapt
每个工具都包括了基本的QC方法和一些独特方法

列表

read质量修剪是

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容