MultiQC的使用及html报告解析

MultiQC aggregates results from bioinformatics analyses across many samples into a single report.
将fastqc生成的多个报告整合成一个报告,方便查看所有测序数据的质量。

用法

(base) [s16@R730 teaching]$ multiqc -h
Usage: multiqc [OPTIONS] <analysis directory>

  MultiQC aggregates results from bioinformatics analyses across many samples into a single report.

  It searches a given directory for analysis logs and compiles a HTML report.
  It's a general use tool, perfect for summarising the output from numerous bioinformatics tools.
  它在给定目录中搜索分析日志并编译HTML报告。  
  这是一个通用的工具,完美地总结了从众多输出生物信息学的工具。  

  To run, supply with one or more directory to scan for analysis results. To
  run here, use 'multiqc .'

  See http://multiqc.info for more details.

  Author: Phil Ewels (http://phil.ewels.co.uk)

Options:
  #覆盖同名报告
  -f, --force                     Overwrite any existing reports
  #记录绝对路径,默认情况下,记录的格式是:绝对路径和文件名
  -d, --dirs                      Prepend directory to sample names
  #记录一层路径,后跟num,指定记录num层路径;当num为负整数时,则从路径的起始处取
  -dd, --dirs-depth INTEGER       Prepend [INT] directories to sample names.Negative number to take from start of path.
  #保留样本名称
  -s, --fullnames                 Do not clean the sample names (leave as full file name)
  #指定报告标题,没指定则默认使用文件名
  -i, --title TEXT                Report title. Printed as page header, used for filename if not otherwise specified.
  #自定义评论,将打印在报告的顶部
  -b, --comment TEXT              Custom comment, will be printed at the top of the report.
  #更改输出文件的名称
  -n, --filename TEXT             Report filename. Use 'stdout' to print to standard out.
  #指定报告输出路径
  -o, --outdir TEXT               Create report in the specified output
                                  directory.
  #指定报告输出模板,有default|default_dev|geo|sections|simple
  -t, --template [default|default_dev|gathered|geo|sections|simple] Report template to use.
  #只使用这个关键字标记的模块,例如:RNA
  --tag TEXT                      Use only modules which tagged with this keyword, eg. RNA
  #展示可利用的tags
  --view-tags, --view_tags        View the available tags and which modules they load
  #指定的文件、文件夹不进行统计
  -x, --ignore TEXT               Ignore analysis files (glob expression)
  #忽略指定的样本
  --ignore-samples TEXT           Ignore sample names (glob expression)
  #忽略符号链接的目录和文件
  --ignore-symlinks               Ignore symlinked directories and files
  #使用日志文件名作为示例名称
  --fn_as_s_name                  Use the log filename as the sample name
  #在生成报告期间重命名样本名称的TSV文件路径
  --replace-names PATH            Path to TSV file to rename sample names during report generation
  #包含报告中用于重命名按钮的备选示例名称的TSV文件的路径
  --sample-names PATH             Path to TSV file containing alternative  sample names for renaming buttons in the report
  #包含报告显示/隐藏模式的TSV文件的路径
  --sample-filters PATH           Path to TSV file containing show/hide patterns for the report
  #文件每行对应一个文件
  -l, --file-list                 Supply a file containing a list of file paths to be searched, one per row
  #除指定模块,其他模块均运行
  -e, --exclude [module name]     Do not use this module. Can specify multiple times.
  #运行指定模块
  -m, --module [module name]      Use only this module. Can specify multiple times.
  #生成指定的data目录
  --data-dir                      Force the parsed data directory to be created.
  #指定不生成data目录
  --no-data-dir                   Prevent the parsed data directory from being created.
  #解析数据目录,默认格式是:tsv; 此参数主要针对有大量样本需要处理
  -k, --data-format [tsv|json|yaml]
                                  Output parsed data in a different format.
                                  Default: tsv
  #压缩data目录
  -z, --zip-data-dir              Compress the data directory.
  #不生成报告,只生成data目录和图
  --no-report                     Do not generate a report, only export data
                                  and plots
  #除报告外,还将图表导出为静态图像
  -p, --export                    Export plots as static images in addition to the report
  #只使用平面图(静态图)
  -fp, --flat                     Use only flat plots (static images)
  #只使用交互式图表(HighCharts Javascript)
  -ip, --interactive              Use only interactive plots (HighCharts Javascript)
  #使用严格的检测(验证)来帮助编写代码
  --lint                          Use strict linting (validation) to help code development
  #要输出pdf版本报告必须先安装Pandoc
  #指定输出文件是PDF文件,默认输出是HTML文件,此参数需搭配参数-t simple, 且pandoc模块必须存在,否则无法生成pdf
  --pdf                           Creates PDF report with 'simple' template.
                                  Requires Pandoc to be installed.
  #不将生成的报告上传到MegaQC,即使发现了MegaQC选项
  --no-megaqc-upload              Don't upload generated report to MegaQC, even if MegaQC options are found
  #需要加载的特定配置文件,位于MultiQC dir / home dir / working dir目录中的配置文件之后。
  -c, --config PATH               Specific config file to load, after those in MultiQC dir / home dir / working dir.
  #在命令行上指定MultiQC配置YAML
  --cl-config, --cl_config TEXT   Specify MultiQC config YAML on the command line
  #当存在两个同名的文件时,增加此参数可以区别两者,避免前者的数据被后者所覆盖
  -v, --verbose                   Increase output verbosity.
  #只显示日志警告
  -q, --quiet                     Only show log warnings
  #在报告中添加MultiQC运行所需时间的分析 
  --profile-runtime               Add analysis of how long MultiQC takes to run to the report
  #禁用彩色日志输出
  --no-ansi                       Disable coloured log output
  #自定义CSS文件添加到最终的报告
  --custom-css-file PATH          Custom CSS file to add to the final report
  #查看版本
  --version                       Show the version and exit.
  #查看帮助文档
  -h, --help                      Show this message and exit.

示范

(base) [s16@R730 teaching]$ multiqc demo.rna_1_fastqc.zip demo.rna_2_fastqc.zip

  /// MultiQC 🔍 | v1.12

|           multiqc | Search path : /home/s16/data/teaching/demo.rna_1_fastqc.zip
|           multiqc | Search path : /home/s16/data/teaching/demo.rna_2_fastqc.zip
|         searching | ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 2/2
|            fastqc | Found 2 reports
|           multiqc | Compressing plot data
|           multiqc | Report      : multiqc_report.html
|           multiqc | Data        : multiqc_data
|           multiqc | MultiQC complete

运行完成后生成了一个:multiqc_report.html文件;一个multiqc_data目录

MultiQC报告内容解析

1、General Statistics

%Dups:重复reads的比例
%GC:GC含量占总碱基的比例
Length:测序长度
M seqs:总测序量(单位:millions)


General Statistics
2、Sequence Counts

横坐标:reads的数量;纵坐标:样本


Sequence Counts
3、Sequence Quality Histograms

reads中平均每个碱基位置的质量值
横坐标:碱基位置;纵坐标:质量分数;
质量分数为-10log10PP代表错误率),质量分数为40的时候,p就是0.0001,说明测序质量非常好。
绿色区间(Q30-Q40):质量很好,
橙色区间(>Q20):质量合格;
红色区间(<Q20):质量不好。

Sequence Quality Histograms

4、Per Sequence Quality Scores

序列平均质量分数与reads数的统计
横坐标:平均序列质量分数;纵坐标:reads数
绿色区间:质量很好;
橙色区间:质量合格;
红色区间:质量不好;
当峰值小于27时:warning;
当峰值小于20时:fail。


Per Sequence Quality Scores
5、Per Base Sequence Content

每个read各位置碱基ATCG的比列
对所有reads的每一个位置,统计ATCG四种碱基的分布
横坐标:碱基位置;纵坐标——样本;
%T——红色;%C——蓝色;%A——绿色,%G——紫色;
reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色;
正常情况下每个位置每种碱基出现的概率是相近的;
如果ATGC在任何位置的差值大于10%:warning;
如果ATGC在任何位置的差值大于20%:fail。
【此处的GC分布有波动的reads碱基长度要在trim过程中去除:HEADCROP:12】


Per Base Sequence Content

demo_rna_1

demo_rna_2
6、Per Sequence GC Content

reads的平均GC含量
横坐标:GC含量百分比;纵坐标:数量
正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
偏离理论分布的reads超过15%时:warning。
偏离理论分布的reads超过30%时:fail。


Per Sequence GC Content
7、Per Base N Content

每个reads碱基位置N的含量
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。
横坐标:read中的位置;纵坐标:N的数量比;
当任意位置的N的比例超过5%:warning;
当任意位置的N的比例超过20%:fail。


Per Base N Content
8、Sequence Length Distribution

序列长度分布
横坐标:序列长度(bp);纵坐标:reads数量
序列长度越长的reads数越多越好


Sequence Length Distribution
9、Sequence Duplication Levels

每个序列的相对重复水平
横坐标:每个序列的相对重复水平;纵坐标:在文库中的比例
当非unique的reads占总数的比例大于20%时:warning;
当非unique的reads占总数的比例大于50%时:fail。
测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在。


Sequence Duplication Levels
10、Overrepresented sequences

文库中过表达序列的比例
横坐标:过表达序列的比例;纵坐标:样本
过表达序列的比例>0.1%:warning
过表达序列的比例>1%:fail。
一条序列的重复数,因为一个转录组中有非常多的转录本,一条序列再怎么多也不太会占整个转录组的一小部分(比如1%),如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。这个模块列出来大于全部转录组1%的reads序列,但是因为用的是前100,000条reads,所以其实参考意义不大


Overrepresented sequences
11、Adapter Content

接头含量
横坐标:碱基位置;纵坐标:占序列的百分比
>5%:warning;>10%:fail


Adapter Content
12、Status Checks

状态检查,对以上11个项目的好坏做一个整体的评估:
正常(绿色);轻微异常(橙色);非常异常(红色)


Status Checks

部分内容参考:https://www.jianshu.com/p/85da4dcc6020
仅供学习使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容