Fastqc用腻了，来试下这个R包吧

平时拿到数据后首先要进行质控环节，其中FastaQC软件的使用最为广泛，它可以为每一个样品生成一个html报告和一个‘zip’ 文件，zip解压之后生成fastqc_data.txt和summary.txt的文件，里面包含了测序样品的质量信息，但是如果有几十个甚至上百个数据时候，我们总不可能一一的打开每个html文件查看，因此Multiqc软件成为了解决这一问题的首选方案，可以基于结果zip文件进行多样品的整合分析，信息生成在一张报告上。然而哪里有问题，哪里就有R包，对于R语言爱好者，这里再提供一种可替代的方法--fastqcr包，好处就是不管有没有linux环境时候，都可以快速对数据进行质检，一起来学习下吧~~

主要功能

1) 安装和运行

fastqc_install(): Unix环境下(MAC OSX和Linux)安装最新版的FastaQC
fastqc(): R中运行FastQC

2) 汇总多样品FastQC报告

qc <- qc_aggregate():合并多样品的FastQC报告至一个数据框
summary(qc):针对qc_aggregate的结果生成汇总表
qc_stats(): FastaQC报告的一般统计信息

3) 查看问题

qc_fails(qc):显示失败的样本或模块。
qc_warns(qc): 显示警告的样本或模块。
qc_problems(qc): qc_fails()和qc_warns()的并集。显示哪些样本或模块失败或警告。

4) 导入绘制Fastqc报告

qc_read(): 读取FastQC数据到R种
qc_plot(): 绘制FastQC数据

5）生成单样品和多样品QC报告

qc_report():创建一个HTML文件，其中包含一个或多个文件的FastQC报告。输入可以是包含多个FastQC报告的目录，也可以是单个样本FastQC报告。

安装加载

## 两种方式
# Cran
install.packages("fastqcr")

# Github
if(!require(devtools)) install.packages("devtools")
devtools::install_github("kassambara/fastqcr")

library(fastqcr)

使用

fastqc函数，输入样品fq格式文件，输出样品的zip压缩包。


fastqc(fq.dir = "~/Documents/FASTQ", # FASTQ files directory
       qc.dir = "~/Documents/FASTQC", # Results direcory
       threads = 4                    # Number of threads
       )

Demo数据：在该包的目录文件下有现成的5个样品S1-S5的zip压缩包文件，这里直接作为示例数据进行演示

library(fastqcr)
# Demo QC dir
qc.dir <- system.file("fastqc_results", package = "fastqcr")
qc.dir
# 列出文件
list.files(qc.dir)
[1] "S1_fastqc.zip" "S2_fastqc.zip" "S3_fastqc.zip" "S4_fastqc.zip" "S5_fastqc.zip"

汇总FastQC报告

qc <- qc_aggregate(qc.dir)
qc

汇总信息

生成7列信息：

sample：样品名字
module：fastqc模块
status：每个样品的fastqc 模块特征
tot.seq: 全部序列
seq.length：测序长度
pct.gc： GC含量
pct.dup：重复序列百分比

查看质控状态是“Warn”或者“FAIL”的样品及模块

library(dplyr)
qc %>%
  select(sample, module, status) %>%    
  filter(status %in% c("WARN", "FAIL")) %>%
  arrange(sample)

Warn和Fail信息

统计信息,查看每个模块各种状态上的样品个数

# Summary of qc
summary(qc)
# 生成一般统计信息
qc_stats(qc)

汇总信息

我们也可以针对模块特征去查询

# 哪些样品是失败的
qc_fails(qc, "module")
# 看那些样品是警告
qc_warns(qc, "module")
# 看哪些样品是有问题的 包含警告与失败
qc_problems(qc, "module")
# 另外加上compact = FALSE使表格不那么紧凑
qc_problems(qc, "module", compact = FALSE)

问题模块查询

生成HTML报告

直接全部样品生成报告，类似Multiqc功能。

qc.dir <- system.file("fastqc_results", package = "fastqcr")
qc.dir
# 生成报告
qc_report(qc.dir, result.file = "~/Desktop/multi-qc-result",
          experiment = "Exome sequencing of colon cancer cell lines")

多样品汇总

我们也可以针对单样品生成报告,比如只生成S1样品，加上interpret= TRUE参数具有交互式。

qc.file <- system.file("fastqc_results", "S1_fastqc.zip", package = "fastqcr")
qc.file
# 生成报告
 qc_report(qc.file, result.file = "one-sample-report-with-interpretation",
   interpret = TRUE)

单样品

针对某个模块画图

我们都知道fastqc基本包括如下几个模块：

“Summary”,
“Basic Statistics”,
“Per base sequence quality”,
“Per sequence quality scores”,
“Per base sequence content”,
“Per sequence GC content”,
“Per base N content”,
“Sequence Length Distribution”,
“Sequence Duplication Levels”,
“Overrepresented sequences”,
“Adapter Content”

若我们只想快速度看其中某个模块的情况，通过qc_plot(qc,"模块名称")即可出图

library(patchwork)
A1 <- qc_plot(qc.file, "Per sequence GC content")
A2 <- qc_plot(qc.file, "Per base sequence quality")
A3 <- qc_plot(qc.file, "Per sequence quality scores")
A4 <- qc_plot(qc.file, "Per base sequence content")
(A1+A2)/(A3+A4)

针对模块作图

总之该包的函数使用非常简单，花费一点点时间即可快速掌握，除了Multiqc软件，该方法其实也不失为一种备选方案。

参考： http://www.sthda.com/english/wiki/fastqcr-an-r-package-facilitating-quality-controls-of-sequencing-data-for-large-numbers-of-samples

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343