FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,得到多个测序数据的质量参数,让我们对测序数据质量有个初步的认识,从而判断后续的质控如何进行。
-
FastQC的下载与安装
1、安装路径
cd /data/hushy/tools/
2、下载
nohup wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip &
3、解压
unzip fastqc_v0.11.5.zip
4、进入解压目录
cd /data/hushy/tools/FastQC
5、设置可执行权限
chmod u+x fastqc #chmod 754 fastqc
6、配置环境变量
vim ~/.bashrc
export PATH="/data/hushy/tools/FastQC:$PATH" # 添加至文件最后一行
source ~/.bashrc #使配置文件生效
fastqc --help #测试
-
FastQC基本用法
- 语法
fastqc seqfile1 seqfile2 .. seqfileN
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
- 常用参数说明
-o --outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
-f --format 指定输入文件的格式
--extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
-t --threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯
--min_length 设置序列的最小长度,≥最长read的长度
-c --contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到
-a --adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
-q --quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况
- 示例
fastqc -f fastq -o /data/hushy/seqdata/RESP/study11/analysis/ /data/hushy/seqdata/RESP/study11/raw_reads/SRR6994637_1.fastq.gz /data/hushy/seqdata/RESP/study11/raw_reads/SRR6994637_2.fastq.gz
unzip /data/hushy/seqdata/RESP/study11/analysis/SRR6994637_1_fastqc.zip
# 将fastqc.html文件下载至本地,即可查看质控报告
-
fastQC批处理
#!/bin/bash
#program:
# Checking sequencing reads quality with FASTQC
#2019/7/24
for id in *fastq
do
echo $id
/data/hushy/tools/FastQC/fastqc -f fastq -o /data/hushy/seqdata/RESP/study11/analysis $id
Done