Linux012 Fastqc安装及使用

1.conda安装

2.使用Miniconda安装fastqc

conda install fastqc

3.下载测试数据

sra toolkit：Linux009 Miniconda安装生信软件
以Miseq测序数据为例（数据量小，方便测试）

image.png

nohup prefetch SRR11429517 >/dev/null 2> /dev/null &   ###将下载进程放入后台运行

下载完成的SRA数据需要使用fastq-dump命令转化为fastq格式

fastq-dump SRR11429517.sra ###使用fastq-dump命令转化.sra格式为.fastq格式

运行fastqc

fastqc  SRR11429517.fastq

4.Fastqc用法：

FastQC-高通量序列质量控制分析工具

概要
fastqc seqfile1 seqfile2 .. seqfileN
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
描述
FastQC读取一组序列文件，并从每个序列文件中生成一份质量控制报告，该报告由许多不同的模块组成，每个模块都将帮助您识别数据中潜在的不同类型的问题。
如果在命令行上未指定要处理的文件，则该程序将作为交互式图形应用程序启动。如果在命令行上提供了文件，则程序将在不需要用户交互的情况下运行。在这种模式下，它适合包含在标准化分析管道中。
参数

参数	结果
-h --help	打印此帮助文件并退出
-v --version	打印程序的版本并退出
-o --outdir	在指定的输出目录中创建所有输出文件。请注意，该目录必须存在，因为程序不会创建该目录。如果未设置此选项，则将在与已处理序列文件相同的目录中创建每个序列文件的输出文件
-j --java	提供要用于启动fastqc的Java二进制文件的完整路径。如果未提供，则假定Java在您的路径中
-f --format	绕过常规序列文件格式检测，并强制程序使用指定的格式。有效格式为bam，sam，bam_mapped，sam_mapped和fastq
-t --threads	指定可以同时处理的文件数。每个线程将分配250MB的内存，因此您运行的线程数量不应超过可用内存所能应付的数量，并且在32位计算机上运行的线程数不应超过6
-c	指定一个非默认文件，该文件包含污染物列表，以针对过量表示的序列进行筛选。该文件必须包含以name [tab] sequence形式出现的一组命名污染物。以哈希开头的行将被忽略
-a --adapters	指定一个非默认文件，该文件包含--adapters适配器序列的列表，将对该库进行显式搜索。该文件必须包含以名称[tab]序列的形式命名的适配器集。以哈希开头的行将被忽略
-l --limits	指定一个非缺省文件，该文件包含一组条件，将用于确定各个模块的警告/错误限制。该文件还可用于有选择地从输出中一起删除某些模块。该格式需要镜像在Configuration文件夹中找到的默认limits.txt文件
-k --kmers	指定要在Kmer内容模块中查找的Kmer的长度。指定的Kmer长度必须在2到10之间。如果未指定，则默认长度为7
-q --quiet	禁止在stdout上显示所有进度消息，并且仅报告错误
-d --dir	选择用于生成报告图像时写入的临时文件的目录。如果未指定，则默认为系统临时目录

5. fastqc报告

经过fastqc运行后的数据，会得到后缀是html的文件，试用浏览器打开后，就是图表化的fastqc报告：

image.png