软件：FastQC、cutadapt、trimgalore、hisat2、samtools、stringtie

文件：raw data和基因组文件

一、软件下载及安装

通过wget从各软件官网下载对应软件，解压后添加到环境变量。

命令：

vim ~/.bashrc

添加软件路径

source ~/.bashrc

完成环境变量设置

二、流程

1. FastQC进行质控

fastqc -o xxx（输出位置） -f xxx（输入的文件格式）-c xxx（输入的文件名称）

完成后得到gz压缩包和html格式的报告网页

2. trimgalore进行过滤

trim_galore [options] <filename>

--adapter 输入adapter序列。程序会自动寻找三种平台中对应的adapter。也可直接输入--illumina、--nextera和--small_rna这三种平台。

--quality<int> 设定phred quality阈值。默认20（99%的read质量），如果测序深度较深，可以设定25

--phred33 设定记分方式，代表Q+33=ASCII码的方式来记分方式。这是默认值。

--paired 对于双端结果，一对reads中若一个read因为质量或其他原因被抛弃，则对应的另一个read也抛弃。

--output_dir 输出目录，需确保路径存在并可以访问

--length 设定长度阈值，小于此长度会被抛弃。

--strency 设定可以忍受的前后adapter重叠的碱基数，默认是1。

-e 设定默认质量控制数，默认是0.1，即ERROR rate大于10%的read 会被舍弃，如果添加来--paired参数则会舍弃一对reads

<filename> 如果是采用illumina双端测序的测序文件，应该同时输入两个文件。

e.g. trim_galore -output_xxx --paired --length xx --quality xx <filename1><filename2>

3. hisat2进行mapping

建立索引：hisat2-build -p 4 xxxx.fa xxxx（文件名称）

eg:hisat2-build -p 4 Brassica.fa Brassica

进行比对：

3.1 单端测序

hisat2 -x （index所在的文件路径和index前缀） -p 20（线程数） -U（单端测序数据输入） reads.fq（输入的测序序列位置） -S align.sam（表示输出格式指定为sam文件 align.sam 输出序列名+后缀名sam）

3.2 双端测序

hisat2 -x （同上） -p 20 -1 R1.fq -2 R2.fq -S align.sam

双端测序的使用方法分别用-1 -2 指定两端的输入

4. samtools将sam文件转换为bam文件

samtools view -bS xxx.sam > xxx.bam

对bam文件进行排序

samtools sort -@ 20 -o xxx.bam xxx.sam

-@: 线程数 -o: 输出bam文件最后一项为输入文件

5. stringtie进行reads计数

stringtie <输入文件> -G xxx.gtf -o xxx -p xx -A xxxx

-G 注释文件

-o 输出文件路径及名称

-p 线程数

-A 对输出的gtf统计基因表达量，并以一个tab分割的文件输出，这里需要提交输出的文件名

注：gff文件需要转换为gtf文件，用gffread进行转换

gffread xxx.gff（输入文件） -T -o xxx.gtf gff转gtf

gffread xxx.gtf（输入文件） -o- > xxx.gff gtf转gff

在次之前需要更改gff文件中带有mRNA的那一行的ID名称，与gene行不同即可。

sed -i -e '/mRNA/d' xxx.gff

或用grep方法

grep -v 'mRNA' xxx.gff > xxx.gff

得到数据后用DEseq2进行处理

转录组分析流程