软件:FastQC、cutadapt、trimgalore、hisat2、samtools、stringtie
文件:raw data和基因组文件
一、软件下载及安装
通过wget从各软件官网下载对应软件,解压后添加到环境变量。
命令:
vim ~/.bashrc
添加软件路径
source ~/.bashrc
完成环境变量设置
二、流程
1. FastQC进行质控
fastqc -o xxx(输出位置) -f xxx(输入的文件格式)-c xxx(输入的文件名称)
完成后得到gz压缩包和html格式的报告网页
2. trimgalore进行过滤
trim_galore [options] <filename>
--adapter 输入adapter序列。程序会自动寻找三种平台中对应的adapter。也可直接输入--illumina、--nextera和--small_rna这三种平台。
--quality<int> 设定phred quality阈值。默认20(99%的read质量),如果测序深度较深,可以设定25
--phred33 设定记分方式,代表Q+33=ASCII码的方式来记分方式。这是默认值。
--paired 对于双端结果,一对reads中若一个read因为质量或其他原因被抛弃,则对应的另一个read也抛弃。
--output_dir 输出目录,需确保路径存在并可以访问
--length 设定长度阈值,小于此长度会被抛弃。
--strency 设定可以忍受的前后adapter重叠的碱基数,默认是1。
-e 设定默认质量控制数,默认是0.1,即ERROR rate大于10%的read 会被舍弃,如果添加来--paired参数则会舍弃一对reads
<filename> 如果是采用illumina双端测序的测序文件,应该同时输入两个文件。
e.g. trim_galore -output_xxx --paired --length xx --quality xx <filename1><filename2>
3. hisat2进行mapping
建立索引:hisat2-build -p 4 xxxx.fa xxxx(文件名称)
eg:hisat2-build -p 4 Brassica.fa Brassica
进行比对:
3.1 单端测序
hisat2 -x (index所在的文件路径和index前缀) -p 20(线程数) -U(单端测序数据输入) reads.fq(输入的测序序列位置) -S align.sam(表示输出格式指定为sam文件 align.sam 输出序列名+后缀名sam)
3.2 双端测序
hisat2 -x (同上) -p 20 -1 R1.fq -2 R2.fq -S align.sam
双端测序的使用方法 分别用-1 -2 指定两端的输入
4. samtools将sam文件转换为bam文件
samtools view -bS xxx.sam > xxx.bam
对bam文件进行排序
samtools sort -@ 20 -o xxx.bam xxx.sam
-@: 线程数 -o: 输出bam文件 最后一项为输入文件
5. stringtie进行reads计数
stringtie <输入文件> -G xxx.gtf -o xxx -p xx -A xxxx
-G 注释文件
-o 输出文件路径及名称
-p 线程数
-A 对输出的gtf统计基因表达量,并以一个tab分割的文件输出,这里需要提交输出的文件名
注:gff文件需要转换为gtf文件,用gffread进行转换
gffread xxx.gff(输入文件) -T -o xxx.gtf gff转gtf
gffread xxx.gtf(输入文件) -o- > xxx.gff gtf转gff
在次之前需要更改gff文件中带有mRNA的那一行的ID名称,与gene行不同即可。
sed -i -e '/mRNA/d' xxx.gff
或用grep方法
grep -v 'mRNA' xxx.gff > xxx.gff
得到数据后用DEseq2进行处理