转录组分析流程

软件:FastQC、cutadapt、trimgalore、hisat2、samtools、stringtie        

文件:raw data和基因组文件

一、软件下载及安装

通过wget从各软件官网下载对应软件,解压后添加到环境变量。

命令:

vim ~/.bashrc

添加软件路径

source ~/.bashrc

完成环境变量设置

二、流程

1. FastQC进行质控 

fastqc -o xxx(输出位置) -f xxx(输入的文件格式)-c xxx(输入的文件名称)

完成后得到gz压缩包和html格式的报告网页

2. trimgalore进行过滤

trim_galore [options] <filename>

--adapter  输入adapter序列。程序会自动寻找三种平台中对应的adapter。也可直接输入--illumina、--nextera和--small_rna这三种平台。

--quality<int>  设定phred quality阈值。默认20(99%的read质量),如果测序深度较深,可以设定25

--phred33      设定记分方式,代表Q+33=ASCII码的方式来记分方式。这是默认值。

--paired          对于双端结果,一对reads中若一个read因为质量或其他原因被抛弃,则对应的另一个read也抛弃。

--output_dir  输出目录,需确保路径存在并可以访问

--length        设定长度阈值,小于此长度会被抛弃。

--strency    设定可以忍受的前后adapter重叠的碱基数,默认是1。

-e  设定默认质量控制数,默认是0.1,即ERROR rate大于10%的read 会被舍弃,如果添加来--paired参数则会舍弃一对reads

<filename>  如果是采用illumina双端测序的测序文件,应该同时输入两个文件。

e.g. trim_galore -output_xxx --paired --length xx --quality xx  <filename1><filename2>

3. hisat2进行mapping

建立索引:hisat2-build -p 4 xxxx.fa xxxx(文件名称)

eg:hisat2-build -p 4 Brassica.fa Brassica

进行比对:

3.1 单端测序

hisat2 -x (index所在的文件路径和index前缀) -p 20(线程数) -U(单端测序数据输入) reads.fq(输入的测序序列位置) -S align.sam(表示输出格式指定为sam文件 align.sam 输出序列名+后缀名sam)

3.2 双端测序

hisat2 -x (同上) -p 20 -1 R1.fq -2 R2.fq -S align.sam 

双端测序的使用方法 分别用-1 -2 指定两端的输入

4. samtools将sam文件转换为bam文件

samtools view -bS xxx.sam > xxx.bam

对bam文件进行排序

samtools sort -@ 20 -o xxx.bam xxx.sam

-@: 线程数   -o: 输出bam文件  最后一项为输入文件

 5. stringtie进行reads计数

stringtie <输入文件> -G xxx.gtf -o xxx -p xx -A xxxx

-G 注释文件

-o 输出文件路径及名称

-p 线程数

-A 对输出的gtf统计基因表达量,并以一个tab分割的文件输出,这里需要提交输出的文件名

注:gff文件需要转换为gtf文件,用gffread进行转换

gffread xxx.gff(输入文件) -T -o xxx.gtf   gff转gtf

gffread xxx.gtf(输入文件) -o- > xxx.gff   gtf转gff

在次之前需要更改gff文件中带有mRNA的那一行的ID名称,与gene行不同即可。

sed -i -e '/mRNA/d' xxx.gff

或用grep方法

grep -v 'mRNA' xxx.gff > xxx.gff

得到数据后用DEseq2进行处理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容