前言
做RNAseq有半年了,最近比较有时间,所以想把流程记录一下。并且搞清楚很多知其然而不知其所以然的细节步骤。
分析流程
- 从获取原始数据,中间经历过滤、比对,到featureCounts统计基因上的reads数,这些都需要在服务器上操作,是传统意义上的上游流程。
- 从reads数统计的结果,经过表达矩阵构建、基因ID转换、去冗余ID、表达量单位转换,最终拿到可靠的表达矩阵,这些过程需要在R中完成,属于下游流程的开头。这一部分比较复杂,不同物种,数据格式调整都有很多差异,我做了师兄师姐们的human数据、小鼠数据和大鼠数据,通常这一步骤都需要花费一些时间。
- 拿到表达矩阵,然后用R走差异分析、富集分析等等,这属于下游分析。
上游分析
第一次操作时要经历以下步骤,申请服务器的子账号,会有一个操作手册,按照方法登陆之后,后续操作都在这个服务器中进行,操作方式类似linux ,学过这个的应该会容易操作。
1.天河二号hillstone secure登录
2.登录WinSCP,密钥登录(见天河手册)
3.下载PuTTY,登录后开始作业
4.在PUTTY中下载hisat2,samtool软件、featureCounts软件并且成功安装。
5.下载人类基因组序列,fasta文件,建立索引,或者直接在官网hisat2下载索引。
注:安装软件时,先解压到新建目录下面,然后执行configure(参考百度),执行make 命令,执行make install命令进行安装。最后建立环境变量,在任何位置都可以打开这个软件。可以在根目录打开.bashrc文件,加入新的环境变量语句。
#!/bin/sh
yhrun -N 1 -n 1 -p work hisat2 -q -x ../reference/mRatBN7.2 -1 ../rawdata/A1-con_FRAS210203403-2r_1.clean.fq.gz -2 ../rawdata/A1-con_FRAS210203403-2r_2.clean.fq.gz -S A1-con.sam
yhrun -N 1 -n 1 -p work samtools view -bS A1-con.sam > A1-con.bam
yhrun -N 1 -n 1 -p work samtools sort A1-con.bam -o A1-con.sorted.bam
yhrun -N 1 -n 1 -p work featureCounts -p -t exon -g gene_id -a ../reference/mRatBN7.2_genomic.gtf -o counts.txt \
A1-sorted.bam A2-sorted.bam A3-sorted.bam \
A4-sorted.bam A5-sorted.bam
awk -F '\t' '{print $1,$7,$8,$9,$10,$11,$12,$13,$14,$15,$16,$17,$18,$19,$20,$21}' OFS='\t' counts.txt > counts_matrix.txt
分析成功会得到这样的运行结果文件