【零基础练习一个RNA-seq分析】CH4:序列比对(hisat2)

这里算是正式进入了RNA-seq的数据分析阶段。第一个工序是序列比对。比对的基本原理就是将打断后的read回贴到index上。具体理论部分参考https://www.jianshu.com/p/681e02e7f9af

获得index

人和小鼠的index有现成的,我们去hista2官网把人和小鼠的index都下载了。wget实在太慢了,我就用迅雷下载并且解压后拷贝到云服务器上。

HISAT2官网

开始比对

输入代码,注意数据文件的生物来源

for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done

我们再来看看hisat2的用法
基本语句:hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> } [-S <hit>]
-x <参考基因组文件前缀>
-1 <双端测序的第一个文件>
-2 <双端测序的第二个文件>
-S <输出SAM文件>
慢慢对比吧,可能要花上很长时间。这一步对memory有较高的要求。

比对后处理

因为人的数据缺少control,所以我们之后用小鼠的4组数据开始分析。
在得到SAM文件后,我们需要将其转换为bam文件,进行排序后建立索引。

for i in `seq 56 62`
do
    samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam
    samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
    samtools index SRR35899${i}_sorted.bam
done

具体原理参见https://www.jianshu.com/p/681e02e7f9af

质控结果

python2环境下安装RSeQC后进行进行质控流程,看看

pip install RSeQC #安装软件
for i in `seq 56 62`; do bam_stat.py -i SRR35899${i}_sorted.bam; done #质控

这部分有点虎头蛇尾,关于IGV相关内容之后再写吧。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容