这里算是正式进入了RNA-seq的数据分析阶段。第一个工序是序列比对。比对的基本原理就是将打断后的read回贴到index上。具体理论部分参考https://www.jianshu.com/p/681e02e7f9af

获得index

人和小鼠的index有现成的，我们去hista2官网把人和小鼠的index都下载了。wget实在太慢了，我就用迅雷下载并且解压后拷贝到云服务器上。

HISAT2官网

开始比对

输入代码，注意数据文件的生物来源

for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done
for ((i=59;i<=62;i++));do hisat2 -t -x ~/lyx/reference/index/mm10/genome -1 fastq/SRR35899${i}.sra_1.fastq -2 fastq/SRR35899${i}.sra_2.fastq -S SRR35899${i}.sam ;done

我们再来看看hisat2的用法
基本语句：hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> } [-S <hit>]
-x <参考基因组文件前缀>
-1 <双端测序的第一个文件>
-2 <双端测序的第二个文件>
-S <输出SAM文件>
慢慢对比吧，可能要花上很长时间。这一步对memory有较高的要求。

比对后处理

因为人的数据缺少control，所以我们之后用小鼠的4组数据开始分析。
在得到SAM文件后，我们需要将其转换为bam文件，进行排序后建立索引。

for i in `seq 56 62`
do
    samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam
    samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
    samtools index SRR35899${i}_sorted.bam
done

具体原理参见https://www.jianshu.com/p/681e02e7f9af

质控结果

python2环境下安装RSeQC后进行进行质控流程，看看

pip install RSeQC #安装软件
for i in `seq 56 62`; do bam_stat.py -i SRR35899${i}_sorted.bam; done #质控

这部分有点虎头蛇尾，关于IGV相关内容之后再写吧。

【零基础练习一个RNA-seq分析】CH4：序列比对（hisat2）

【零基础练习一个RNA-seq分析】CH4：序列比对（hisat2）

获得index

开始比对

比对后处理

质控结果

推荐阅读更多精彩内容