1.从SRA数据库选择原始测序数据并下载【下载之前看一眼是single还是paired】
./fastq-dump --split-files SRR1186241 &
结果:在执行命令的目录下出现SRR1186241_1.fastq和SRR1186241_2.fastq
2.进行测序数据的质量检测
fastqc SRR*41_1.fastq
结果:主要看有没有引物,(目前从SRA上下载的数据基本都去除了引物)
显示有引物就用cutadapt去除
3.匹配基因组(hg19 human)
工具:HISAT2
(1)基因组索引,直接下载http://daehwankimlab.github.io/hisat2/download/#h-sapiens
(2)匹配基因组索引生成sam
hisat2 -x genome -1 1_1.fastq -2 1_2.fastq -S 1.sam &
4.对sam排序并转换成bam
samtools view -F 4 -q 30 -b 1.sam > 1.bam &
samtools sort 1.bam -o 1_sort.bam
5.HTseq-count计数【-i参数影响输出的基因名】
htseq-count -f bam -t exon -i gene_name 1_sort.bam gencode.v32lift37*gff3 > 1.txt &