kallisto是一种高效、消耗内存小的RNA-seq分析软件,具体原理可见https://blog.csdn.net/qq_35610231/article/details/88556422
和以往分析流程不同的是,kallisto不需要匹配到基因组某个位置,而是通过pattern将reads直接匹配到转录组某个转录本上,不需要具体匹配位置。基于的分析公式:RNA-seq分析时匹配到转录本的具体位置并不影响map到该转录本的reads数目。
#下载基因组数据,注意kallisto只需要转录本的序列
cd ~/refs
URL=ftp://ftp.ensembl.org/pub/release-96/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz
wget -nc $URL
gunzip -k -f ${URL##*/}
#建立index
REF=~/refs/Homo_sapiens.GRCh38.cdna.all.fa
IDX=~/refs/Homo_sapiens.GRCh38.cdna.all.idx
kallisto index -i $IDX $REF
#双端测序reads比较
SRR=SRR3191542
R1=reads/${SRR}_1.fastq
R2=reads/${SRR}_2.fastq
kallisto quant -i $IDX -o results/$SRR $R1 $R2
#单端测序reads需要提供更多参数,-l,-s可以自己选择,这里输入默认参数
kallisto quant -i $IDX -o results/$SRR --single -l 187 -s 70 $R1