RBP AS生信流程（二）STAR比对

STAR比对

比对原理参考生信媛的文章：https://www.jianshu.com/p/16c938fd3bd6
建立索引：

STAR --runMode genomeGenerate \
--genomeDir ~/HF/GSE55296/HF/afterfastp/SRR1175538\index --genomeFastaFiles ~/HF/Homorefer/humanhg38/hg38.fa \
--sjdbGTFfile ~/HF/Homorefer/humangtf/gencode37.gtf --sjdbOverhang 75 
#这个参数是用于可变剪接的预测，一般设置为100（101-1），也可设置为测序长度减1

注意参考基因组fasta和gtf注释文件的染色体名称必须保持一致，都是chr1、chr2、chr3或1、2、3。

STAR报错1

2020-08-10：

用中科院服务器构建好了STAR的index文件，中科院代码如下所示：

STAR --runMode genomeGenerate --runThreadN 10 \
--genomeDir /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/StarIndex/ \
--genomeFastaFiles /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/GRCh37.primary_assembly.genome.fa \
--sjdbGTFfile /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/gencode.v27lift37.annotation.gtf 
--genomeSAindexNbases 14 --genomeChrBinNbits 18 --genomeSAsparseD 1 --sjdbOverhang 100

放在/home/sxw/HF/index里，现在尝试在GSE46224里运行STAR：

#在/home/sxw/HF/GSE46224/normal/afterfastp文件夹里，目前有SRR830965-SRR830972这8个双端测序文件
STAR \
--genomeDir /home/sxw/HF/Index \ #索引文件夹
--runThreadN 20 \ #20个线程
--readFilesCommand zcat \ #输入的测序文件是fq.gz格式的（未解压缩的）
--readFilesIn SRR830965_1.fastp.fq.gz SRR830965_2.fastp.fq.gz \ #双端测序（空格空开）
--outSAMtype BAM SortedByCoordinate \ #输出格式为BAM并排序
--outBAMsortingThreadN 10 \ #SAM排序成BAM时调用线程数
--outFileNamePrefix ./SRR830965_ #输出文件的前缀
--quantMode TranscriptomeSAM GeneCounts
#STAR是基于基因组比对，RSEM是基于转录本比对，这个参数是将基于基因组比对转化为基于转录本比对，
#为使用RSEM定量分析做准备；GeneCounts可生成每个gene上有几个reads

报错：

STAR报错2

报错原因：版本错误？应该用2.7.4a版本

STAR输出文件解读：

*_log.out记录STAR运行时的参数和命令，用于检测运行的是否正确
*_log.final.out储存了对比对结果的统计信息（可以放在大论文里），RNA-seq总数（number of input reads）、平均reads长度
*_ST.out.tab记录剪接位点的信息

ST.out.tab

*_Aligned.sortedByCoord.out.bam是比对排序过的bam文件
*_Aligned.toTranscriptome.out.bam转换后基于转录本（非基因组）的bam文件
*_ReadsPerGene.out.tab是每个基因上有多少reads的统计信息

2020-08-15：

在/home/sxw/HF/GSE46224/HF/afterfastp这个文件夹里建立索引，代码如下所示：

STAR  --runMode genomeGenerate \ #运行程序模式，默认是比对
--genomeDir /home/sxw/HF/Homorefer/index \ #这个index文件夹一定是事先建立好的
--runThreadN 20 \ #线程数
--genomeFastaFiles /home/sxw/HF/Homorefer/humanhg38/hg38.fa \ #基因组fasta文件路径
--sjdbGTFfile /home/sxw/HF/Homorefer/humangtf/genecode38.gtf \ #gtf文件路径
--sjdbOverhang 100  #读段长度减1，这个就用默认参数100

建立索引成功，接下来在/home/sxw/HF/GSE46224/HF/afterfastp文件夹里进行比对，写循环进行比对：

for i in $(ls *_1.fastp.fq.gz)
do
    i=${i/_1.fastp.fq.gz/}
    STAR --genomeDir /home/sxw/HF/GSE46224/HF/afterfastp/index --runThreadN 10 \
    --readFilesCommand zcat --readFilesIn ${i}_1.fastp.fq.gz ${i}_2.fastp.fq.gz \
    --outSAMtype BAM SortedByCoordinate --outFileNamePrefix ./${i}_
done

以上GSE46224是双端测序，接下来GSE116250是单端测序：

for i in $(ls *.fastp.fq.gz)
do
    i=${i/.fastp.fq.gz/}
    STAR --genomeDir /home/sxw/HF/Homorefer/index --runThreadN 20 \
    --readFilesCommand zcat --readFilesIn ${i}.fastp.fq.gz \
    --outSAMtype BAM SortedByCoordinate --outFileNamePrefix ./${i}_
done

2021-03-26：对小鼠基因组进行操作

在ftp://ftp.ensembl.org/pub/中下载小鼠参考基因组文件和注释文件
在跑流程时遇到一个问题，GTF和FASTA里染色体命名方式不同，fasta里为chr1，gtf文件里为1，将gtf文件里的1替换为chr1，方式：sed -i ‘s/^/chr&/’ *.gtf