RBP AS生信流程(二)STAR比对

STAR比对

比对原理参考生信媛的文章:https://www.jianshu.com/p/16c938fd3bd6
建立索引:

STAR --runMode genomeGenerate \
--genomeDir ~/HF/GSE55296/HF/afterfastp/SRR1175538\index --genomeFastaFiles ~/HF/Homorefer/humanhg38/hg38.fa \
--sjdbGTFfile ~/HF/Homorefer/humangtf/gencode37.gtf --sjdbOverhang 75 
#这个参数是用于可变剪接的预测,一般设置为100(101-1),也可设置为测序长度减1

注意参考基因组fasta和gtf注释文件的染色体名称必须保持一致,都是chr1、chr2、chr3或1、2、3。


STAR报错1
2020-08-10:

用中科院服务器构建好了STAR的index文件,中科院代码如下所示:

STAR --runMode genomeGenerate --runThreadN 10 \
--genomeDir /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/StarIndex/ \
--genomeFastaFiles /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/GRCh37.primary_assembly.genome.fa \
--sjdbGTFfile /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/gencode.v27lift37.annotation.gtf 
--genomeSAindexNbases 14 --genomeChrBinNbits 18 --genomeSAsparseD 1 --sjdbOverhang 100

放在/home/sxw/HF/index里,现在尝试在GSE46224里运行STAR:

#在/home/sxw/HF/GSE46224/normal/afterfastp文件夹里,目前有SRR830965-SRR830972这8个双端测序文件
STAR \
--genomeDir /home/sxw/HF/Index \ #索引文件夹
--runThreadN 20 \ #20个线程
--readFilesCommand zcat \ #输入的测序文件是fq.gz格式的(未解压缩的)
--readFilesIn SRR830965_1.fastp.fq.gz SRR830965_2.fastp.fq.gz \ #双端测序(空格空开)
--outSAMtype BAM SortedByCoordinate \ #输出格式为BAM并排序
--outBAMsortingThreadN 10 \ #SAM排序成BAM时调用线程数
--outFileNamePrefix ./SRR830965_ #输出文件的前缀
--quantMode TranscriptomeSAM GeneCounts
#STAR是基于基因组比对,RSEM是基于转录本比对,这个参数是将基于基因组比对转化为基于转录本比对,
#为使用RSEM定量分析做准备;GeneCounts可生成每个gene上有几个reads

报错:


STAR报错2

报错原因:版本错误?应该用2.7.4a版本

STAR输出文件解读:

*_log.out记录STAR运行时的参数和命令,用于检测运行的是否正确
*_log.final.out储存了对比对结果的统计信息(可以放在大论文里),RNA-seq总数(number of input reads)、平均reads长度
*_ST.out.tab记录剪接位点的信息


ST.out.tab

*_Aligned.sortedByCoord.out.bam是比对排序过的bam文件
*_Aligned.toTranscriptome.out.bam转换后基于转录本(非基因组)的bam文件
*_ReadsPerGene.out.tab是每个基因上有多少reads的统计信息

2020-08-15:

在/home/sxw/HF/GSE46224/HF/afterfastp这个文件夹里建立索引,代码如下所示:

STAR  --runMode genomeGenerate \ #运行程序模式,默认是比对
--genomeDir /home/sxw/HF/Homorefer/index \ #这个index文件夹一定是事先建立好的
--runThreadN 20 \ #线程数
--genomeFastaFiles /home/sxw/HF/Homorefer/humanhg38/hg38.fa \ #基因组fasta文件路径
--sjdbGTFfile /home/sxw/HF/Homorefer/humangtf/genecode38.gtf \ #gtf文件路径
--sjdbOverhang 100  #读段长度减1,这个就用默认参数100

建立索引成功,接下来在/home/sxw/HF/GSE46224/HF/afterfastp文件夹里进行比对,写循环进行比对:

for i in $(ls *_1.fastp.fq.gz)
do
    i=${i/_1.fastp.fq.gz/}
    STAR --genomeDir /home/sxw/HF/GSE46224/HF/afterfastp/index --runThreadN 10 \
    --readFilesCommand zcat --readFilesIn ${i}_1.fastp.fq.gz ${i}_2.fastp.fq.gz \
    --outSAMtype BAM SortedByCoordinate --outFileNamePrefix ./${i}_
done

以上GSE46224是双端测序,接下来GSE116250是单端测序:

for i in $(ls *.fastp.fq.gz)
do
    i=${i/.fastp.fq.gz/}
    STAR --genomeDir /home/sxw/HF/Homorefer/index --runThreadN 20 \
    --readFilesCommand zcat --readFilesIn ${i}.fastp.fq.gz \
    --outSAMtype BAM SortedByCoordinate --outFileNamePrefix ./${i}_
done

2021-03-26:对小鼠基因组进行操作

ftp://ftp.ensembl.org/pub/中下载小鼠参考基因组文件和注释文件
在跑流程时遇到一个问题,GTF和FASTA里染色体命名方式不同,fasta里为chr1,gtf文件里为1,将gtf文件里的1替换为chr1,方式:sed -i ‘s/^/chr&/’ *.gtf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350