比对软件STAR【更新】

STAR下载地址
https://github.com/alexdobin/STAR
STAR的优势:
1.快速
2.推荐在RNAseq数据中使用。
STAR经常出现在哪些应用中:
10x cellranger中
RNAseq数据
单细胞数据。

下载安装:

tar -xzf 2.5.3a.tar.gz
cd STAR-2.5.3a
make STAR

第一步build index:
任何一款比对软件在比对前都需要对reference建立一个index,目的是为了减少比对时间或降低算法复杂度(算法使然)。
(1)使用现成的
10x genomics 的ref data中有现成的index文件。可以在官网下载下来直接用,但仅限于对应的ref。
比如你下载的是refdata-cellranger-GRCh38-3.0.0,
那么就有如下这些内容都是STAR 比对所需的index文件。并且STAR软件也自带下载了。


(2)自己构建:
需要用到的文件有genome.fa,gtf文件,两种即可,如下命令:

/cygene/work/STAR-2.5.3a/source/STAR \
--runThreadN 20 \
--runMode genomeGenerate \
--genomeDir ./ \
--genomeFastaFiles /home/database/refdata-cellranger-GRCh38-1.2.0/fasta/genome.fa \
--sjdbGTFfile /home/database/refdata-cellranger-GRCh38-1.2.0/genes/genes.gtf
$ sh work.sh
Aug 28 09:16:14 ..... started STAR run
Aug 28 09:16:14 ... starting to generate Genome files
Aug 28 09:17:10 ... starting to sort Suffix Array. This may take a long time...
Aug 28 09:17:24 ... sorting Suffix Array chunks and saving them to disk...
Aug 28 09:58:43 ... loading chunks from disk, packing SA...
Aug 28 10:01:53 ... finished generating suffix array
Aug 28 10:01:53 ... generating Suffix Array index
Aug 28 10:04:37 ... completed Suffix Array index
Aug 28 10:04:37 ..... processing annotations GTF
Aug 28 10:04:50 ..... inserting junctions into the genome indices
Aug 28 10:07:26 ... writing Genome to disk ...
Aug 28 10:07:28 ... writing Suffix Array to disk ...
Aug 28 10:09:05 ... writing SAindex to disk
Aug 28 10:09:22 ..... finished successfully

20个线程,大约耗时35分钟。消耗内存30G,

比对:
最简单的比对参数:

STAR --runThreadN $CPU --genomeDir $index_dir --readFilesIn [PE_1.fq] [PE_2.fq] --outFileNamePrefix [prefix.] --outSAMtype BAM SortedByCoordinate

得到的是bam文件。

Example:

STAR --runThreadN 20 --genomeDir $star_index 
--readFilesCommand zcat 
--outSAMtype BAM Unsorted 
--readFilesIn sample1.fastq.gz.tagged.fastq.gz,sample2.fastq.gz.tagged.fastq.gz,sample3.fastq.gz.tagged.fastq.gz,sample4.fastq.gz.tagged.fastq.gz  
--outFileNamePrefix L006

example2:

/cygene/work/STAR-2.5.3a/source/STAR \
--runThreadN 20 \
--genomeDir /cygene/work/02.dropEst/star \
--readFilesCommand zcat \
--outSAMtype BAM Unsorted \
--readFilesIn /cygene/work/02.dropEst/01_dropTag/sample1.fastq.gz.tagged.fastq.gz

example3: STAR 输出 unmapped reads (STAR 输出未必对上的reads)

STAR-2.7.6a/bin/Linux_x86_64/STAR --runThreadN 10 --genomeDir /path/to/database/mm10/STAR-2.7.6a  --readFilesCommand zcat --readFilesIn  myfile1_1.fq.gz myfile2_2.fq.gz  --outFileNamePrefix myfile_prefix. --outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx --outSAMattributes All

注意--outSAMattributes ALL指输出所有tag,如:NH:i:1 HI:i:1 AS:i:202 nM:i:3 NM:i:2 MD:Z:57T14C32 jM:B:c,-1 jI:B:i,-1 MC:Z:45S105M
默认情况下(指不加该参数)只有: NH:i:1 HI:i:1 AS:i:292 nM:i:3 这几个(好像是,待验证),也可以指定只输出哪几个。因为有些下游分析软件会要求bam中药有NM才能统计。

关于STAR使用时的一些报错收集及解决方法:STAR报错合集。

STAR报错1:
STAR Segmentation Fault

$ STAR --runThreadN 10 \
--genomeDir refdata-cellranger-GRCh38-1.2.0/star  \
--readFilesCommand zcat \
--readFilesIn /my/data/G88E3L2_R1.fq.gz  /my/data/G88E3L2_R2.fq.gz  \
--outFileNamePrefix mysamplename.  \
--outSAMtype BAM SortedByCoordinate

Mar 27 11:00:11 ..... started STAR run
Mar 27 11:00:11 ..... loading genome
Mar 27 11:00:19 ..... started mapping
Segmentation fault (core dumped)

尝试解决方法:

1.不设置--runThreadN 仍然报错。
2.设置-- outSAMtype BAM Unsorted 仍然报错
3.设置 --genomeLoad LoadAndRemove --limitBAMsortRAM 10000000000 仍然报错
4.设置 --outSAMtype SAM 仍然报错
5.检查read1与read2 文件大小是否一致。结果文件大小一致。
6.换其他版本STAR,换了cellranger自带的STAR,不再报错。

STAR 报错2:
STAR Error: the read ID should start with @ or >

这个报错主要是你放入的fastq的压缩文件。
解决方法:设置读取文件参数:
--readFilesCommand zcat
或者
--readFilesCommand "gunzip -c"

STAR 报错3:

FATAL ERROR,number of bytes expected from the BAM bin does not agree with the actual size on disk:

解决方法:

  1. 设置 --outSAMtype SAM
  2. 或者更新到最新版本

STAR报错4:
$ STAR --version
2.7.3a

$ STAR --runThreadN 70 \
--genomeDir /hg19_star2.7_index  \
--readFilesCommand zcat \
--readFilesIn XXX_R1.fastq.gz  XXX_R2.fastq.gz  \
--outFileNamePrefix samplename. \
--outSAMtype BAM SortedByCoordinate

Apr 10 22:15:50 ..... started STAR run
Apr 10 22:15:50 ..... loading genome
Apr 10 22:16:35 ..... started mapping
BAMoutput.cpp:27:BAMoutput: exiting because of *OUTPUT FILE* error: could not create output file GB001._STARtmp//BAMsort/20/16
SOLUTION: check that the path exists and you have write permission for this file. Also check ulimit -n and increase it to allow more open files.

Apr 10 22:16:37 ...... FATAL ERROR, exiting

解决方法:将--runThreadN 设置为20,原因还需要深究。
或更新到最新版本。
STAR报错5:
(这里忘记收集报错的截图了,以后遇到再补)
解决方法:
检查read1 和read2是否一致。多半是PE read 不一致造成。

STAR报错6:
EXITING because of fatal ERROR: not enough memory for BAM sorting:

解决方法:
根据报错信息,增加--limitBAMsortRAM 36949420170参数即可。可以设置数值大一点也没问题

总结:最新版bug少。

参考文献:
https://hbctraining.github.io/Intro-to-rnaseq-hpc-O2/lessons/03_alignment.html
https://academic.oup.com/bioinformatics/article/29/1/15/272537

如果你还在找其他比对软件,可以点这里:https://www.jianshu.com/p/bf0cd9bfa4b4

20210301修改补充
20200422修改补充

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容