转录组比对软件STAR安装及使用

发现服务器上没有安装STAR (Spliced Transcripts Alignment to a Reference),这个转录组最常用的比对工具之一,也是我之前一直的用的转录组比对工具,今天安装一下并重新学习,好好理解之前设置的参数是否正确。

STAR是ENCODE计划(ENCyclopedia Of DNA Elements,人类基因组DNA元件百科全书计划)的御用pipeline工具,在转录组的文章中出镜率极高,别人说其准确率高,映射速度快,但需要占用大量内存,对计算资源有较高的要求。在之前Hisat2安装使用过程中,提到了2017年的一篇NC比较转录组比对工具的文章,又查了一下,这样总结的:STAT相比较TopHat和Hisat2,有较高的唯一比对率;STAR会将没有paired mapping上的reads都剔除,避免single reads比对到基因组上;并且STAR对lower-quality(包括more soft-clipped和错配碱基)比对有较高的容忍度,这对一些杂合率较高的基因组优势比较明显;这次注意到,在用GATK对RNA-Seq进行 Call Variants时,采用STAR的STAR 2-pass模式,估计以后也会用到。

下载安装软件

https://github.com/alexdobin/STAR

选择其中一个版本下载后, tar -zxvf 进行解压:

tar -zxvf STAR-2.7.9a.tar.gz

cd STAR/source

 make STAR

二、构建基因组索引Index

和Hisat2一样,需要先构建基因组索引,索引文件作用现在还只记得是在比对过程中,我们并不是把几十万条reads直接比对到基因组上去,而是和Index进行比较,使比对过程变地可行,希望等课题结束后,再回过头来好好学习一下索引文件作用的原理,先上脚本:

参数解释:

--runThreadN:线程数为10

--runMode:genomeGenerate,构建基因组索引;

--genomeDir:指定索引生成目录;

--genomeFastaFiles:指定参考基因组;

--sjdbGTFfile:指定参考基因组的注释文件;

--sjdbOverhang:这个是reads长度的最大值减1,默认是100,我不是很理解很多人分析的学习方法中都设置100,二代测序都是150bp的序列长度,我设置了149 (有时间时改一下数值比较一下对结果是否有影响);

发现有三个反斜杠“\”异常成了黄色,暂时不清楚原因,结果报错了:

其实我也不知道为啥,将运行命令行的反斜杠去掉,再试一下:

刚才的问题解决了,又报了其它错误信息:

居然是gtf文件的错误,第一次遇见这个问题,然后找原因:

我们看一下gtf的开头是CM023448.1,如下图:

我的参考基因组开头是>GWHAMMI00000001,如下图:

原来是染色体的命名方式不一样,一个是CM开头,另一个是GWHAMMI开头,我回到NCBI去下载序列文件又看了一下,居然是我之前下错文件了(从另一个数据库下载的参考基因组,两个数据库同一物种染色体编号规则不同),之前做的工作又浪费了,重新下载,指定序列文件,30min后,成功建立索引,索引目录如下:

  • reads比对:

  • 相比于Hisat2,STAR太多的参数设置了,对于模式生物还好,很多默认参数就可以,但对于我的课题研究,就得仔细看看这些参数了,着实用去了我不少时间,先上我的脚本,如下图:

    我的参数设置:

    未用的其它参数:

    --outFilterMismatchNmax:比对时允许的最大错配数(可根据结果修改);

    --outSAMmapqUnique60:将uniquelymapping reads的MAPQ值调整为60,满足下游使用GATK进行分析的需要;

    --readFilesCommand:对FASTQ文件进行操作;

    --readFilesIn:输入FASTQ文件的路径;

    --outSJfilterReadsUnique:对于跨越剪切位点的reads(junction reads),只考虑跨越唯一剪切位点的reads;

    --alignIntronMin:最短的内含子长度设定了20,(根据GTF文件计算);

    --alignIntronMax:最长的内含子长度设定了50000,(根据GTF文件计算);

    --bamRemoveDuplicatesType   输出BAM文件时,STAR还可以对BAM进行一些预处理,用于去重。

    四:结果如下图,

    1、使用samtools查看生成的BAM文件。

    samtoolsview sample_Aligned.sortedByCoord.out.bam |head -n 5

    2、结果内容:

    Aligned.sortedByCoord.out.bam:reads比对到基因组的位置;

    Aligned.toTranscriptome.out.bam:reads比对到转录本的位置;

    Log.final.out:统计了比对情况的信息,是非常重要的结果;

    SJ.out.tab:splice junctions的一些信息,其中需要注意的是:对于junction的位置信息,STAR则是按照intron的起始和终止位置来定,而其他的一些软件则是按照exon的位置来决定的


    附:我比较了一下star和Hisat2的结果差异,在运行时间和比对率上,star并没有表现出明显的优越性上。

    参考:

    https://blog.csdn.net/weixin_28913137/article/details/112281831

    本文使用 文章同步助手 同步

    ©著作权归作者所有,转载或内容合作请联系作者
    • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
      沈念sama阅读 214,951评论 6 497
    • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
      沈念sama阅读 91,606评论 3 389
    • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
      开封第一讲书人阅读 160,601评论 0 350
    • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
      开封第一讲书人阅读 57,478评论 1 288
    • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
      茶点故事阅读 66,565评论 6 386
    • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
      开封第一讲书人阅读 50,587评论 1 293
    • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
      沈念sama阅读 39,590评论 3 414
    • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
      开封第一讲书人阅读 38,337评论 0 270
    • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
      沈念sama阅读 44,785评论 1 307
    • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
      茶点故事阅读 37,096评论 2 330
    • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
      茶点故事阅读 39,273评论 1 344
    • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
      沈念sama阅读 34,935评论 5 339
    • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
      茶点故事阅读 40,578评论 3 322
    • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
      开封第一讲书人阅读 31,199评论 0 21
    • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
      开封第一讲书人阅读 32,440评论 1 268
    • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
      沈念sama阅读 47,163评论 2 366
    • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
      茶点故事阅读 44,133评论 2 352

    推荐阅读更多精彩内容