快速计算基因表达软件:Salmon

我们常见的转录组表达分析一般都是将reads比对至参考基因组或者转录组上,然后在基因或者转录本水平上定量表达丰度。

但最近在做小RNA分析时却遇到了没有参考基因组注释文件(gtf/gff文件)的情况,而注释文件的缺失则意味传统的转录组定量分析是无法进行的。那在缺少注释文件的情况下,该如何进行定量分析呢?在各种搜索后发现了一款无需mapping便可进行定量的软件——Salmon

一、基本情况

Salmon软件于2017年发表在Nature Methods,其题目为《Salmon provides fast and bias-aware quantification of transcript expression》

摘要

Salmon 提供2种运行模式,一是quasi-mapping直接读取 reads 文件;二是读取比对文件 sam/bam 进行mapping。

1、quasi-mapping-based mode的运行有两阶段:构建索引和用户想要定量的reads文件。
2、alignment-based mode的运行则不需要构建索引,而是仅需提供一个转录本的 FASTA文件和用户想要定量的 SAM/BAM 文件。

二、软件使用:

1、quasi-mapping-based mode

构建索引:
salmon index -t transcripts.fa -i transcripts_index -k 31
参数说明:
-t:转录本的fasta文件

-i:输出目录

-k:K-mers,默认值为31
#如果你的reads大于75bp,那么k设置为31是较好的选择,如果reads低于75可略微减少K值

名词解释:
简单来说,k-mer是一段长度为k的序列,而后面的mer即为monomeric unit(单体单元),也就是每个碱基。因k-mer包含k个碱基,若一段核酸序列长度为L,以一个碱基为步长滑动,那么根据这个核酸序列就可以得到L-k+1个k-mer;由于每个位点的碱基可以为(A、T、C、G)中的任意一个,因此k-mer理论上说有个不同的序列。原本一条长片段,就变成了很多短的片段,因此计算机处理的碱基数量也会增加很多倍。而且,每次取k-mer是同一条reads正反取两次,这就是对这条reads的反向互补序列再取一次k-mer。下面的图就形象化了这一过程,长度为15的序列,选取k-mer为5,那么就会得到11(15-5+1=11)个5-mer。

定量分析:
#双端测序数据reads表达量的估计
salmon quant -i transcripts_index -l <LIBTYPE> -1 reads1.fq -2 reads2.fq -o transcripts_quant

#单端测序数据reads表达量的估计
salmon quant -i transcripts_index -l <LIBTYPE> -r reads.fq -o transcripts_quant
参数说明:
-1/2:双端数据
-r:单端数据
-l:--libType,测序文库类型,一般不知道什么文库的话用参数 A 让软件自动检测
#I = inward
#O = outward
#M = matching
#S = stranded
#U = unstranded
#F = read 1 (or single-end read) comes from the forward strand
#R = read 1 (or single-end read) comes from the reverse strand
#A = automatically determine

2、alignment-based mode

该模式下无需创建索引
salmon quant -t transcripts.fa -l <LIBTYPE> -a aln.bam -o salmon_quant

3、输出文件
主要输出文件为quant.sf,该文件共有5列,分别是Name,Length ,EffectiveLength,TPM和NumReads。

  • Name — target transcript 名称, 由输入的 transcript database (FASTA file)所提供。
  • Length — target transcript 长度,即有多少个核苷酸
  • EffectiveLength — target transcript 计算的有效长度。此项考虑了所有被建模的因素,这将影响从这个转录本中取样片段的概率,包括片段长度分布和序列特异性和gc片段偏差(如果这些因素在建模时均被考虑的话)。 (It takes into account all factors being modeled that will effect the probability of sampling fragments from this transcript, including the fragment length distribution and sequence-specific and gc-fragment bias (if they are being modeled))。
  • TPM — 估计转录本的表达量。
  • NumReads — 估计比对到每个转录本的reads数。

其他输出文件:
cmd_info.json: JSON格式文件,记录salmon程序运行的命令和参数
lib_format_counts.json: Observed library format counts。当运行salmon是 mapping-based mode时,则会生成改文件。 JSON格式文件,记录有关文库格式和reads比对的情况。
eq_classes.txt: Equivalence class file。当Salmon运行时,应用参数--dumpEq,则会生成此文件。
aux_info: 辅助文件夹,内含多个文件
fld.gz:在辅助文件夹中,该文件记录的是观察到的片段长度分布的近似值
obs5_seq.gz, obs3_seq.gz, exp5_seq.gz, exp5_seq.gz: Sequence-specific bias files
expected_gc.gz, observed_gc.gz: 当Salmon运行时,应用fragment-GC bias correction,在辅助文件夹中则会生成这两个文件。记录Fragment-GC bias。
meta_info.json: JSON格式文件,记录salmon程序运行的统计信息
ambig_info.tsv: tab分隔符的文本文件,含有两列。记录的是每个转录本对应的 the number of uniquely-mapping reads 和 the total number of ambiguously-mapping reads

三、补充

TPM:

Transcripts Per Kilobase of exonmodel per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts),优化的RPKM计算方法,可以用于同一物种不同组织的比较。
TPM概括了基因的长度、表达量和基因数目。TPM可以用于同一物种不同组织间的比较,因为sum值总是唯一的。

计算公式:PMi=(Ni/Li)*1000000/sum(Ni/Li+……..+ Nm/Lm)
其中:Ni:mapping到基因i上的read数; Li:基因i的外显子长度的总和

http://blog.sciencenet.cn/blog-1113671-1038659.html

参考:

https://www.bioinfo-scrounger.com/archives/411/
Salmon 进行转录本定量https://www.jianshu.com/p/f62fd85113d3
tximport 将 Salmon 定量结果导入 DESeq2https://www.jianshu.com/p/e0acb957b351
salmon分析RNA-seq实战https://www.jianshu.com/p/5ffbe89d3b6b

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • 熊金波实验室出品 整理归纳:Larry 本次学习使用的服务器IP地址和其用户名账户密码如下: 地址:gs0.gen...
    Larrylu007阅读 27,223评论 10 106
  • Salmon应用 查看帮助文档 Quasi-mapping-based mode (including light...
    超级无敌大蜗牛阅读 12,038评论 1 5
  • 目录 背景知识1.1. 根据分析对象的分类1.2. 三个基本数据处理问题1.3. 一般分析流程1.4. 比较宏基因...
    UnderStorm阅读 14,867评论 1 23
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,515评论 16 22
  • 今天感恩节哎,感谢一直在我身边的亲朋好友。感恩相遇!感恩不离不弃。 中午开了第一次的党会,身份的转变要...
    迷月闪星情阅读 10,559评论 0 11