转录组数据分析—Salmon定量

salmon是一款不基于比对而直接对基因进行定量的工具,适用于转录组、宏基因组等分析。
其优势是:

  • 定量时考虑到不同样品中基因长度的改变(比如不同isoform的使用)
  • 速度快、需要的计算资源和存储资源小
  • 敏感性高,不会丢弃匹配到多个基因同源区域的reads
  • 可以直接校正GC-bias
  • 自动判断文库类型

    salmon的定量依赖于cDNA序列(参考转录组)、基因组注释文件以及原始fastq文件。
    使用conda进行安装conda install -c bioconda salmon=1.6.0,安装完后看一下help文档。
salmon -h
salmon v1.6.0

Usage:  salmon -h|--help or
        salmon -v|--version or
        salmon -c|--cite or
        salmon [--no-version-check] <COMMAND> [-h | options]

Commands:
     index      : create a salmon index
     quant      : quantify a sample
     alevin     : single cell analysis
     swim       : perform super-secret operation
     quantmerge : merge multiple quantifications into a single file

构建索引

进行salmon定量前需要构建salmon index,构建index所需要的文件是参考转录组,运行以下命令:
salmon index -t /mnt/f/reference/homo/Homo_sapiens.GRCh38.cdna.all.fa -i homo
构建好的index长这样

定量

接下来,就可以对数据进行定量啦!
定量前,有一个重要的参数,需要明确,就是-l参数的设置,即你的数据的建库方式,官方给出了这样的介绍:

Salmon, has the user provide a description of the type of sequencing library from which the reads come, and this contains information about e.g. the relative orientation of paired-end reads. As of version 0.7.0, Salmon also has the ability to automatically infer (i.e. guess) the library type based on how the first few thousand reads map to the transcriptome. To allow Salmon to automatically infer the library type, simply provide -l A or --libType A to Salmon. Even if you allow Salmon to infer the library type for you, you should still read the section below, so that you can interpret how Salmon reports the library type it discovers.
The first part of the library string (relative orientation) is only provided if the library is paired-end. The possible options are:
    I = inward
    O = outward
    M = matching
The second part of the read library string specifies whether the protocol is stranded or unstranded; the options are:
    S = stranded
    U = unstranded
If the protocol is unstranded, then we’re done. The final part of the library string specifies the strand from which the read originates in a strand-specific protocol — it is only provided if the library is stranded (i.e. if the library format string is of the form S). The possible values are:
    F = read 1 (or single-end read) comes from the forward strand
    R = read 1 (or single-end read) comes from the reverse strand
An example of some library format strings and their interpretations are:
    IU (an unstranded paired-end library where the reads face each other)
    SF (a stranded single-end protocol where the reads come from the forward strand)
    OSR (a stranded paired-end protocol where the reads face away from each other,
     read1 comes from reverse strand and read2 comes from the forward strand)

在不清楚建库类型的情况下可以让salmon自动推断,-l A或者--libType A但是这种方式总感觉不踏实,所以我选择提前弄清楚,这就用到了,这个文章如何鉴定数据的建库方式(链特异性或非链特异性),快去学习吧!

通过鉴定,我的数据是一个非连特异性的双端测序数据,因此我需要使用如下命令:

salmon quant -i <index path> -l IU -1 <reads1 file> -2 <reads2 file> --validateMappings --gcbias --seqbias -o out

#批量运行脚本
cat SRR_Acc_List.txt | while read line
do 
    salmon quant -i /mnt/f/index/salmon_index/homo -l IU -1 ./1-cleandata/$line\_clean_1.fastq.gz -2 ./1-cleandata/$line\_clean_2.fastq.gz --validateMappings --gcBias --seqBias -g /mnt/f/reference/homo/Homo_sapiens.GRCh38.104.gtf -o ./3-salmon/$line
done

##命令解释
-i index目录位置
-l 文库类型
-1 read1文件名称
-2 read2文件名称
--validateMappings 对mapping到参考转录组的reads进行矫正,提高准确性,但会增加运算量
--gcBias 对GC含量进行矫正,提高准确性,但会增加运算量
--seqBias 矫正“sequence-specific bias”,提高准确性,但会增加运算量
-g #提供转录本与基因之间对应关系的文件。如果提供了该文件,Salmon将会输出文件:quant.sf 和 quant.genes.sf。
   #其中quant.genes.sf 文件中含有对基因表达水平的估计。
   #提供的文件可以是GTF文件,也可以是由TAB分隔符分隔文件,文件中的每一行含转录本名称和对应的基因名。
   #以'.gtf', '.gff' 或 '.gff3'结尾的文件名均被当做GTF格式做处理解析。
   #以其他字符结尾的被当做由TAB分隔符分隔的简单文件格式做处理解析。
-o 输出文件目录名称

接下来你会得到如下结果。



结果文件解读:
    aux_info:其中包含很多文件,元数据信息(meta_info.json)、Unique and ambiguous count file(ambig_info.tsv)、Fragment length distribution(fil.gz)等
    libParams:表达值tsv结果文件。包括转录本ID,length,eff_length, est_counts,tpm等。
    logs:日志文件
    cmd_info.json:运行使用的命令行参数
    lib_format_counts.jsom:这个JSON文件报告至少有一个映射与指定的库格式兼容的片段数量,以及不兼容的片段数量
    quant.genes.sf:基因表达定量结果(reads count和TPM)
    quant.sf:转录本表达定量结果(reads count和TPM)

salmon运行速度很快,也很方便,对于不进行结构分析想最快获取表达谱数据的生信人来说最适合不过,快去试试吧。

后记

salmon定量后就是差异分析了,但是思路与常规的使用reads count进行差异分析有些不同。因为他是对转录本的定量,所以其准确性相较于基因水平的定量要准确许多,后续差异分析上自然也分为转录本水平的差异分析和基因水平的差异分析,两者结合则更可以全面评估基因在表达方面的变化,具体思路如下图:



在随后的学习中我将进行深入的介绍,随后见吧!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容