RNA-seq: Kallisto+Sleuth(1)

本文我们来简单介绍一下非常快捷好用的一个RNAseq工具——Kallisto。Kallisto被我推荐的原因是其速度非常快,在我的Mac Pro就可以运行使用,而且其结果也比较准,使用起来还十分简单。

RNA-seq分析通常有以下几种流程。
第一种是参考基因组,即先通过HISAR、STAR等软件把序列比对到参考基因组然后再进行转录本鉴定及定量。根据有无GFF注释可以分为两种,如果没有GFF注释鉴定完之后再依据同源比对结果进行功能注释。
第二种是今天要讲的——参考转录组方法,直接将序列比对到转录组,然后进行转录本鉴定及定量。显然,该方法的优势就是快捷,而缺点也很明显,因为只和参考转录组进行非剪接比对所以无法鉴定出新的转录本或者是新的非编码RNA包括lncRNA等。
第三种是无参考基因组,有时候我们做的物种比较小众,所以还没有参考基因组,所以只能先利用De Bruijin的方法对序列进行从头拼接,然后再进行比对、定量,确定表达量。

常见RNA-seq分析流程

因此,根据你的数据特点和你的需求可以选择合适的方法。实际上,很多实验室做RNA-seq可能暂时并不关注新的转录本,只想看一看不同条件下实验组和对照组有哪些基因的表达量发生了变化,因此这时我们就可以选择第二种方法,直接和转录组进行非剪接比对。今天我们就来讲第二类方法中很优秀的一个工具Kallisto。

Kallisto于2016年发表在Nature biotechnology,截至目前引用次数超过1300次。

Kallisto

Kallisto的安装

#如果你的电脑是mac可以用以下的方式进行安装
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew install kallisto
#如果你已经安装了conda,可以用conda安装:
conda install kallisto
#kallisto can also be installed on FreeBSD via the FreeBSD ports system using
pkg install kallisto
#**kallisto** binaries for Mac OS X, NetBSD, RHEL/CentOS and SmartOS can be installed on most POSIX platforms using pkgsrc:
pkgin install kallisto

安装完成后,输入kallisto:

Kallisto的使用

在正式开始之前我们需要准备以下数据
1、目标木中的参考转录组文件:cDNA文件
2、待分析的测序文件

本文我们以人的样本为例下载相关的文件
准备工作
cDNA文件的下载:hg19(GRCh37)/hg38(GRCh38)

GRCh38
GRCh37

根据你需要的版本进行下载cDNA文件:
GRCh38:
ftp://ftp.ensembl.org/pub/release-96/fasta/homo_sapiens/cdna/
GRCh37:
ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/cdna/

cDNA sequences for Ensembl or ab initio predicted genes,所以我们下载cdna.all.fa.gz的文件

这里,我下载的是GRCh37的版本。

第一步建立索引
这里要注意一下参数-i并不是指输入文件,此处的i代表index,后面接的是你输出的index名字。以后如果还是该物种,你可以直接使用本次建立的index,不用重复该步骤。

kallisto index ./Homo_sapiens.GRCh37.75.cdna.all.fa.gz -i Homo_sapiens.GRCh37.75.cdna.all.index

第二步转录本的鉴定及定量

#双端测序
kallisto quant -i ./Homo_sapiens.GRCh37.75.cdna.all.index -o ./Result -t 4 -b 100 PATH/Sample_R1.fq.gz PATH/Sample_R2.fq.gz 
#查看kallisto quant帮助
kallisto quant -h
Usage: kallisto quant [arguments] FASTQ-files

Required arguments:
-i, --index=STRING            Filename for the kallisto index to be used for
                              quantification
-o, --output-dir=STRING       Directory to write output to

Optional arguments:
    --bias                    Perform sequence based bias correction
-b, --bootstrap-samples=INT   Number of bootstrap samples (default: 0)
    --seed=INT                Seed for the bootstrap sampling (default: 42)
    --plaintext               Output plaintext instead of HDF5
    --fusion                  Search for fusions for Pizzly
    --single                  Quantify single-end reads
    --fr-stranded             Strand specific reads, first read forward
    --rf-stranded             Strand specific reads, first read reverse
-l, --fragment-length=DOUBLE  Estimated average fragment length
-s, --sd=DOUBLE               Estimated standard deviation of fragment length
                              (default: -l, -s values are estimated from paired
                               end data, but are required when using --single)
-t, --threads=INT             Number of threads to use (default: 1)
    --pseudobam               Output pseudoalignments in SAM format to stdout

如果是单端测序还需要给-l参数,后面跟估计的平均片段长度,-s参数后面跟估计的片段长度标准差。这两个参数可以使用其他软件如Agilent Bioanalyzer等确定。

#单端测序
kallisto quant -i index -o output --single -l length -s SD file.fq.gz

Kallisto的结果

然后就会生成三个文件:abundances.h5,abudances.tsv,run_info.json
abundance.h5
HDF5二进制格式的文件,包含了运行日志信息、表达丰度估计值、bootstrap估计和转录本长度信息。该文件可以直接用sleuth读取处理,也可以使用kallisto h5dump命令将其转变为纯文本的tsv格式文件
abundance.tsv
包含有表头的纯本文tsv格式文件,表头是:target_id, length, eff_length, est_counts, tpm
run_info.json
一个json格式的日志文件

然后我们可以看各个转录本的TPM即其表达量。TPM具体的计算方式及其与RPKM、FPKM的差异可以看之前的日志RPM(CPM)/RPKM/FPKM/TPM

下一节我们将会讲解如何用R包Sleuth对转录本进行差异表达分析等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容