RNA-seq :TopHat2 + Cufflinks分析流程(2018-05-28)

原文转自:RNA-seq :TopHat2 + Cufflinks分析流程

(2015-06-09 17:21:42)

1、测序数据质量控制:fastqc软件

1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc -o/life/rjian/data/liyan/filename_fastqc\filename.fq >>filename.log

2)参数说明:-o:输出文件所在目录,并且是已经存在的目录,如:filename_fastqc

--noextract:不解压缩输出文件

最后加上fastq文件:filename.fq;重定向结果到日志文件:filename.log,以便查看。

filename:表示是一个样品的一个生物学重复,一般有多个样品,每个样品有多个重复,如:C1_R1;如果是双端测序则后面会加上数字,如:filename_1.fq和filename_2.fq

2、readstrim工具——trimmomatic

1)使用方法:java -jar/life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE-threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fqfilename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15MINLEN:36

2)参数说明:SE:指定单端测序,PE:双端测序

-threads:指定线程数

-phred33:指定fastq文件的质量格式,或者:-phred64

-trimlog:指定日志文件,后加上输入和输出文件

ILLUMINACLIP:adapter.fa:2:30:10:adapter.fa为adapter文件,2:允许的最大mismatch数,30:palindrome模式下匹配碱基数阈值,10:simple模式下的匹配碱基数阈值

SLIDINGWINDOW:4:15 MINLEN:36:滑动窗口的size是4个碱基,其平均碱基质量小于15,则切除。

MINLEN:36:最低reads长度为36

3、bowtie2建立参考基因组的索引——bowtie2-build

1)使用方法: bowtie2-build<要生成的索引文件前缀名>;比如:

nohup/home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fabowtie2index/genome>>bowtie2.log &

2)参数说明:genome.fa是fasta文件;

genome是要生成的索引文件的前缀名;

bowtie2index是一个文件夹,用来存放索引文件,方便日后查看和使用;

注意:程序运行完后genome.fa文件要放在bowtie2index索引目录中,tophat2软件才能正确运行。

4、reads mapping到参考基因组——tophat2软件:基于bowtie2

1)使用方法:/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2-p 8 -G \/home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/\/home/cuckoo/data/liyan/train/bowtie2index/genome/home/cuckoo/data/liyan/train/filename.fq\>filenametophat.log

2)参数说明:-p :指定线程数,默认为1

-G :指定已有的基因组注释信息,gtf或gff文件;

-o :指定输出目录,默认为”./tophat_out“;

后面加上索引文件:与前面的bowtie2建立的索引相对应,只取前缀名。

最后加上fastq文件:filename.fq;如果是双端测序则是filename_1.fq和filename_2.fq两个文件。

5、转录本组装——Cufflinks:Cufflinks是一套拼接转录本,定量表达量。

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks-p 8 -o \filename_clout filename_thout/accepted_hits.bam>filename_cufflinks.log

2)参数说明:-p :指定线程数;

-o :指定输出文件所在目录;

后面跟上Tophat2中生成的bam文件:

6、转录本合并——Cuffmerge

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge-g genes.gtf -s\/home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8assemblies.txt

2)参数说明:-g :参考基因组注释文件

-s :参考基因组序列文件

-p :指定线程数

-o :指定输出文件merged.gtf所在目录,默认情况下是 merged_asm

最后assemblies.txt:一个包含每个样品(重复)拼接后的gtf文件的列表;如下:两个文件分别是在上一步中生成的样品的转录本注释文件。

./s0924fb_clout/transcripts.gtf

./sCal27_clout/transcripts.gtf

7、基因和转录本表达定量——cuffquant

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant-o sample_quant -p 8 \-u AT.gffsample_thout/accepted_hits.bam

2)参数说明:-o:指定结果输出目录:包含结果文件abundances.cxb

-p :指定线程数

-u :指定对比对上基因组上多个位置的reads进行统计分析。

加上参考基因组注释文件:AT.gff

最后加上Tophat2产生的该样本的比对结果文件:accepted_hits.bam

8、基因和转录本表达水平标准化——cuffnorm

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm-o cuffnorm_out -p 8 \-L 0h_1,12h_CK1,12h_E1 AT.gff/data/disk2/liyan/AT/0h_1_quant/abundances.cxb\/data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb/data/disk2/liyan/AT/12h_E1_quant/abundances.cxb

2)参数说明:-o :指定结果输出目录

-p :指定线程数

-L :为每个样本(处理)作标记

–total-hits-norm :计算所有的fragments,包括与所有的参考转录本不容的,默认不激活。

–compatible-hits-norm :只计算与一些参考转录本相容的fragments,默认激活。

加上参考基因组注释文件:AT.gff

最后加上每个样本(处理)的cuffquant产生的abundances.cxb文件,样本的每个重复之间用逗号”,“分割;样本之间则由空格分割。

9、转录本差异表达分析——Cuffdiff:分析差异表达基因的工具。

1)使用方法:/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff-o diff_out -b \bowtie2index/genome.fa -p 8 -L C1,C2 -umerged_asm/merged.gtf ./C1_thout/accepted_hits.bam\./C2_thout/accepted_hits.bam

2)参数说明:-o :指定输出目录

-b :参考基因组序列文件

-p :指定线程数

-L :为每个样本标上名称-u:-u命令指cuffdiff对回帖的基因组中多个位置的read进行一个初步的估计,然后加权分配到各个基因组位置。而不是简单的平均分配,其功能与Cufflinks中的u命令相同。

加上合并后的转录本:merged.gtf;由cuffmerge产生。

最后是TopHat产生的样本的bam文件,如果一个样本有多个生物学重复,那么我们需要提供每个重复的bam文件,文件名之间以逗号隔开并且样本名应与-L参数相对应。

10、转录本与参考基因组注释文件比较——Cuffcompare,发现新基因,转录本

1)使用方法:cuffcompare -i gtf_out_list.txt -r genes.gtf

2)参数说明:-i :输入文件,是cufflinks组装转录本的结果文件——transcripts.gtf的列表;

其中gtf_out_list.txt是由find . -name transcripts.gtf> gtf_out_list.txt命令产生的集合了所有样本转录本文件的列表。

-o :指定输出文件的前缀,如果没有指定默认为cuffcmp。

-r :指定参考基因组注释文件。

注:结果文件大部分位于cmp_out(自己先建立好)目录中,统计汇总所有转录本的比较情况;而单个样本转录本的比较结果文件:cuffcmp.transcripts.gtf.tmap和 cuffcmp.transcripts.gtf.refmap分别位于样本的cufflinks运行结果transcripts.gtf所在目录中,统计单个样本的比较情况以鉴定新转录本。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容