目录
1.Module 1 - Introduction to RNA sequencing
- Installation
- Reference Genomes
- Annotations
- Indexing
- RNA-seq Data
- Pre-Alignment QC
2.Module 2 - RNA-seq Alignment and Visualization
- Adapter Trim
- Alignment
- IGV
- Alignment Visualization
- Alignment QC
3.Module 3 - Expression and Differential Expression
- Expression
- Differential Expression
- DE Visualization
- Kallisto for Reference-Free Abundance Estimation
4.Module 4 - Isoform Discovery and Alternative Expression
- Reference Guided Transcript Assembly
- de novo Transcript Assembly
- Transcript Assembly Merge
- Differential Splicing
- Splicing Visualization
5.Module 5 - De novo transcript reconstruction
- De novo RNA-Seq Assembly and Analysis Using Trinity
6.Module 6 - Functional Annotation of Transcripts
- Functional Annotation of Assembled Transcripts Using Trinotate
1.3 Annotations
Obtain known gene/transcript annotations
在本教程中,我们将仅对22号染色体使用从Ensembl (homo_sapiens.grch38.86 . gtl .gz)获得的注释。
wget http://genomedata.org/rnaseq-tutorial/annotations/GRCh38/chr22_with_ERCC92.gtf
看看gtf文件的内容。按“q”退出“less”显示。
less -p start_codon -S chr22_with_ERCC92.gtf
在gtf文件中有多少个基因id ?我们可以使用perl命令行命令来找出答案
perl -ne 'if ($_ =~ /(gene_id\s\"ENSG\w+\")/){print "$1\n"}' chr22_with_ERCC92.gtf | sort | uniq | wc -l
1318
现在查看GTF格式的单个转录本的结构。完成后按“q”退出“less”显示。
grep ENST00000342247 chr22_with_ERCC92.gtf | less -p "exon\s" -S
To learn more, see:
- http://perldoc.perl.org/perlre.html#Regular-Expressions
- http://www.perl.com/pub/2004/08/09/commandline.html
一些定义
- 参考基因组: 一个物种的染色体的核苷酸序列。基因是参考基因组的功能单位,基因注释描述了从这些基因座表达的转录本的结构。
- 基因注释: 生物名词对基因组的基因/转录模式的描述。转录本模型由参考基因组上转录本外显子的坐标组成。还可以提供其他信息,如生成转录本的链、基因名称、转录本的编码部分、替代转录本起始位点和其他信息。
- GTF (. GTF)文件: 一种常见的文件格式,称为基因转移格式,用于存储基因和转录本注释信息。你可以在这里了解更多关于这个格式的信息:http://genome.ucsc.edu/FAQ/FAQformat#format4
基因注释的目的(gtf文件)
当运行HISAT2/StringTie/Ballgown流程时,已知的基因/转录注释被用于以下几个目的:
- 在HISAT2索引创建步骤中,可以提供注释来创建表示转录本的本地索引以及整个参考基因组的全局索引。这允许更快的映射和更好的映射跨外显子边界和剪接位点。如果仍然找不到对齐,它将尝试确定读是否对应一个新的外显子-外显子连接。有关更多细节,请参阅索引部分。
- 在StringTie步骤中,可以使用.gtf文件指定转录模型,以指导组装过程,并使用'-G'和'-e'选项将表达估计限制为预定义的转录。“-e”选项将为您的gtf文件中的每个转录本提供一个表达估计数,为您提供一个“microarray like”表达结果
- 在StringTie步骤中,如果指定了'-G'选项而没有指定'-e'选项,则gtf文件仅用于评估组装结果。不再假设只有已知的转录本模型是正确的,所得到的表达估计将与已知的和新的/预测的转录本相对应。
- 在StringTie和gffcompare步骤期间,将使用.gtf文件来确定将使用Ballgown检查差异表达的转录本。这些可能是您从公共来源下载的已知记录,也可能是StringTie从前面的读取数据中预测的.gtf的记录。
注释文件来源
- ENSEMBL FTP SITE
- UCSC TABLE BROWSER
- HISAT2 Precomputed Genome Index
注意事项
关于染色体命名的约定:
为了使RNA-seq分析工作,gtf文件中的染色体名称必须与参考基因组(即参考基因组fasta文件)中的染色体名称相匹配。如果得到一个StringTie结果,其中所有转录本的表达式值都为0,那么可能忽略了这一点。不幸的是,Ensembl、NCBI和UCSC不能在许多物种的染色体命名上达成一致,因此这个问题可能经常出现。你可以通过从相同的来源(例如,Ensembl)获得一个完整的参考基因组和基因注释包来避免这种情况。
关于参考基因组构建:
您的注释必须与您的参考基因组fasta文件相同的参考基因组构建相对应。例如,两者都对应UCSC的human build 'hg38', NCBI的human build 'GRCh38'等。即使你的参考基因组和注释都来自UCSC或Ensembl,它们仍然可能对应于该基因组的不同版本。这将在任何RNA-seq管道中引起问题。