在本章中,我们将阐述一个研究细菌物种基因组变异的方案,通过基于约束的代谢模型预测表型差异。
材料
基因组序列
通过对生物体基因组序列的分析,确定编码功能产物的遗传元件。反过来,这些可以被注释,以确定它们在细胞生物学中的作用,并映射到其他基因组,以确定同源基因。可以从NCBI的ftp站点以不同的格式(如FASTA和Genbank)下载公开可用的基因组及其注释的元素(如果存在)。应该强调的是,虽然这里报告的分析可以对完整序列和草稿序列进行相同的执行,但最好使用完整的版本(如果有的话)。在基因组缺少注释的情况下(例如使用适合这项任务的工具(如Prokka[13])可以很容易地填补这一空白。
序列比较工具
基因间的同源关系可以通过序列相似性来评估,序列相似性可以通过BLAST、BLAT或MUMmer等工具来评估[14-16]。由于两个基因组间同源基因的识别并非易事,已经有许多方法来解决这一任务。最近,[17]提出了一种对现有工具进行基准测试的方法,这有助于确定此类分析的最有效方法。
代谢模型框架
利用基于约束的建模[19],有许多工具可用于预测特定于应变的表型。其中使用最广泛的是COBRA toolbox[20,21],它已经与MatLab和Python的计算环境集成在一起。这个框架,不管使用哪种编程语言实现,都包含许多重要的特性来导入SBML文件和在面向对象编程(OOP)范式下进行的性能模拟和分析。本章将报告COBRA的Python版本的代码示例。因此,要复制这里报告的分析,应该安装以下资源:
- Python v2.7 or greater.
- COBRApy [21] (https://github.com/opencobra/cobratoolbox).
- Gurobi (or another linear programming solver compatible with
COBRApy) (http://www.gurobi.com/). - Pandas v0.7 or above.
方法
获得公开可用的基因组序列
注释基因组
虽然大多数公开可用的基因组都有注释,但有些序列可能需要注释。如果是这种情况,最好让所用数据集的注释方法保持一致,即所有基因组都应该使用相同的工具进行注释,以防止注释管道偏移结果。一般来说,细菌的基因组注释被认为是一个已经解决的问题,可以使用许多可用的工具之一来完成。我们建议使用Prokka,这是一个用户友好的、可定制的软件,它的预测已经被证明是准确的[13]。此外,Prokka可以生成GFF3文件,这些文件可以很容易地传递给Roary来执行高通量泛基因组分析。Prokka的示例命令行是:
prokka --outdir mydir --prefix mygenome genome_sequence.fa
其中,genome_sequence.fa是报告感兴趣的基因组核苷酸序列的fasta文件,mydir是包含输出文件的要生成的目录,mygenome是输出文件的前缀(其扩展名和描述见表1)。