材料

基因组序列

通过对生物体基因组序列的分析，确定编码功能产物的遗传元件。反过来，这些可以被注释，以确定它们在细胞生物学中的作用，并映射到其他基因组，以确定同源基因。可以从NCBI的ftp站点以不同的格式(如FASTA和Genbank)下载公开可用的基因组及其注释的元素(如果存在)。应该强调的是，虽然这里报告的分析可以对完整序列和草稿序列进行相同的执行，但最好使用完整的版本(如果有的话)。在基因组缺少注释的情况下(例如使用适合这项任务的工具(如Prokka[13])可以很容易地填补这一空白。

序列比较工具

基因间的同源关系可以通过序列相似性来评估，序列相似性可以通过BLAST、BLAT或MUMmer等工具来评估[14-16]。由于两个基因组间同源基因的识别并非易事，已经有许多方法来解决这一任务。最近，[17]提出了一种对现有工具进行基准测试的方法，这有助于确定此类分析的最有效方法。

代谢模型框架

利用基于约束的建模[19]，有许多工具可用于预测特定于应变的表型。其中使用最广泛的是COBRA toolbox[20,21]，它已经与MatLab和Python的计算环境集成在一起。这个框架，不管使用哪种编程语言实现，都包含许多重要的特性来导入SBML文件和在面向对象编程(OOP)范式下进行的性能模拟和分析。本章将报告COBRA的Python版本的代码示例。因此，要复制这里报告的分析，应该安装以下资源：

Python v2.7 or greater.
COBRApy [21] (https://github.com/opencobra/cobratoolbox).
Gurobi (or another linear programming solver compatible with
COBRApy) (http://www.gurobi.com/).
Pandas v0.7 or above.

方法

获得公开可用的基因组序列

注释基因组

虽然大多数公开可用的基因组都有注释，但有些序列可能需要注释。如果是这种情况，最好让所用数据集的注释方法保持一致，即所有基因组都应该使用相同的工具进行注释，以防止注释管道偏移结果。一般来说，细菌的基因组注释被认为是一个已经解决的问题，可以使用许多可用的工具之一来完成。我们建议使用Prokka，这是一个用户友好的、可定制的软件，它的预测已经被证明是准确的[13]。此外，Prokka可以生成GFF3文件，这些文件可以很容易地传递给Roary来执行高通量泛基因组分析。Prokka的示例命令行是：

prokka --outdir mydir --prefix mygenome genome_sequence.fa

其中，genome_sequence.fa是报告感兴趣的基因组核苷酸序列的fasta文件，mydir是包含输出文件的要生成的目录，mygenome是输出文件的前缀(其扩展名和描述见表1)。

识别同源基因

http://orthology.benchmarkservice.org

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

GSM-cobra-python