VIRGO 和 VOG 数据库使用教程(2)

Module 0:试运行 VIRGO

本模块概述了如何测试 VIRGO 以确保其按预期工作。
在目录 testrun 中包含测试数据集:

cd testrun

运行 step1 和 step2 脚本,确保指定 VIRGO 下载到的路径(它应该包含数据库结构,例如 /path/to/VIRGO/0_db 和 /path/to/VIRGO/1_VIRGO)

./runTesting.step1.sh -1 sub1.fq -2 sub2.fq -p test -d /path/to/VIRGO/ ./runTesting.step2.sh -p temp_testsample -d /path/to/VIRGO/

你应该看到所有文件的输出如下

ls temp_testsample/

summary.Abundance.txt
summary.Percentage.txt
summary.Count.txt
summary.geneRichness.txt
test.1.reads2ref
test.annotation.txt
test.1.fq
test.2.fq
test.out

Module 1:映射到 VIRGO 非冗余基因数据库

本模块演示如何将宏基因组或宏转录组样本的读数映射到 VIRGO 并呈现结果。
请注意 VIRGO 尚不支持双端映射,请将双端读取单独或与单端读取合并到一个 fastq 文件中。
runMapping.Step1.sh
参数含义:

-r 作为单端读取的 fastq 文件
-p 样本前缀
-d VIRGO目录

例子:

./runMapping.step1.sh -r sample1.fastq -p samplePrefix -d /full/path/to/VIRGO/

输出应该是一个 sampleName.out 文本文件。

head sampleName.out
图1

第1列是 VIRGO 基因 ID
第2列是映射到 VIRGO 数据库的读取数
第3列是基因长度。文件按读取映射列的数量排序。

对所有样本集重复此操作。下面是一个伪代码示例

for sample in *.fq; do ./runMapping.step1.sh -r sample1.fastq -p $sample -d /virgo/path/; done

汇总多个样本的统计信息

./runMapping.step2.sh -p /path/to/output/of/step1/ -d /path/to/VIRGO/

Output includes:

summary.Abundance.txt:每个物种的读取次数
summary.Count.txt:每个物种的基因数量
summary.Percentage.txt:每个物种的标准化丰度百分比(总计 100)
summary.geneRichness.txt:每个样本的基因数
summary.NR.abundance.txt:每个非冗余基因的读取次数
gene.lst.txt:具有基因长度的非冗余基因列表
EggNOG.annotation.txt:每个样本的 EggNOG 注释文件
EC.annotation.txt:具有 EC 编号的非冗余基因列表
GC.txt:具有基因计数类别的非冗余基因列表(HGC:高基因计数,LGC:低基因计数)
geneProduct.txt:带有基因产物注释的非冗余基因列表
Kegg.module.annotation.txt:带有 KEGG 模块注释的非冗余基因列表,包括模块 ID 和注释
Kegg.ortholog.annotation.txt:带有 KEGG 直向同源 (KO) 注释的非冗余基因列表,包括直向同源 ID 和注释
Kegg.pathway.annotation.txt:带有 KEGG 通路注释的非冗余基因列表,包括通路 ID 和注释
proteinFamily.annotation.txt:具有蛋白质家族注释的非冗余基因列表,来自 CDD、GO、Gene3D、Hamap、Interpro、MobiDBLite、PIRSF、PRINTS、Pfam、ProDom、ProSitePatterns、ProSiteProfiles、SFLD、SMART、SUPERFAMILY、TIGRFAM 的数据库
rxn.annotation.txt:具有 KEGG 反应的非冗余基因列表

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容