Module 0:试运行 VIRGO
本模块概述了如何测试 VIRGO 以确保其按预期工作。
在目录 testrun 中包含测试数据集:
cd testrun
运行 step1 和 step2 脚本,确保指定 VIRGO 下载到的路径(它应该包含数据库结构,例如 /path/to/VIRGO/0_db 和 /path/to/VIRGO/1_VIRGO)
./runTesting.step1.sh -1 sub1.fq -2 sub2.fq -p test -d /path/to/VIRGO/ ./runTesting.step2.sh -p temp_testsample -d /path/to/VIRGO/
你应该看到所有文件的输出如下
ls temp_testsample/
summary.Abundance.txt
summary.Percentage.txt
summary.Count.txt
summary.geneRichness.txt
test.1.reads2ref
test.annotation.txt
test.1.fq
test.2.fq
test.out
Module 1:映射到 VIRGO 非冗余基因数据库
本模块演示如何将宏基因组或宏转录组样本的读数映射到 VIRGO 并呈现结果。
请注意 VIRGO 尚不支持双端映射,请将双端读取单独或与单端读取合并到一个 fastq 文件中。
runMapping.Step1.sh
参数含义:
-r 作为单端读取的 fastq 文件
-p 样本前缀
-d VIRGO目录
例子:
./runMapping.step1.sh -r sample1.fastq -p samplePrefix -d /full/path/to/VIRGO/
输出应该是一个 sampleName.out 文本文件。
head sampleName.out
第1列是 VIRGO 基因 ID
第2列是映射到 VIRGO 数据库的读取数
第3列是基因长度。文件按读取映射列的数量排序。
对所有样本集重复此操作。下面是一个伪代码示例
for sample in *.fq; do ./runMapping.step1.sh -r sample1.fastq -p $sample -d /virgo/path/; done
汇总多个样本的统计信息
./runMapping.step2.sh -p /path/to/output/of/step1/ -d /path/to/VIRGO/
Output includes:
summary.Abundance.txt:每个物种的读取次数
summary.Count.txt:每个物种的基因数量
summary.Percentage.txt:每个物种的标准化丰度百分比(总计 100)
summary.geneRichness.txt:每个样本的基因数
summary.NR.abundance.txt:每个非冗余基因的读取次数
gene.lst.txt:具有基因长度的非冗余基因列表
EggNOG.annotation.txt:每个样本的 EggNOG 注释文件
EC.annotation.txt:具有 EC 编号的非冗余基因列表
GC.txt:具有基因计数类别的非冗余基因列表(HGC:高基因计数,LGC:低基因计数)
geneProduct.txt:带有基因产物注释的非冗余基因列表
Kegg.module.annotation.txt:带有 KEGG 模块注释的非冗余基因列表,包括模块 ID 和注释
Kegg.ortholog.annotation.txt:带有 KEGG 直向同源 (KO) 注释的非冗余基因列表,包括直向同源 ID 和注释
Kegg.pathway.annotation.txt:带有 KEGG 通路注释的非冗余基因列表,包括通路 ID 和注释
proteinFamily.annotation.txt:具有蛋白质家族注释的非冗余基因列表,来自 CDD、GO、Gene3D、Hamap、Interpro、MobiDBLite、PIRSF、PRINTS、Pfam、ProDom、ProSitePatterns、ProSiteProfiles、SFLD、SMART、SUPERFAMILY、TIGRFAM 的数据库
rxn.annotation.txt:具有 KEGG 反应的非冗余基因列表