Fungene分析流程比较以nifH为例

16SrRNA 基因通常作为分子标记进行微生物群落结构的研究，但是它有一些明显的限制，比如16S rRNA基因在物种中会有多个拷贝，而且，由于16S rRNA基因的进化速率较慢，在物种间保守，会存在多个物种的基因完全相同的情况，而且由于基因水平转移的发生，即使亲缘关系较远的物种，也可能出现基因序列完全相同的情况，更进一步讲，我们分析时通常只采用16S rRNA基因的某些区域，这导致物种间扩增出来的片段完全相同的概率大大增加；

而一些蛋白编码基因，特别是一些参与重要的信号通路的基因，比如参与氮循环的的基因，这些基因出现水平转移的概率小，也可以作为分子标记来研究微生物的群落结构。FunGene 是一个免费的数据库，收录了许多功能基因的序列，而且提供了一些工具对功能基因进行分析。

FunGene的序列来源于GeneBank 数据库，而GeneBank 数据库是有冗余的，所以FunGene 也会有冗余现象，所以在下载完序列之后，需要去冗余。在去冗余的过程中需要注意，uncultured 代表无法单独培养的一些菌，比如 uncultured bacterium 代表无法单独培养的细菌，这个是一类物种的简称，不是指同一个物种。

一个官方的fungene分析流程来自他的官网 RDP Tutorials分析流程有在线版FunGene Pipeline和本地版（托管在GitHub上）rdpstaff。本地版结合RDPTools可以做更多事情。

fungene

fungenepipeline主要有以下五个步骤：质控、蛋白质校正、比对、聚类和多样性分析。

具体地，在其官网上分为了12步

关键的一步就是framebot，即氨基酸的校正与过滤。为什么功能基因要用氨基酸序列分析呢？

功能基因多样性研究的目的是功能生态学方向的研究
功能基因扩增子序列相较于rDNA更复杂（GC%高）
部分功能基因在DNA水平具有较低的基因分辨率和相似性
取出非功能基因序列、含终止子的序列以及氨基酸的校正（移码突变、读框移位等）

功能基因多样性分析一般计算出多样性指数jaccard_and_sorensen、shannon_chao1等就可以做样本间和组间的差异分析了。这个pipeline并没有对氨基酸做物种的注释。

taxadiva

下面我们来看两个以nifh为例的已发表的pipeline。一个是 2017发表在Applied and Environmental Microbiology上的，并没有基于蛋白序列来分析而是直接拿扩增的nifh序列来物种注释。文章提供的pipeline托管在github上taxadiva，

我们看他的分析流程上并无新意，但是他的注释过程却值得我们注意：

三种注释情况的ROC曲线来判断注释的结果。

注释的数据库nifH Sequence Database是比较早的数据库（2014，contains 32,954 aligned nifH sequences with associated metadata）

为了使用UNIFRAC进行β多样性分析，pipeline重建了来自每个OTU的代表性序列的系统发育。首先，使用QIIME命令pick_rep_set.py挑选一组代表性序列，并将这些序列与parallel_align_seqs_pynast.py对齐nifH参考比对。使用QIIME命令filter_alignment.py消除所有间隙的对齐列，并使用QIIME命令make_phylogeny.py制作系统发育树。在QIIME中计算α和β多样性指标。为了创建丰度条形图，TaxADivA脚本用于为OTU分配分类并输出OTU表，然后将其转换为hdf5格式并用作QIIME脚本summarize_taxa_through_plots.py的输入。

当然有了以上结果，后面的统计分析也都可以用R，python、spss来是实现了。

NifMAP

Evaluation of Primers Targeting the Diazotroph Functional Gene and
Development of NifMAP – A Bioinformatics Pipeline for Analyzing
nifH Amplicon Data

NifMAP（“NifH MiSeqIllumina Amplicon Analysis Pipeline“），用Hidden-Markov模型将同源基因过滤掉（氨基酸序列的校正）。

（1）使用QIIME的join_paired_ends.py将成对的原始MiSeq读数组装成重叠群【contigs】（Caporaso等，2012）。

（2）利用HMMER中的HMMQuestH命令，将合并后的重叠群与基于HMM的HMM（HMMN-NUCUC1160SnIFH.HMM）进行比对过滤。不管模型匹配分数如何，通过这一步骤的所有reads都被接受用于下一步骤。

（3）使用UPARSE（Edgar，2013）对序列进行嵌合过滤和聚类。

首先，使用-derep_fullength命令对contigs进行去重，并删除单独的唯一序列。然后使用-cluster_otus命令（using 3% radius）确定OTU质心。

通过使用-usearch_global命令（以0.97％的同一性，以下称为OTU97）将过滤的重叠群（在去重复之前）映射到OTU质心来确定OTU的丰度。

（4）使用FrameBot（Wang等人，2013）针对nifH蛋白参照集进行氨基酸翻译和（潜在的）移码校正。

（5）使用HMMER中的hmmscan命令，针对nifH基因（bchX，chlL，bchL和parA）的同源基因针对HMM nifH_ChlL_bchX.hmm（见上文）进行过滤。只保留了与bchX和chlL-bchL模型相比，对nifH模型得分最高的OTU代表序列。

（6）OTU分类和系统发育构建：剩余的OTU代表序列使用BLASTP（Camacho等，2009）RefSeq数据库进行分类学注释（Pruitt等，2005）。

其实到这里功能多样性差异检验等的分析就可以做了，这流程的一个比较新的点是他用校正的nifh基因构建进化树。

OTU代表也使用RAxML中的进化树算法（EPA）实现放置在基础树上（Stamatakis，2014）。基础树生成如下：

（1）提取含有nifH_2014April04.arb数据库中nifH基因的氨基酸序列信息的所有条目。其中包括来自基因组的1971个条目和来自非基因组测序来源的39,258个条目。

（2）过滤掉所有短于133AA的序列，并将剩余的序列去除重复。

（3）使用CD-HIT将剩余序列聚集在90％同一性的聚类阈值（Fu等人，2012）。此外，使用CD-HIT将用于构建bchX和chlL-bchL HMM的序列聚集在80％同一性的阈值，并与聚类的nifH序列合并。然后使用MAFFT L-INS-i将组合的数据集与用于构建HMM Zehr_2014_1812genomes_nifH_AA.hmm的基因组起源的1812个氨基酸序列的比对集合进行比对，以保持与nifH_2014April04.arb数据库相容的比对数。最后，使用RAxML重建基于CAT模型的自举最大似然树（ bootstrapped maximum likelihood tree ）。

为了将OTU代表放置在基础树上，使用MAFFT对齐用于构建基础树的对齐，然后使用RAxML使用EPA将序列添加到基础树。 pipeline的步骤1和3与Herbold等人描述的程序相同。（2015年），而第2,4,5和6步是这项工作的新内容。用于再现步骤2,4,5和6的HMM，基础树和shell脚本可在https://github.com/roey-angel/NifMAP上公开获得。

NifH的无根RAxML-EPA树推导的氨基酸序列（具有至少133个位置）。 nifH和非nifH（同源基因）簇以不同的颜色表示。来自“nifH_2014April04.arb”数据库（Heller等，2014）的代表性序列用黑色表示。本研究中来自三个引物对的OTU代表的系统发育位置描述于末端节点：用引物对Ueda19F-R6获得的序列以红色显示，IGK3-DVV衍生的序列以蓝色显示，以及F2-R6衍生的序列黄色最外面的条代表每个OTU的相对丰度[log（x％+ 1）]。

文章用靶向nifH基因的引物对（Ueda19F-R6，IGK3-DVV和F2-R6）对不同生态的样本做了比较，也是对此流程的验证。

总结

nifH功能基因同16S一样属于微生物的扩增子研究，但是扩增的区域和研究的目的不同。
功能基因研究目前的流程不像16S那么成熟，数据库也各有构建的方法。
功能基因多样性研究流程大都参考扩增子分析流程与工具，主要变化体现在氨基酸的校正以及数据库的应用。

参考：
rdpstaff
fungene
FunGene Pipeline
NifMAP
taxadiva
RDP Tutorials
Functional Gene Unsupervised Workflow
FunGene 功能基因数据库
 Using RDPTools Output with Phyloseq
refseq介绍
 nifh
nirs
amoA_AOA
amoA_AOB

A comprehensive aligned nifH gene database: a multipurpose tool for studies of nitrogen-fixing bacteria

图片备注：

图2 | nifH引物对基于读数比例在环境样品中扩增nifH和非nifH（同源）基因的性能
（A）和OTU（B）。

环境样本包括：

（a）山毛榉森林土壤;
（b）草甸土壤;
（c）根际和（d）Arrhenatherum elatius的根样本;
（e）根际和（f）Oryza sativa的根样本;
（g）沿海，亚北极生物土壤结皮（BSC）;
（h）温和的平衡计分卡;
（i）高山BSC;
（j）半干旱平衡计分卡;
（k）干旱BSC;
来自（l）Great Belt和（m）Roskilde Fjord的河口样本。

 关于样品的更多细节可以在“材料和方法”部分中找到。将分类为同源基因（例如bchX，chlL，bchL和parA）的读数或OTU概括为“非nifH”。


图6 | 基于使用不同引物对的定量PCR，环境样品中每ng DNA标准误差的平均nifH拷贝数。 环境样本包括：（a）山毛榉森林土壤; （b）草地
泥; （c）根际和（d）Arrhenatherum elatius的根样本;（e）中
根际和（f）Oryza sativa的根样本; （g）沿海，亚北极
生物土壤结皮（BSC）; （h）温和的平衡计分卡; （i）高山BSC; （j）半干旱
BSC; （k）干旱BSC; 来自（l）Great Belt和（m）Roskilde的河口样品
峡湾。

校正拷贝数以排除使用从具有特异性引物对的样品的扩增子测序获得的信息共同扩增的非nifH基因。


图3 | 基于BLASTP搜索不同引物对和环境样品的nifH序列的分类学分类。 热图的颜色
表示每个样本的分类学类别的平均相对丰度。 环境样本包括：（a）山毛榉森林土壤; （b）草甸土壤; （C）
根际和（d）Arrhenatherum elatius的根样本; （e）根际和（f）Oryza sativa的根样本; （g）沿海，亚北极生物土壤结皮（BSC）; （H）
温带BSC; （i）高山BSC; （j）半干旱平衡计分卡; （k）干旱BSC; 来自（l）Great Belt和（m）Roskilde Fjord的河口样本。

最后编辑于：2018.09.29 08:25:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,198评论 6赞 514
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,334评论 3赞 398
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,643评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,495评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,502评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,156评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,743评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,659评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,200评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,282评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,424评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,107评论 5赞 349
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,789评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,264评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,390评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,798评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,435评论 2赞 359

Fungene分析流程比较以nifH为例

fungene

taxadiva

NifMAP

总结

推荐阅读更多精彩内容