群落多样性之Alpha多样性（一）

学习生物学，一项很重要的事情就是理解概念。
有一种方法就是直接从名字上理解概念。
小RNA，是不是就是很小的RNA？
宏基因组，是不是就是很“宏”的基因组？
……
答案很统一：必须是啊！

这可以总结出一套理解生物学概念的方法，就是顾名思义。
今天呢，我们继续感受一下宏基因组中的“宏”，介绍一个广泛应用于宏基因组分析中的生态学概念——Alpha多样性。先请看下面的BOX中的三个定义。

-----------------------------------------BOX 1：群落多样性-----------------------------------------
微生物群落物种多样性指标共分为三种分别为：
Alpha多样性：指特定群落或生境内的物种多样性，主要关注群落内的物种多样性。
Beta多样性：是生境之间的物种多样性，用以衡量群落之间的差别。
Gamma多样性：在一个地区内不同生境的总多样性。
--------------------------------------------BOX 1 END------------------------------------------------

跟宏基因组不一样的是，此概念不那么容易顾名思义。
什么是Alpha、Beta和Gamma多样性？
它们有什么区别？
感觉没那么容易搞清楚，上面字我全都认识，连起来看我就没怎么看明白。
史学界和法律界中都有这么个说法，叫做“孤证不立”。
仅仅我自己没看明白，并不足以证明此概念不好理解。
于是乎，我把此概念分享给一个执行过宏基因组学分析的同事，然后出了道判断题。

-------------------------------------------BOX 2：一道判断题----------------------------------------
我带着摄像头去非洲大草原的3个地区拍摄，回来研究视频，在3个地区观察到以下动物：
地点A：1头猎豹、1头狮子、1头野猪，2只长颈鹿，11头野牛,15只土狼。
地点B：1只鬣狗、1头狮子、2只狒狒，8条鳄鱼，10头野猪，18头水牛。
地点C：3头猎豹、1头狮子、20匹斑马、1条蛇、1只乌龟，10只河马。
问：目测一下，三个地点的Alpha多样性是否是一致的？
------------------------------------------------BOX 2 END---------------------------------------------

同事的回答是：“不相等……吧。”
“为什么？”
“感觉吧！”
“这个感觉有点问题。如果不考虑为什么的话，你这道题怎么回答都是值得商榷的！”
“alpha多样性主要用于推测特定群落内的多样性，alpha多样性的一个最简单的指标就是数一下样本中的物种数量，那么，三个地点的物种数各是多少呢？”
“都是6个！”同事有种恍然大悟的感觉，“哦，那他们的alpha多样性是相等的啊！”
其实，就凭前面很勉强的回答“不相等……吧。”和“感觉吧”，我基本上可以做出判断：这哥们跟我当年最初接触宏基因组学的时候一样，做过类似的分析，但是并不完全清楚Alpha多样性。
如此说来，这就是不光我一个人弄不明白得问题了，不算“孤证”了。
看来详细点介绍这个概念，还是有必要的。

Alpha多样性主要用于评估特定群落内的多样性。
其中一个最简单的指标就是数一下样本中的物种数量。
那么，三个地点的物种数各是多少呢？
6个，从观察到样本的物种数量上看，他们的Alpha多样性是相等的。
这么简单？其实没这么简单！
对于特定群落或生境内的物种多样性，最简单的理解就是，群落或生境内看到的物种多，就是多样性高。又由于我们进行宏基因组学研究的时候，一般在特定群落采集一个样本或者一组样本（一般为3到5以上），群落或生境内也可理解为样本或组内，即within sample or within group。目前，Alpha多样性最常用的有5种指标，即Observed Species（Obs），Chao1，ACE，Shannon和Simpson。
这五种指标涵盖了三大问题。
1. 物种丰富度 (Richness)----不考虑丰度，即样本中有多少个物种，衡量指标包括Obs，Chao1和Ace。
2. 物种多样性 (Diversity)----将物种个数和物种的丰度全部考虑在内的多样性，衡量指标包括Shannon和Simpson。
3. 物种均匀度 (Eveness)----这些物种的丰度分布情况，衡量指标包括Shannon和Simpson等。
这五个指标说的都与生境内多样性有关，但又各有各的不同。

Observed Species是最简单的计算方式，就是数一下这个样本中有多少类物种。
那么物种怎么数呢？
微生物又不能像上面说的狮子和野猪一样直接去数，难道要在显微镜下数么？
别说这还真有可能是个好主意，也许有一天人工智能发展到一定程度，可根据形态学特征一个个数出来。
未来的事情未来再说，先说眼下，好在现在我们有高通量测序手段解决这个问题，就是说测完了序，数序列，推断物种的Alpha多样性。
数序列，其实数的就是操作分类单元（Operational Taxonomic Units, OTU）。
OTU就是能够标志分类单元（属或物种等）的一种DNA序列。
如果想对OTU是什么怎么来的有个大概的了解，请看下面分割线中这段；如果不想，直接跳过就是。

--------------------------------------BOX 3： OTU是怎么来的--------------------------------------
以16S序列分析为例，我们从微生物DNA高变区扩增子序列测序得到双末端测序数据(Pair-end Reads, PE Reads)。
经一定条件过滤后,将每对PE Reads的Read1和Read2根据重叠序列拼接成Tag序列，然后再过滤，得到Clean Tags序列。理论上，每一条Clean Tag序列来自一个菌。
再将相似度大于97%或95%的Clean Tags序列归为同一个序列单元，这种序列单元就叫做操作分类单元（OTU）。
实际上，OTU是在系统发生学研究或群体遗传学研究中，为方便分析，人为给某一个分类单元设置的同一标志，其中分类单元可以是门、纲、目、科、属、种、品系以及分组等。
在宏基因组研究中，一个OTU不止可能能标志种，也可能标志属，还可能标志科等不同的分类等级，所以它叫操作分类单元，而不是叫做操作种单元或操作属单元。
这里要注意Taxonomic和Species/genus的关系，谁是谁的充分条件，谁是谁的必要条件。
-----------------------------------------------BOX 3 END----------------------------------------------

好了，得到了OTU序列。那就数一下呗。
不过这里要注意，OTU即可代表物种，一条OTU能够标志一个物种。
甚至为方便理解，采用佛家“色即是空，空即是色”的表达方式，我们可以更过分一点：OTU即是物种，物种即是OTU。
数完了，我们得到一个数字，比如50。
没错，这个数字就是该样本的alpha多样性之一，Observed Species。

那么问题来了，你能保证你所观察到的OTU序列就是环境样本中的全部物种么？
显然这个是保证不了的，总会有漏网之鱼没有被观察到。这需要具备一个抽样的思想，任何我们观察到的物种都看成是抽样，并非总体。也就是说，眼见未必为实。
因此我们需要用数学的方法基于样本来估计总体。
于是乎，1984年Chao[1]开发了一个算法用以估计真实总体的物种数，计算公式如下：

$S_{chao1} =S_{obs} +S_{pred} =S_{obs} +\frac {n_{1}^2} {2n_{2}}$

$S_{chao1}$ : 最终估计的OTU数目。
$S_{obs}$ : 观察到的OTU数目。
$n_{1}$ : 只含有1条序列的OTU数目，即只被观察到1次的物种（暂定义为痕量物种）的数量。
$n_{2}$ : 只含有2条序列的OTU数目，即只被观察到2次的物种（暂定义为微量物种）的数量。
由于 $n_2$ 有可能为0，而导致公式第二部分没有意义，所以有人把这个公式修正了一下：

$S_{chao1} =S_{obs} +S_{pred} =S_{obs} +\frac {n_{1}(n_{1}-1)}{2(n_{2}+1)}$

为方便表达，我们定义n为某一OTU(物种)包含的序列(个体)数，即OTU(物种)种的绝对丰度。
$S_{chao1}$ 的公式包括两部分，第一部分就是现在我们观察到的物种数（ $S_{obs}$ ），显然第二部分就是没观察到的物种数（ $S_{pred}$ ）， $S_{pred}$ 就是基于 $n_{1}$ 和 $n_{2}$ 推算出来的。
这里，我们可以尝试计算一下BOX2中地点A、B和C的 $S_{chao1}$ 。
地点A： $S_{chao1} =6+3*(3-1)/2*(1+1) = 7.5$
地点B： $S_{chao1} =6+2*(2-1)/2*(1+1) = 6.5$
地点C： $S_{chao1} =6+3*(3-1)/2*(0+1) = 9$
A、B和C3个地点的 $S_{obs}$ 都是6，但 $S_{pred}$ 分别为1.5，0.5和3。
A和B比较， $n_1$ 的增加可使 $S_{pred}$ 呈现二次方增长。这就是说当观察结果存在越多的痕量物种( $n=1$ )时，就表明还可能有更多的物种没有被观察到。
A与C比较， $n_2$ 对 $S_{pred}$ 贡献起到一定的反比例抑制作用。可理解为，当多种微量物种被观察到时，观察到的痕量物种未必会是真正的痕量物种，有可能是微量物种，所以微量物种的存在将使得痕量物种对多样性的贡献力度大打折扣。
当然对于 $n_2$ 在这个公式中起到的意义，这句只是我的理解，具体有一个详细的推导过程，可参见Chao在1984年的那篇经典文章，欢迎数学功底深厚的同学讨论。
再者，可以比较一下 $S_{pred}$ 的分子和分母， $n_{1}(n_{1}-1)$ 要比 $2(n_{2}+1)$ 变化速度更快，即 $S_{pred}$ 对痕量物种更加敏感。
高丰度的物种( $n≥3$ )的数量对 $S_{pred}$ 并无任何作用。
举例说就是，不论地点A有11头野牛和200头野牛，对A地的Chao1指标的大小并无影响。
极端假设一下，如果一个群落样本中全部都是高丰度物种，即抽样调查中物种被抽到2次以上，则表明很可能观察到的物种数就是真实的物种数。
由此可见， $chao1$ 是度量物种类别多样性的指标，是针对总体物种数量的推测，与丰度、均匀度无关，对稀有物种很敏感。

根据Chao1的公式不难看出，对未观察到物种的估计仅仅考虑到丰度为1和2的物种。那么，仅仅考虑丰度为1和2的物种会不会有些问题？丰度为3的呢？丰度为4的呢？……
1992年，Chao等[2]又开发出一个新的方法用来估计物种的丰富度——ACE指数。这个指数对微量物种的考虑范围扩大到了10，也就是说考虑到了丰度为10以内的物种(定义为稀有物种)，公式如下：

$S_{ACE}=S_{abund}+\frac {S_{rare}} {C_{ACE}}+\frac {F_1} {C_{ACE}} γ_{ACE}^2$

$C_{ACE}=\frac{N_{rare}-F_1} {N_{rare}}=1 –\frac{ F_1} {N_{rare}}$
$N_{rare}=\sum_{i=1}^{10} iF_i$
$γ_{ACE}^2=max[\frac{S_{rare}\sum_{i=1}^{10} i(i-1)F_i} {C_{ACE}(N_{rare})(N_{rare}-1)} -1,0 ]$

$S_{rare}$ 为稀有物种的数量( $n≤10$ )， $S_{abund}$ 为高丰度物种的数量( $n>10$ )，这里观察到物种的总数 $S_{obs}=S_{abund}+S_{rare}$ 。参数 $C_{ACE}$ 用于衡量丰度 $n≥2$ 且 $n≤10$ 的物种丰度总覆盖率。 $N_{rare}$ 为所有稀有物种丰度之和； $F_i$ 为丰度为 $i$ 的物种的数量。
因此， $\frac {S_{rare}} {C_{ACE}}$ 为应用丰度 $n≥2$ 且 $n≤10$ 的物种估计的稀有物种数量。
另一个参量 $γ_{ACE}^2$ 用于估计 $F_i$ 的变异系数， $max[X,0]$ 的意思就是如果 $X<0$ ，这个式子就等于0。
接下来，咱们该解释一下 $\frac {F_1} {C_{ACE}} γ_{ACE}^2$ 啦！
其实就一句话：为应用丰度为1 ( $n=1$ )的物种推算出的稀有物种数量。
三者相加就是ACE的指标。
继续老套路，我们再尝试计算一下一个地点A、B和C的 $S_{ACE}$ ：
地点A： $N_{rare}=1*3+2*1+3*0+4*0+…10*0= 5$
$C_{ACE} = 1 – \frac{3}{5} =0.4$
$γ_{ACE}^2=max[\frac{4*(1*(1-1)*3+2*(2-1)*1+0)} {0.4*5*(5-1)},0]= 1$
$S_{ACE}=2+\frac {4} {0.4}+(\frac {3} {0.4})*1= 19.5$
地点B： $N_{rare}=1*2+2*1+3*0+4*0+…7*0+8*1+9*0+10*1= 22$
$C_{ACE} = 1 – \frac{2}{22} =0.91$
$γ_{ACE}^2=max[\frac {5*(1*(1-1)*2+2*(2-1)*1+8*(8-1)*1+10*(10-1)*1)} {0.91*22*(22-1)},0]= 1.76$
$S_{ACE}=2+\frac{5} {0.91}+(\frac{2} {0.91})*1.76= 11.36$
地点C：
$N_{rare}=1*3+2*0+3*1+4*0+…+10*1=16$
$C_{ACE} = 1 – \frac {3} {16}= 0.81$
$γ_{ACE}^2=max[\frac { 5*(1*(1-1)*3+2*(2-1)*0+3*(3-1)*1+..+10*(10-1)*1 ) } { 0.81*16*(16-1) }, 0]= 0.41$
$S_{ACE}=2+\frac { 4 } { 0.57 }+(\frac { 2 } { 0.57 } )*1.00= 7.95$

这么一看，Chao1和ACE两个指标算出来的结果并不是很一致，两者都会低估样本物种容量较低时的真实物种类别丰富度。例如，当一个样本中只有一个丰度为2的物种且其他的物种丰度都是1的时候， $S_{chao1}$ 的值为 $\frac {S_{obs}^2+1} {2}$ 。因此， $S_{chao1}$ 会与样本物种容量大小有很强的相关性，除非 $S_{obs}$ 达到2倍的真实物种类别丰富度的平方根[3]。而不管是微生物宏基因组学研究中样本的物种容量还是真实的自然生态系统中的可观察物种远远多于举例中的三个地点，因此应该是足够的。

物种类别丰富度指标Chao1和ACE，即可用于估计野猪和狮子等生存的大型生态环境，也可用于估计肠道和土壤等的微环境。
以野猪的视角来看，整大型个生态系统的物种类别丰富度，可形象谓之为上帝视角，够“宏”吧？
以大肠杆菌的视角来看，肠道的物种类别丰富度，亦为上帝视角，够“宏”吧！
到此为止物种类别丰富度指标我们已然介绍完毕。
至于囊括丰度和均匀度的Shannon和Simpson指标……
呃……现在已然是2019年3月30日1点60，
咦，我好像听到了鸡叫，
管他呢，困了，天色已晚，洗洗睡……

备注：此文于2019年3月29日发于e媛微生态。

参考文献
[1] Chao A . Nonparametricestimation of the number of classes in a population[J]. Scandinavian Journal of Statistics, 1984, 11: 265-270.
[2] http://scikit-bio.org/docs/0.4.1/generated/generated/skbio.diversity.alpha.chao1.html
[3] Hughes J B , Hellmann J J , Ricketts T H , et al. Counting the Uncountable: Statistical Approaches to Estimating Microbial Diversity[J]. Applied and Environmental Microbiology, 2001, 67(10): 4399-4406.

群落多样性之Alpha多样性（一）

群落多样性之Alpha多样性（一）

推荐阅读更多精彩内容

友情链接更多精彩内容