微生物beta deviation计算_零假设模型

1. 起源——checkerboard distribution

在一项关于新几内亚岛（New Guinea）及其周边岛屿的鸟类群落的研究中，Diamond声称找到了鸟类物种分布的构建原则，说到“某些物种从未共存过，不管是二者共存，还是与其他物种一起共存”。例如，麦金莱杜鹃鸽（Macropygia mackinlayi）和斑尾杜鹃鸽（Macropygia nigrirostris），尽管二者生态习性相似，分布区也存在重叠，但是二者却从未在俾斯麦群岛上某个岛屿上共存过。Diamond将这种分布模式称为“棋盘分布（checkerboard distribution）”，意指二者像checkerboard上的黑白格一样，虽交错分布，却毫无关联。Diamond认为，两种杜鹃鸽对有限资源的竞争是导致这种分布模式的原因之一。

checkerboard

然而，其他生态学家认为仅仅从空间分布模式上推断二者存在竞争排斥很草率。Connor和Simberloff认为，要证明竞争导致了棋盘分布，首先要证伪一个零假设（null hypothesis），即棋盘分布是由于鸟类随机定居造成的。如何建立一个零假设模型？他们策略是，在某种限制下，将物种随机放置在俾斯麦群岛的一个小岛，然后计算任意小岛上从未共存鸟类物种对的数量。如果这样的物种对数量的期望值与俾斯麦群岛实际观测到的物种对数据不存在统计差异，那么就不能拒绝零假设，即不能否定随机定居的作用，而将棋盘分布归因于竞争排斥。Connor和Simberloff的挑战招来了Diamond及其同事的极力反驳；同样，Simberloff及其同事也针锋相对。这场持续的争辩一直到今天也没有停止。而伴随着这场争论， Simberloff提出的策略在生物科学中非常广泛地应用开来。

2. 构建零模型——certain constraints

在Connor和Simberloff的设计中，物种被随机置放于各个小岛中。这即是形成了一个个随机矩阵，如下图所示。那么，对于有m个物种，n个小岛的观测数据来讲，即存在2^mn个随机矩阵。但是，但是，在实际应用中，物种随机搁置形成的矩阵要服从一定限制。Connor和Simberloff提出了以下三种限制：

对于某个小岛，物种数等于该小岛的实际观测物种数
对于某个物种。其在所有小岛的出现次数等于实际观测的出现次数
物种只随机放置于该物种实际出现的岛屿中

matrix

前二者很好理解，对应列联表中的列和、行和。第三个限制就比较复杂，一些物种的分布区较广，而另一些物种可能仅分布在特定的岛屿。因此第三个是更为严格的限制。Tello文章中给出的零模型构建函数“assemblages.from.pool.randA”，专门设置了“fix.local.abund=TRUE”和“fix.rSAD=TRUE”两个参数，这两个参数即是上面所述随机矩阵的限制条件。Tello在代码中，详细注释了这两个参数的含义：

fix.local.abund - TRUE/FALSE argument that determines whether the abundances in local assemblages (row sums) will be constrained to be the same as in the empirical data.
fix.rSAD - TRUE/FALSE argument that determines whether the regional species abundance distribution (SAD; column sums) will be constrained to be the same as in the empirical data. If FALSE, individuals are randomly re-assigned to species before they are re-distributed among local assemblages. The default is TRUE.

3.模拟数据与实测数据比较——statistical testing

通过零模型产生模拟数据与俾斯麦群岛的实测数据进行统计检验，来决定是否拒绝零假设。通过若干次迭代，我们能够得到俾斯麦群岛中每个小岛的非共存物种对的数量分布（即null distribution），它描述了非共存物种对数目期望值的可能性。据此，我们可以计算该分布的均值和标准差，进而与实际观测数据进行比较。如果二者之间不存在显著差异，那么就认为棋盘分布的存在与随机定居是一致的；反之，则认为我们不能否认竞争排斥的作用。

4. 争论——critical evaluation

4.1 技术争论：Diamond反驳之稀释效应

Diamond和Gilpin认为，种间竞争仅发生在功能团内部（guild），即对资源需求存在重叠的物种才存在竞争。而Connor和Simberloff的随机化策略包含了整个鸟类，这样功能团内部的竞争作用被一系列生态习性差异较大的物种所形成的不相关数据所稀释。这是Connor和Simberloff所构建模型存在的问题，而并不是零假设模型应用的问题。因此，Connor在其最新的研究中接受这个批判，并改正了模型。

4.2 技术争论：Diamond反驳之零假设模型隐含的竞争效应

在Connor和Simberloff所构建的零假设模型中，物种的随机搁置存在上述的三种限制。Diamond和Gilpin认为，限制2和限制3本身就受到竞争的影响，那么屈从于这种限制的零假设模型也就实际上包含了某些竞争因素，这使得零假设模型不再“null”。只要零假设模型存在这些限制，那么这个问题就一直存在。

4.3 Null models替代“对照”？

零假设检验（null hypothesis testing）并非生态学专属，而来自于统计学（请参阅《女士品茶》）。目前的统计检验都包含null hypothesis和alternative hypothesis（Neyman假设检验）。然而，传统统计检验并不需要null models；而Connor和Simberloff所建立的零假设模型中，null models是必须的（如下图）。那么第一个问题来了，为什么零假设模型需要多次迭代的null models。在传统假设检验中，研究人员搜集处理组和对照的数据，通过假设检验来确定二者是否存在差异。但是，在很多生态学案例中，二者之间的对立关系通常是缺失的。例如，在描述上面提及的鸟类共存的棋盘分布中，我们感兴趣的是竞争是否能导致这种分布。在实际世界中，我们不可能找到一个群岛作为对照，即物种的分布是完全不存在竞争的。Connor和Simberloff所提的null models目的是为了建立一个随机的模拟分布，这其中竞争作用被完全排除。因此，零假设模型中null model是“对照”的替代，这样empirical data和simulated data就可以进行假设检验。

假设检验

4.4 完全互斥和穷举性原则

统计假设检验中零假设和备择假设必须是完全互斥的（mutually exclusive）、穷举的（collectively exhaustive）。例如，高血压药物的降压效果中研究中，即是探讨高血压药物与血压高低的因果关系。那么这个问题的零假设可以是二者存在因果关系，而备择假设是二者没有因果关系。尽管血压降低也能够由其他因素造成（心情、运动等），但是考虑到我们关注高血压药物的作用，因此这些额外因子的作用并不是这个问题容许假设，也就并没有破坏穷举性的原则。

现在回到Connor和 Simberloff零假设模型，那么棋盘分布问题的零假设和备择假设：

H₀棋盘分布是随机定居造成的结果
H₁棋盘分布是由于竞争作用造成的

这里的null models目的在于产生一个将特定机制排除在外的模拟系统，即满足完全互斥的原则。因此，H₀不应包含任何竞争因素，并要包含除竞争外的其他因素。然而，上面4.2提及的问题恰恰破坏了这个原则。并且null models也并不能包含除竞争以外的所有其他因素。对零假设模型的null models解释，Gotelli和Graves这样说到：“A null model is a pattern-generating model that is based on randomization of ecological data or random sampling from a known or imagined distribution. The null model is designed with respect to some ecological or evolutionary process of interest. Certain elements of the data are held constant, and others are allowed to vary stochastically to create new assemblage patterns. The randomization is designed to produce a pattern that would be expected in the absence of a particular ecological mechanism.” 同时，Sloep也强调，H₀和H₁并不是合适的零假设和备择假设，因为H₀并不满足的完全互斥原则。

Zhang认为二者在同一时间不能同为真，所以满足完全互斥；但是二者不满足穷举性原则。Zhang认为，决定物种共存的答案绝不止竞争一个，诸如扩散能力、环境偏好、对捕食者和病菌的响应等等都会影响物种共存。因此，H₀和H₁并不能穷举导致物种共存的所有容许假设（如下图所示），这造成了拒绝任意一个假设，都不能够完全支持另一个假设。具体地，拒绝棋盘分布的随机性成因，并不能使我们得出竞争导致棋盘分布的结论。因此，由于面对的目标不一致，传统的统计假设检验与零假设模型在穷举性原则上存在差异。传统假设检验旨在确定一个关系，即关系存在与否，这满足了穷举性。而零假设模型则更多倾向于即是生态模式、生态现象，而对于模式和现象的解释可以有很多种，这会违背穷举性原则。

H0 and H1

对于零假设和备择假设不匹配的问题，我们可以转换思路。以棋盘分布为例，我们可以对备择假设H₁进行修正为“零假设H₀的逻辑否定”，即棋盘分布不是由于随机定居造成的。这样修正之后的H₁与H₀就满足了穷举性原则。值得注意的是，这样修正之后，问题的重点就变了——“棋盘分布是否由于随机定居造成”。在技术层面，修正后的备择假设和零假设满足了统计假设的原则。但是，同时也忽视了其他因子效应。零假设模型对其他变量因子并没有进行有效控制。此外，数据集的大小也存在差异。经过多次迭代，null models形成了较大的数据集，而实测数据仅仅一个。这种数据集之间的差异会不会对最终的假设检验结果产生影响？这也是未知问题。

4.5 争论的蔓延

上述问题在物种分布模式这个群落生态学问题上依然延续开来。物种分布模式的传统解释是生态位分化，即每个物种有一系列不同的性状，适应特定的环境，并占据特定的生态位。不同的物种能够共存是因为它们的生态位存在差异并且利用资源的方式不同。这是Chase等人关于生态位分化影响物种分布格局的核心思想。而Hubbell的中性理论提出与之相反的生物多样性格局解释。Hubbell认为个体之间不存在差异，具有生态等价性，它们有相同的出生、死亡、迁入和迁出几率。Hubbell将中性假设作为一个与生态位理论相对应的零假设。

Reference:
本文译自
The use and limitations of null‑model‑based hypothesis testing
https://link.springer.com/article/10.1007/s10539-020-09748-0

5. 零假设模型之beta deviation

# 所需函数如下，具体代码自行下载（文末参考文献）
assemblages.from.pool.randA <- function(compo, rand.N=999, fix.local.abund=TRUE, fix.rSAD=TRUE, save.output=FALSE, save.format="matrices", path.to.save, show.progress=FALSE) 
beta.ses <-function(compo, null.matrices)

# 以vegan数据集 varespec为例
> data(varespec)
> varespec1 <- as.data.frame(lapply(varespec,as.integer)) %>% as.data.frame(.)
> rownames(varespec1) <- rownames(varespec)
> compo <- varespec1
> rand.res <- assemblages.from.pool.randA(compo= compo, fix.local.abund=TRUE, fix.rSAD=TRUE,rand.N= 999, save.output=FALSE)

> # 计算beta dev
> null.com <- rand.res$rand.datasets                                           
> null.mat <- null.com
> b_dev <- beta.ses(compo, null.mat)

> # boxplot图
> data("varechem")
> b_dev1 <- b_dev %>% mutate(ph=varechem$pH)
> ggplot(b_dev1, aes(ph, V1))+
+   geom_boxplot(aes(group = ph), size = 1,outlier.shape = 19)+
+   geom_smooth(method =lm, formula= y~poly(x,2), se = F)+
+   theme_bw()+
+   geom_hline(yintercept = 0)

beta deviation across different levels of pH

Refs:
https://www.nature.com/articles/s41467-020-19228-4
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0121458
https://onlinelibrary.wiley.com/doi/10.1111/ele.12787