关于Tajima's D和Watterson estimator

序言

在前几篇的文章中，我们讲到了一个用来检测受到选择后表现异常的loci （outlier）的系数Tajima's D，但是当讲到它的计算公式时，发现其中涉及到了比较复杂的数学推导，这里通过原始文献来解释一下，并且探究一下如何从segragating sites和genetic diversity来判断loci的异常程度。

Watterson Estimator

在1970年时，Margaret Wu和G. A. Watterson提出了一种使用segregating sites的数目来估计群落中的遗传多样性(genetic diversity)的方法。
换句话说，也就是从可以直接观测的群落的核苷酸多样性来测量群落的突变速率

从一个传统的公式中可以看出，有效种群大小（Ne）与突变速率μ可以得出θ （pairwise的差异）。这个公式其实是neutral theory的核心，所以也要在符合中性理论的条件下才能使用。

该estimator的假设：对于一个具有n倍体基因组的个体/群体来说，上面是有无穷多个位置可以发生变化的，并且n肯定远远小于Ne。而且由于你比较的序列越多，那么segregating的位点肯定也会增加，所以需要校正因子an。

根据以上假设，提出了一个θ的估计的公式。

其中K就是segregating位点的数目，而an就是校正因子，熟悉的同学会发现这个就是在Tajima’s D中出现的第一个复杂的未知因子。
那么什么是segregating sites？
简单的说，就是找不同，数不同，单位是site。什么意思呢?就是在n条序列中，如果某些位点有不一样(~~pairwise~~ pair比较)，那就是一个segregating site。（下面实际计算时会更容易理解一点）

从以上的假设中也可以很容易看出这个假设的一些会bias的情形。例如群落结构的改变，例如发生了population expansion，那么就是会出现很多singleton（1个序列有这个variance，其它都没有），那么S就会变得很大。
除此之外，如果假设满足，则是unbiased，但是variance会随着样本大小或者重组速率的增加而降低（反比）。

Tajima's D

在Watterson Estimator的最后部分，也提到了，用polymorphism去estimateθ是Tajima's D用局部的locus去推断进化的基础之一。

基础复习
Tajima's D是一个比较差异的测度。
所以自然而然就产生了第一个问题？什么的差异？
简单的回答就是，estimate θ 核酸多样性(pairwise nucleotide diversity)的方法的差异
那么复杂的回答应该是要回答为什么可以比以及如何比？
两个理论
由于有两个种方法都可以用来estimate这个θ：

1和3则是上面提到的Watterson estimator，S为segregating sites的数目
2和4乍看很奇怪，但其实π是mean pairwise differcence，也是直接与θ相关。
其中所有的M都是4Neμ，可以理解成θ。

其中的E代表的是期望，而V代表的方差。M可以理解成θ。

实际上，这里的4个公式十分难以理解。。。至少对我来说是这样的。所以我打算再简化一点来说。想看简化的可以跳过推导和理解part

推导与个人理解

根据公式1可以得到θ = S/a1，但是由于S是一个会随着比较的序列的数目而改变的测度，所以也有点怪怪的不可考
然后另一个理论/计算方法，又引入一个了公式2和4，通过计算平均的核酸差异来进行计算θ。
综上，发现公式1与2最大的差异在于（考虑的东西/计算的单位）的不同。

啥意思呢？
公式1(segregating sites): 计算的其实是位点，所以位点越多影响越多，但没有考虑这个位点内部的比例，所以即使几百条序列，只有一条有1个variance，那么也会考虑
公式2(平均核酸差异): 计算的是一个平均值，两两比较完以后取平均，非常合乎常理，但也把某些频率很低的突变的比重放的很小（频率低不一定不重要）

简化版(refer to 《computational Molecular Evolution》)

Two way to estimate θ

Tajima's D的例子

关于Tajima's D和Watterson estimator