0 导语
再过不到一个月,就要高考了。
考试固然重要,它检验的是努力,决定了起点的高度;
报考更重要,它是方向,让考生从无限可能步入可能中的一种,决定了考生的未来。
是啊,任你分数再高,只要报考出点问题,岂不是多年的努力多半付之东流?
记得那年高考的时候,我上届本省某大哥以671分这种稳进Top2的成绩去了东北电力学院。
几无例外,大家报考时都会查一查中国大学排行榜。
这类排行榜有网大、武书连、中国校友会等多种版本。
评价方式大同小异,即根据科研实力、学生就业率等指标计算出一个总的分数进行排名。
尽管这个排名很具有指导意义,但多数考生只会关心排名,往往忽略了一些重要信息,比如高校之间的联系和区别,而这些信息也是非常有价值的。
举例来说吧!
假如你是个学霸,分数高,性子倔,想报考工科专业,且非清华北大不去。
这时候就要研究下清华和北大的联系和区别是什么?
都在北京海淀区,都很牛逼;
北大侧重于理科和文科,清华更侧重于工科。
这时候,如何选择,一目了然。
倘若分数不太济,可能刚刚好够不上清华,咋整?
中科大,哈工大,华南理工,西工大……都是中国顶级工科类院校。
倘若分数继续不济,且特想学建筑,“985”上不了,”211”有风险,怎么办?
此时你就需要知道建筑领域有“老八校”和“建筑新四军”这俩说法,
“老八校”和“新四军”代表业界公认最强的十二所建筑强校。
建筑“老八校”发展到现在,只有一所既不是“985”也不是“211”;
那么不要犹豫,此时最佳选项就是“老八校”里最差的那个。
倘若分数仍然不济,连一本都悬,咋整?
问题也不大,因为“新四军“里面甚至还有一所学校在我当年高考的时候连“一本”都不是。
此时,“新四军“里“最挫”的那个就是夜空中最亮的星。
以低于名校分数,享受着名校的教育,何乐而不为呢?
像“学科侧重方向”,“老八校”,“新四军”,这些信息是排行榜这类榜单无法给出的。
如此说来,报考不但要考虑到排名,还要研究学校之间的区别与联系,是一门高深的学问。
其实,生物多样性的研究也是如此。
1 "Within和Between"
宏基因组分析中最常用的群落多样性指标包括Alpha多样性和Beta多样性。
Alpha多样性指标,是一个一维的数值,指的是环境样本内物种多样性大小,即Within Sample,如同高校排行榜可作为高校实力的排名参考,Alpha多样性指标能体现各群落物种多样性指标的大小。
比如表1就是在A(A1~3)和(B1~3)两组样本中以观察到物种数(Observed Species,Obs)或操作分类单元(Operational Taxonomic Units,OTUs)降序排列获得Obs指标龙虎榜。
表1 两组样本的Alpha多样性指标
Sample | Obs | Chao1 | ACE | Shannon | Simpson |
---|---|---|---|---|---|
A1 | 2781 | 3011.970 | 3145.893 | 9.381 | 0.996 |
A3 | 2511 | 2717.473 | 2829.702 | 9.062 | 0.994 |
A2 | 2321 | 2538.997 | 2586.814 | 9.045 | 0.995 |
B2 | 2010 | 2231.791 | 2337.814 | 8.370 | 0.989 |
B1 | 1977 | 2315.182 | 2415.277 | 8.403 | 0.991 |
B3 | 1828 | 2039.566 | 2068.423 | 8.256 | 0.989 |
这里倘若A组是处理组,B组是对照,则可应用假设检验计算P值以说明显著性。说明一定的生物学意义,A组的生物多样性显著大于B组。
当然,我们也可以应用其他指标(Chao1、Shannon等)进行降序排名。
在实际的研究项目中,科学家们往往会用添加变量的的方式去表现Alpha多样性以说明此现象的生物学意义,比如加个坐标轴,或者再给点颜色看看(图1)。
图1来自于2012年发表在Nature上的一篇经典文章[1],主要讲的是人类菌群结构随年龄和地域的变化。
图1a是不同年龄不同地区人群肠道微生物群落物种数量(OTU数量)的分布散点图。横纵坐标分别表示年龄和肠道中观察到的物种数。其中的规律显而易见,从出生开始随着年龄的增长,人的肠道微生物不断增加,在3岁左右达到一个平台期,这个可参考图1b。
图中点的颜色用来区分来自不同地区的人:非洲马拉维人(Malawians),美洲印第安人(Amerindian)和美国公民(US residents),成年人中经济条件差的地区(马拉维人和美洲印第安人居住地)人肠道微生物种类要显著高于经济条件好的地区(P<0.005),而儿童中却并未发现这种显著差异。
这让我想起了孔圣人曾经说的那句话:人之初,性本善,性相近,习相远。目测此研究跟古人想法暗合啊。如此从肠道数据上来看,大家差不多是生而平等的,也就是说大家出生的时候跟王思聪的也没什么差别,没必要先天性地对他进行个人崇拜。
Alpha多样性指标可描述样本内物种多样性,仅仅是描述样本内物种数量和均匀度的指标,这类指标仅与当前样本有关,与其他样本无关,因此样本之间的差异远近关系用Alpha多样性难以较为完整表达。一个较为极端但很有可能发生的例子就是两个群落的Alpha多样性一致,但是物种的种类完全不一致。
因此,对于环境样本,不同的样本中往往分布着不同的生物群落。对这些生物群落之间的差异进行量化,不仅可以帮助研究者理解各个样本的生物多样性如何,还可以帮助解释样本为什么以这种方式聚集或分散。这就涉及到生物群落多样性的另外一种表达方式,即Beta多样性。
Beta多样性是Whittaker于1960年[2]提出,定义为群落组成变化的程度,或群落分化的程度,与环境的复杂梯度或环境的模式有关。这么看有点难以理解,我们换句好理解的话说,就是样本间的相对差距,针对的是Between Samples,请注意要与Alpha多样性所针对的的Within Sample有所区分。Beta多样性,不仅可以反映样本之间的多样性距离关系,而且还可以反映生物群落之间的分化程度。
结合本文开头的内容,对两种多样性做个一句话总结就是:Alpha多样性相当于以打分的方式给大学打分,可得出排名;Beta多样性则是研究大学之间的区别、联系、远近亲疏关系。
2 Beta多样性分析方法
广义上说,Beta多样性分析包括分两部分:距离的计算和距离的展示。
2.1 距离的计算
狭义上说,Beta多样性仅仅就指是样本间相对差异距离。
当然这个狭义和广义仅仅是我个人的理解。
如何计算两样本Beta多样性差异距离?
还是老套路,从最简单直接的开始。
一个极粗野豪迈的计算公式:
是指样本1中包含的物种数;
是指样本2中包含的物种数;
指的是样本1和样本2中共有的物种数;
比如两个环境样本中共有5个物种:OTU1、OTU2、OTU3、OTU4、OTU5。
样本1中有3个物种:OTU1、OTU2和OTU4;
样本2中也有3个物种: OTU2、OTU4和OTU5。
单纯从观察到的物种(Obs)这个指标来看,它们的Alpha多样性是一致的,但Beta多样性距离是不一致的。
两者共有的物种有2个:OTU2和OTU4。
样本1独有的物种是OTU1;样本2独有的物种是OTU5。
那么它们的差异距离,代入公式就是:
这两个样本的差异距离为2。
也就是说,有2个物种要么只存在于样本1中,要么只存在于样本2中。
这就是最简单的距离计算方法,学名叫汉明距离(Hamming Distance)[3]。
另外还有很多计算距离的方法,比如Euclidean距离、Bray-Curtis距离、Pearson距离、非加权或加权UniFrac距离等[4]。
两个样本的距离计算大抵如此,那么多个样本两两计算距离则会产生一个距离矩阵(图2)。
如图2所示,3个样本的距离矩阵可很容易找出两两样本的距离远近。
倘若是10个甚至是50个以上样本呢?
我们要考察样本的聚类关系怎么办?
这种距离矩阵的表示方法就变得非常不直观,
我们需要寻找到更好得展示距离的方式。
2.2 距离的展示
那么啥是数据降维呢?
其实平时大家都玩过的用手机拍照就是一种数据降维。
现在桌上有半包红塔山。
需要我们用图片的方式把这半包烟的数据完整的表述出来。
采集完备数据的科学做法是采用机械制图方法,绘制出半包烟的正视图、左视图、右视图、俯视图、甚至细节剖面图等(图3a-d)。应用这些图,我们能够描述出这半包烟的完整信息,但是它们是多维的数据很不直观。
这相当于我们分析16S序列数据后得到的OTU丰度表,你从这张表中很难发现样本之间的关系有何规律。
因此为求直观,你只能用一张照片尽可能多地展示这半包烟的信息,这张照片其实大家都会拍。
为了更全面展示剖面信息,我们甚至可以把烟盒打开,露出半包烟的更多信息,即烟杆、内衬锡纸等。
较为重要的是要选择好拍摄角度,差不多斜上方45°角。
这样基本上这半包烟在一张照片上的信息量就做到了尽可能多。
尽管这样会损失一些信息(图3σ照片中不可见的几个面),但这可仅仅是二维数据,包含信息最全的二维数据,直观啊!
原始数据要正视图、左右视图、俯视图、分层剖面图等才能表达最完整信息。而降维之后,仅仅一张二维图片即可展示出相对来说较完整的半包烟是什么样的。这就是降维,选择能够捕捉到的最全面的拍摄角度,把高维数据转换成尽可能包含最全信息的低维数据。拍照中转换拍摄角度,放在数据分析中就是指变换坐标。
降维是一种很好的数据可视化方式。在Beta多样性分析中,常用的降维分析方法有三种:主成分分析(Principle Compounent Analysis, PCA)、多维尺度分析(Multidimensional Scaling, MDS)和主坐标分析(Principal Co-ordinates Analysis, PCoA)。这三者的原理基本大同小异,不同之处就是开始时应用的数据关系矩阵不同,PCA用的是属性之间的相关性矩阵,而PCoA和MDS应用的是属性之间的距离矩阵。
如图4所示,距离的计算和降维包括下述4个基本步骤。
- 数据标准化
首先根据OTU丰度分布表对数据进行标准化,即某样本的某OTU丰度减去该属性的平均值。 - 距离计算
根据标准化后的OTU丰度分布表,计算出属性的相关性或者是距离矩阵。 - 寻找坐标系
数据分析中则是寻找属性距离矩阵的特征值和特征向量,并根据特征值对特征向量从大到小排序。其中特征值可理解为该坐标包含的信息量大小的度量值,特征向量则是坐标的方向。该过程可相当于上文红塔山例子中调整拍摄的囊括的信息量(特征值)和角度(特征向量)。 -
线性变换
找到了新的坐标系之后,用标准化之后的数据分别右乘囊括信息量最大的坐标,即特征值排名第一(PC1)和第二(PC2)的特征向量,所有的样本就已经用新的2维坐标系定位啦。然后,再计算出每个特征向量解释度,就是囊括信息量的占比。最后在新的直角坐标系中作图,所得到的就是大家最后看到的二维平面图。
针对上面的二进制OTU分布表(图2),包含5种OTUs,也就是5维数据。
我们根据上面的步骤,采用PCA的降维方式把它降到2维。如下图:
依旧延续先前的问题,倘若是10个甚至是50个样本呢?
再来看一张图(图6),该图依然来自于前文所述的那篇经典文章,是根据16S rDNA数据分析得到的OTU多样性对比,计算出Unifrac距离矩阵,据此进行了PCoA分析获得的二维数据。
PC1和PC2分别表示数据降维后解释度排名前两位的主坐标轴,这两个主坐标分别占25%和6.6%的数据解释度。可明显观察出发达地区(蓝色)的多样性距离聚集现象,并与欠发达地区(红色和绿色)可明显分开。这说明在后天环境的影响下,成人的肠道菌群差距还是蛮大的,即“性相近,习相远”。
如果降维后,二维没法得到自己想要的结果,比如本来分成两组的样本却分不开,如图6中红色和绿色的点,或者说所有的样本点都近乎平均的分散在坐标系中,可以增加一个维度,采用三维展示(图7)[5]。
另外,那篇经典Nature文章[1],曾用一维的距离数据展示过Beta多样性。
这里可狗尾续貂般地说一说!
看图8,这张图与图1a唯一不同的仅有纵坐标。纵坐标数值是应用一种叫UniFrac距离的计算方法,量化了各组样本中的未成年人对比成年人数据的差异。每一个点都表示了一个未成年人和所有来自同一国家、且与他无关的成年人之间的平均UniFrac距离。此图和图1a的表达出来的意思基本相吻合,随着年龄的增长,未成年人和成年人的肠道微生多样性差距越来越小。此文献上的官方说法是在所有三个不同地区的人中,肠道菌群的系统发育组成在出生后的三年内都向着成人的状态变化。
3 后记
本篇是Beta多样性的第一篇,与Alpha多样性相比,Beta多样性的内容相当多,光距离的计算我所听说过的就有60余种之多;而降维等距离展示的方式涉及到线性代数等基础内容。
这倒是颇有些像修炼绝世武功,学习六脉神剑,必须要有深厚的内功和一阳指做基础。
不过总结起来,万变不离其宗。Beta多样性,“无他,唯距离之计算与展示尔!”
对于本文开头提到的关于高校报名,还想再说几句。
我们查寻各个学校的有关资料会发现学校之间的区别和联系等信息。
倘若把所包含的学科看做样本中存在的物种/OTU,各学科目水平分数看做物种/OTU的绝对丰度。
按照上述的分析方式根据相关性或者距离指标做个PCA或PCoA等分析,哪些学校会和哪些学校聚为一类呢?这些学校之间的直观差距到底有多大呢?
这个Idea就免费送给相关学者去研究啦。
作为生物狗,我就不搀和了。
备注:本文于2019年5月20日发表于e媛微生态公众号。
参考文献
[1] Yatsunenko, T. et al. Human gut microbiome viewed across age and geography[J]. Nature, 2012, 486, 222-227.
[2] Whittaker, R. H. Vegetation of the Siskiyou Mountains, Oregon and California[J]. Ecological Monographs, 1960, 30, 280-338.
[3] https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
[4] http://qiime.org/1.3.0/scripts/beta_diversity_metrics.html
[5] Debebe T, Biagi E, Soverini M, et al. Unraveling the gut microbiome of the long-lived naked mole-rat[J]. Scientific reports, 2017, 7(1): 9590.