群落多样性之Beta多样性(一)

0 导语

再过不到一个月,就要高考了。
考试固然重要,它检验的是努力,决定了起点的高度;
报考更重要,它是方向,让考生从无限可能步入可能中的一种,决定了考生的未来。
是啊,任你分数再高,只要报考出点问题,岂不是多年的努力多半付之东流?
记得那年高考的时候,我上届本省某大哥以671分这种稳进Top2的成绩去了东北电力学院。
几无例外,大家报考时都会查一查中国大学排行榜。
这类排行榜有网大、武书连、中国校友会等多种版本。
评价方式大同小异,即根据科研实力、学生就业率等指标计算出一个总的分数进行排名。
尽管这个排名很具有指导意义,但多数考生只会关心排名,往往忽略了一些重要信息,比如高校之间的联系和区别,而这些信息也是非常有价值的。
举例来说吧!
假如你是个学霸,分数高,性子倔,想报考工科专业,且非清华北大不去。
这时候就要研究下清华和北大的联系和区别是什么?
都在北京海淀区,都很牛逼;
北大侧重于理科和文科,清华更侧重于工科。
这时候,如何选择,一目了然。
倘若分数不太济,可能刚刚好够不上清华,咋整?
中科大,哈工大,华南理工,西工大……都是中国顶级工科类院校。
倘若分数继续不济,且特想学建筑,“985”上不了,”211”有风险,怎么办?
此时你就需要知道建筑领域有“老八校”和“建筑新四军”这俩说法,
“老八校”和“新四军”代表业界公认最强的十二所建筑强校。
建筑“老八校”发展到现在,只有一所既不是“985”也不是“211”;
那么不要犹豫,此时最佳选项就是“老八校”里最差的那个。
倘若分数仍然不济,连一本都悬,咋整?
问题也不大,因为“新四军“里面甚至还有一所学校在我当年高考的时候连“一本”都不是。
此时,“新四军“里“最挫”的那个就是夜空中最亮的星。
以低于名校分数,享受着名校的教育,何乐而不为呢?
像“学科侧重方向”,“老八校”,“新四军”,这些信息是排行榜这类榜单无法给出的。
如此说来,报考不但要考虑到排名,还要研究学校之间的区别与联系,是一门高深的学问。
其实,生物多样性的研究也是如此。

1 "Within和Between"

宏基因组分析中最常用的群落多样性指标包括Alpha多样性和Beta多样性。
Alpha多样性指标,是一个一维的数值,指的是环境样本内物种多样性大小,即Within Sample,如同高校排行榜可作为高校实力的排名参考,Alpha多样性指标能体现各群落物种多样性指标的大小。
比如表1就是在A(A1~3)和(B1~3)两组样本中以观察到物种数(Observed Species,Obs)或操作分类单元(Operational Taxonomic Units,OTUs)降序排列获得Obs指标龙虎榜。

表1 两组样本的Alpha多样性指标

Sample Obs Chao1 ACE Shannon Simpson
A1 2781 3011.970 3145.893 9.381 0.996
A3 2511 2717.473 2829.702 9.062 0.994
A2 2321 2538.997 2586.814 9.045 0.995
B2 2010 2231.791 2337.814 8.370 0.989
B1 1977 2315.182 2415.277 8.403 0.991
B3 1828 2039.566 2068.423 8.256 0.989

这里倘若A组是处理组,B组是对照,则可应用假设检验计算P值以说明显著性。说明一定的生物学意义,A组的生物多样性显著大于B组。
当然,我们也可以应用其他指标(Chao1、Shannon等)进行降序排名。

在实际的研究项目中,科学家们往往会用添加变量的的方式去表现Alpha多样性以说明此现象的生物学意义,比如加个坐标轴,或者再给点颜色看看(图1)。

图1. 人类群体肠道菌群多样性随年龄和地域不同产生的差异

图1来自于2012年发表在Nature上的一篇经典文章[1],主要讲的是人类菌群结构随年龄和地域的变化。
图1a是不同年龄不同地区人群肠道微生物群落物种数量(OTU数量)的分布散点图。横纵坐标分别表示年龄和肠道中观察到的物种数。其中的规律显而易见,从出生开始随着年龄的增长,人的肠道微生物不断增加,在3岁左右达到一个平台期,这个可参考图1b。
图中点的颜色用来区分来自不同地区的人:非洲马拉维人(Malawians),美洲印第安人(Amerindian)和美国公民(US residents),成年人中经济条件差的地区(马拉维人和美洲印第安人居住地)人肠道微生物种类要显著高于经济条件好的地区(P<0.005),而儿童中却并未发现这种显著差异。
这让我想起了孔圣人曾经说的那句话:人之初,性本善,性相近,习相远。目测此研究跟古人想法暗合啊。如此从肠道数据上来看,大家差不多是生而平等的,也就是说大家出生的时候跟王思聪的也没什么差别,没必要先天性地对他进行个人崇拜。

Alpha多样性指标可描述样本内物种多样性,仅仅是描述样本内物种数量和均匀度的指标,这类指标仅与当前样本有关,与其他样本无关,因此样本之间的差异远近关系用Alpha多样性难以较为完整表达。一个较为极端但很有可能发生的例子就是两个群落的Alpha多样性一致,但是物种的种类完全不一致。

因此,对于环境样本,不同的样本中往往分布着不同的生物群落。对这些生物群落之间的差异进行量化,不仅可以帮助研究者理解各个样本的生物多样性如何,还可以帮助解释样本为什么以这种方式聚集或分散。这就涉及到生物群落多样性的另外一种表达方式,即Beta多样性

Beta多样性是Whittaker于1960年[2]提出,定义为群落组成变化的程度,或群落分化的程度,与环境的复杂梯度或环境的模式有关。这么看有点难以理解,我们换句好理解的话说,就是样本间的相对差距,针对的是Between Samples,请注意要与Alpha多样性所针对的的Within Sample有所区分。Beta多样性,不仅可以反映样本之间的多样性距离关系,而且还可以反映生物群落之间的分化程度。

结合本文开头的内容,对两种多样性做个一句话总结就是:Alpha多样性相当于以打分的方式给大学打分,可得出排名;Beta多样性则是研究大学之间的区别、联系、远近亲疏关系。

2 Beta多样性分析方法

广义上说,Beta多样性分析包括分两部分:距离的计算和距离的展示。

2.1 距离的计算

狭义上说,Beta多样性仅仅就指是样本间相对差异距离。
当然这个狭义和广义仅仅是我个人的理解。
如何计算两样本Beta多样性差异距离?
还是老套路,从最简单直接的开始。
一个极粗野豪迈的计算公式:
D_{beta}=(S_1-C)+(S_2-C)
S_1是指样本1中包含的物种数;
S_2是指样本2中包含的物种数;
C指的是样本1和样本2中共有的物种数;
比如两个环境样本中共有5个物种:OTU1、OTU2、OTU3、OTU4、OTU5。
样本1中有3个物种:OTU1、OTU2和OTU4;
样本2中也有3个物种: OTU2、OTU4和OTU5。
单纯从观察到的物种(Obs)这个指标来看,它们的Alpha多样性是一致的,但Beta多样性距离是不一致的。
两者共有的物种有2个:OTU2和OTU4。
样本1独有的物种是OTU1;样本2独有的物种是OTU5。
那么它们的差异距离,代入公式就是:
D_{beta}=(S_1-C)+(S_2-C)=(3-2)+(3-2)=2
这两个样本的差异距离为2。
也就是说,有2个物种要么只存在于样本1中,要么只存在于样本2中。
这就是最简单的距离计算方法,学名叫汉明距离(Hamming Distance)[3]。
另外还有很多计算距离的方法,比如Euclidean距离、Bray-Curtis距离、Pearson距离、非加权或加权UniFrac距离等[4]。
两个样本的距离计算大抵如此,那么多个样本两两计算距离则会产生一个距离矩阵(图2)。

图2 3个样本的汉明距离矩阵计算示意图。Binary OTU Distribution Table中, “1”表示样本中存在该OTU,“0”表示不存在。

如图2所示,3个样本的距离矩阵可很容易找出两两样本的距离远近。
倘若是10个甚至是50个以上样本呢?
我们要考察样本的聚类关系怎么办?
这种距离矩阵的表示方法就变得非常不直观,
我们需要寻找到更好得展示距离的方式。

2.2 距离的展示

那么啥是数据降维呢?
其实平时大家都玩过的用手机拍照就是一种数据降维。
现在桌上有半包红塔山。
需要我们用图片的方式把这半包烟的数据完整的表述出来。
采集完备数据的科学做法是采用机械制图方法,绘制出半包烟的正视图、左视图、右视图、俯视图、甚至细节剖面图等(图3a-d)。应用这些图,我们能够描述出这半包烟的完整信息,但是它们是多维的数据很不直观。
这相当于我们分析16S序列数据后得到的OTU丰度表,你从这张表中很难发现样本之间的关系有何规律。
因此为求直观,你只能用一张照片尽可能多地展示这半包烟的信息,这张照片其实大家都会拍。
为了更全面展示剖面信息,我们甚至可以把烟盒打开,露出半包烟的更多信息,即烟杆、内衬锡纸等。
较为重要的是要选择好拍摄角度,差不多斜上方45°角。
这样基本上这半包烟在一张照片上的信息量就做到了尽可能多。
尽管这样会损失一些信息(图3σ照片中不可见的几个面),但这可仅仅是二维数据,包含信息最全的二维数据,直观啊!

图3 通俗方式理解数据降维

原始数据要正视图、左右视图、俯视图、分层剖面图等才能表达最完整信息。而降维之后,仅仅一张二维图片即可展示出相对来说较完整的半包烟是什么样的。这就是降维,选择能够捕捉到的最全面的拍摄角度,把高维数据转换成尽可能包含最全信息的低维数据。拍照中转换拍摄角度,放在数据分析中就是指变换坐标。
降维是一种很好的数据可视化方式。在Beta多样性分析中,常用的降维分析方法有三种:主成分分析(Principle Compounent Analysis, PCA)、多维尺度分析(Multidimensional Scaling, MDS)和主坐标分析(Principal Co-ordinates Analysis, PCoA)。这三者的原理基本大同小异,不同之处就是开始时应用的数据关系矩阵不同,PCA用的是属性之间的相关性矩阵,而PCoA和MDS应用的是属性之间的距离矩阵。
图4 PCA、PCoA和MDS分析的基本步骤

如图4所示,距离的计算和降维包括下述4个基本步骤。

  1. 数据标准化
    首先根据OTU丰度分布表对数据进行标准化,即某样本的某OTU丰度减去该属性的平均值。
  2. 距离计算
    根据标准化后的OTU丰度分布表,计算出属性的相关性或者是距离矩阵。
  3. 寻找坐标系
    数据分析中则是寻找属性距离矩阵的特征值和特征向量,并根据特征值对特征向量从大到小排序。其中特征值可理解为该坐标包含的信息量大小的度量值,特征向量则是坐标的方向。该过程可相当于上文红塔山例子中调整拍摄的囊括的信息量(特征值)和角度(特征向量)。
  4. 线性变换
    找到了新的坐标系之后,用标准化之后的数据分别右乘囊括信息量最大的坐标,即特征值排名第一(PC1)和第二(PC2)的特征向量,所有的样本就已经用新的2维坐标系定位啦。然后,再计算出每个特征向量解释度,就是囊括信息量的占比。最后在新的直角坐标系中作图,所得到的就是大家最后看到的二维平面图。
    针对上面的二进制OTU分布表(图2),包含5种OTUs,也就是5维数据。
    我们根据上面的步骤,采用PCA的降维方式把它降到2维。如下图:


    图5 基于5维OTUs信息3个样本的PCA计算结果

依旧延续先前的问题,倘若是10个甚至是50个样本呢?
再来看一张图(图6),该图依然来自于前文所述的那篇经典文章,是根据16S rDNA数据分析得到的OTU多样性对比,计算出Unifrac距离矩阵,据此进行了PCoA分析获得的二维数据。

图6 不同地区成年人粪便微生物群的非加权UniFrac距离的PCoA分析

PC1和PC2分别表示数据降维后解释度排名前两位的主坐标轴,这两个主坐标分别占25%和6.6%的数据解释度。可明显观察出发达地区(蓝色)的多样性距离聚集现象,并与欠发达地区(红色和绿色)可明显分开。这说明在后天环境的影响下,成人的肠道菌群差距还是蛮大的,即“性相近,习相远”。

如果降维后,二维没法得到自己想要的结果,比如本来分成两组的样本却分不开,如图6中红色和绿色的点,或者说所有的样本点都近乎平均的分散在坐标系中,可以增加一个维度,采用三维展示(图7)[5]。


图7 基于Bray-Curtis距离矩阵得到的3D PCA图。(此图展示了基于16S数据获得的裸鼹鼠大鼠(粉色)、小鼠(绿色)、西方成年人类(蓝色)与一组不同陆生哺乳动物(红色食肉动物(C1-C5)、橙色食肉动物(O1-O9)、黄色食草动物(H1-H17))之间的分离现象。)

另外,那篇经典Nature文章[1],曾用一维的距离数据展示过Beta多样性。
这里可狗尾续貂般地说一说!
看图8,这张图与图1a唯一不同的仅有纵坐标。纵坐标数值是应用一种叫UniFrac距离的计算方法,量化了各组样本中的未成年人对比成年人数据的差异。每一个点都表示了一个未成年人和所有来自同一国家、且与他无关的成年人之间的平均UniFrac距离。此图和图1a的表达出来的意思基本相吻合,随着年龄的增长,未成年人和成年人的肠道微生多样性差距越来越小。此文献上的官方说法是在所有三个不同地区的人中,肠道菌群的系统发育组成在出生后的三年内都向着成人的状态变化。


图8. 儿童和成人之间的UniFrac距离随着儿童年龄的增长而缩短

3 后记

本篇是Beta多样性的第一篇,与Alpha多样性相比,Beta多样性的内容相当多,光距离的计算我所听说过的就有60余种之多;而降维等距离展示的方式涉及到线性代数等基础内容。
这倒是颇有些像修炼绝世武功,学习六脉神剑,必须要有深厚的内功和一阳指做基础。
不过总结起来,万变不离其宗。Beta多样性,“无他,唯距离之计算与展示尔!”
对于本文开头提到的关于高校报名,还想再说几句。
我们查寻各个学校的有关资料会发现学校之间的区别和联系等信息。
倘若把所包含的学科看做样本中存在的物种/OTU,各学科目水平分数看做物种/OTU的绝对丰度。
按照上述的分析方式根据相关性或者距离指标做个PCA或PCoA等分析,哪些学校会和哪些学校聚为一类呢?这些学校之间的直观差距到底有多大呢?
这个Idea就免费送给相关学者去研究啦。
作为生物狗,我就不搀和了。

备注:本文于2019年5月20日发表于e媛微生态公众号。

参考文献

[1] Yatsunenko, T. et al. Human gut microbiome viewed across age and geography[J]. Nature, 2012, 486, 222-227.
[2] Whittaker, R. H. Vegetation of the Siskiyou Mountains, Oregon and California[J]. Ecological Monographs, 1960, 30, 280-338.
[3] https://zh.wikipedia.org/wiki/%E6%B1%89%E6%98%8E%E8%B7%9D%E7%A6%BB
[4] http://qiime.org/1.3.0/scripts/beta_diversity_metrics.html
[5] Debebe T, Biagi E, Soverini M, et al. Unraveling the gut microbiome of the long-lived naked mole-rat[J]. Scientific reports, 2017, 7(1): 9590.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容