在分析肠道微生物数据中,一般会对数据进行一定的转换,以使数据尽可能的服从正态分布。常用的方法有Centered Log-ratio (CLR) transformation和Cumulative Sum Scale (CSS) transformation等。这里介绍一下在R中如何进行CLR转换。
CLR转换的公式如下:
g(x)是x的几何均数。
在进行微生物组数据转换时,第一个问题就是g(x)是取每个样本所有taxa的丰度的几何均数,还是每个taxon在不同样本中丰度的几何均数,又或者是所有样本所有taxa丰度的几何均数呢?
根据微生物组数据的特征,在进行微生物组数据分析时,我们假设每个样本内含有的菌群总量是相同的,比较的主要是每个菌的相对丰度。因为经过clr转换后的数据相加等于0,所以只能按照每个样本的所有taxa丰度计算几何均数。即clr要在每个样本内进行,而不是每个taxon内。
不知道是否可以根据所有样本的所有taxa丰度来计算g(x),这里欢迎各位的指导。
明白clr的基本原理,在R中的实现相对简单,如下:
首先建立一个OTU丰度表
sample1 = c(100, 200, 300, 400)
sample2 = c(200, 400, 500, 800)
sample3 = c(100, 500, 600, 1000)
otu_table = data.frame(sample1, sample2, sample3)
rownames(otu_table) = c("genus1", "genus2", "genus3")
OTU表如下
首先使用compositions包的clr函数进行转换,结果如下:
查看了一下clr函数的帮助文档,但还是没搞明白这个函数的g(x)是如何计算的(根据每个样本,每个taxon,还是所有样本的所有taxa)?
不过,我们可以通过自定义函数来核对:
可以看出来clr函数是根据每行(这里即每个样本)来计算的g(x)。
因此,在使用clr函数时一定要确保taxa在行,样本编号在列。或者可以配合apply函数使用
另外一个问题是这里建立的OTU丰度表没有0值,但在实际的数据中,经常会存在许多的0值,显然不能直接用clr进行数据的转换。
但是我在使用clr函数进行转换时,仍然能够顺利运行且没有任何提示,检查后发现clr函数在遇到0的情况下会忽略0值,对其他值进行转换。
这就造成本来一些丰度大于0的数值,经过clr转换后反而成负数了,比原来丰度为0的taxa丰度还要低,这显然是不合理的。因此建议再转换之前所有丰度数据都加一个极小的数值(pseudo count, 比如1)进行替换。
关于0值的处理,这也不是完美的解决方法,后面如果有更深入的了解会继续更新,欢迎探讨。