MDS and PCoA
多维缩放(Multi-Dimensional Scaling)分为:
-
经典的(classical)或者标准的(metric)
- 也被称为:Principal Coordinate Analysis(主坐标分析 PCoA)
非度量(Non-Metric)
我们有一群cell,做RNA-seq。当我们进行PCA时,我们将样本之间的相关性(或缺乏相关性)转换为二维图。高度相关的cell聚集成类。
多维缩放(MDS)和主坐标分析(PCoA)与主成分分析(PCA)非常相似,不同的是,它们不是将相关性转换为二维图,而是将样本之间的距离转换为二维图。为了计算MDS或PCoA,我们必须计算cell1和cell2、cell3、cell4之间的距离,cell2和、cell3、4之间的距离.....
现在,让我们假设我们只需要计算cell1和cell2之间的距离,计算两个物体之间距离的一种常见方法是计算欧几里得距离(Euclidian distance)。
如果我们只有两个基因,我们可以计算cell1和cell2之间的距离通过公式:
有了更多的基因,我们只是把更多基因之间的差异的平方加起来
一旦我们计算出每一对细胞之间的距离,MDS和PCoA就会把它们缩小成二维图。坏消息是,如果我们使用欧几里得距离(Euclidian distance),得到图会和PCA图相同。换句话说,基于最小化线性距离的聚类和最大化线性相关性的聚类是一样的。
好消息是还有很多其他的方法来测量距离,例如,另一种测量细胞间距离的方法是计算各基因间log倍数变化绝对值的平均值。首先计算cell1和cell2基因的log倍数变化,然后计算所有log倍数变化的绝对值,最后求平均值。
最终,我们将得到看起来不同的图形
生物学家可能会选择用log Fold Change来计算距离,因为他们经常对基因间的log Fold Change感兴趣。但是有很多距离可供选择,Manhattan Distance 、Hamming Distance、Great Circle Distance etc.etc.etc.。选择“最佳”距离是数据“科学”的“艺术”的一部分。