文献阅读:FlowSOM:使用自组织映射可视化和解释流式数据

文献信息

标题:FlowSOM: Using Self-Organizing Maps for Visualization and Interpretation of Cytometry Data

DOI(url): FlowSOM: Using self‐organizing maps for visualization and interpretation of cytometry data - Van Gassen - 2015 - Cytometry Part A - Wiley Online Library

日期及杂志:2015 Jul, Cytometry A

作者及单位:Sofie Van Gassen, Department of Information Technology, Ghent University, iMinds, Ghent, Belgium

文献概述(这篇文献的结论是什么?)

本文介绍了名为FlowSOM的可视化和解释流式细胞术数据的方法。该算法包括四个步骤:读取数据、构建自组织映射、构建最小生成树和计算元聚类。此外,还提出了几种可视化选项:星图来检查几个makers,饼图来与手动结果进行比较,可变节点大小取决于分配给节点的单元数量,网格或树结构能够提供拓扑信息。


workflow.png

1、读取数据

预处理步骤:读取fcs数据文件,对fcs文件进行补偿和逻辑转换,将所有样本的数据整合成一个大的总矩阵,并进行标准化,使每一列的均值为0,标准差为1,以确保每个marker在后续处理中具有相同的重要性(如果先验知识是某个marker比另一个marker具有更高的重要性,可以设置特定的缩放参数来反映这一点)。

2、建立自组织映射(SOM)

SOM是一种特定类型的人工神经网络,用于聚类。它由一个节点网格(a grid of nodes)组成,其中每个节点表示多维输入空间中的一个点。在聚类过程中,新的数据点被分类到与其最近邻节点相对应的节点上。彼此紧密连接的节点比仅通过长路径连接的节点更相似,因此,网络包含拓扑信息,单个训练点可以影响多个节点。

更正式的解释是,我们有k个节点,每个节点被定义为一个d维点。首先用数据集的随机点初始化节点,我们定义了一个邻域函数作为二维网格节点的契比雪夫距离。自组织映射是通过反复从数据集中选择一个点,找到离它最近的节点并更新该节点附近的所有节点来训练的。在算法过程中,减小了邻域的大小ε和学习因子α。最后,将数据集的每个点分配给与它最相似的节点,从而得到最终的聚类。

3、建立最小生成树(MST)

聚类结果使用最小生成树进行可视化,MST将SOM的节点连接起来,使得分支的权重之和最小化。通过这样做,节点将与它们最相似的节点相连接,考虑到数据的多维拓扑结构,结果是一个连通无环图。

4、元聚类(Meta-Clustering)

使用R包ConsensusClusterPlus进行一致性聚类,根据节点的相似性将节点分配给特定的细胞类型。为了确定meta-clusters的数量,可以基于先验知识,也可以根据手肘法选择。

文章亮点(这篇文献的优点在哪?)

  • FlowSOM算法是一种用于聚类的自组织映射算法,与传统的层次聚类算法(如SPADE)相比,FlowSOM算法不会使每个聚类簇的大小近似相同,因此可以检测到罕见的细胞类型,无需基于密度的子采样。

  • FlowSOM算法在处理大规模数据集时具有较高的效率,相比于SPADE算法,去除了子采样阶段,节省了大量的时间。

我的疑问(这篇文献的不足在哪?)

  • 对SOM的介绍比较简略,数据预处理到SOM的衔接比较割裂,有点难以理解

和我相关(我从这篇文献里学到了什么?)

  • 该算法并不是并行,而是在单核上运行,但相比并行运行的SPADE速度还是快了10-50倍

  • 对于FlowSOM,运行时间和内存消耗不会受到分析中marker数量变化的强烈影响

相关文献(文献扩展,其他补充资料)

fcs数据格式:fcs32.pdf (sourceforge.net)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容