文献阅读：FlowSOM：使用自组织映射可视化和解释流式数据

文献信息

标题：FlowSOM: Using Self-Organizing Maps for Visualization and Interpretation of Cytometry Data

DOI(url): FlowSOM: Using self‐organizing maps for visualization and interpretation of cytometry data - Van Gassen - 2015 - Cytometry Part A - Wiley Online Library

日期及杂志：2015 Jul, Cytometry A

作者及单位：Sofie Van Gassen, Department of Information Technology, Ghent University, iMinds, Ghent, Belgium

文献概述(这篇文献的结论是什么？)

本文介绍了名为FlowSOM的可视化和解释流式细胞术数据的方法。该算法包括四个步骤:读取数据、构建自组织映射、构建最小生成树和计算元聚类。此外，还提出了几种可视化选项:星图来检查几个makers，饼图来与手动结果进行比较，可变节点大小取决于分配给节点的单元数量，网格或树结构能够提供拓扑信息。

workflow.png

1、读取数据

预处理步骤：读取fcs数据文件，对fcs文件进行补偿和逻辑转换，将所有样本的数据整合成一个大的总矩阵，并进行标准化，使每一列的均值为0，标准差为1，以确保每个marker在后续处理中具有相同的重要性（如果先验知识是某个marker比另一个marker具有更高的重要性，可以设置特定的缩放参数来反映这一点）。

2、建立自组织映射（SOM）

SOM是一种特定类型的人工神经网络，用于聚类。它由一个节点网格（a grid of nodes）组成，其中每个节点表示多维输入空间中的一个点。在聚类过程中，新的数据点被分类到与其最近邻节点相对应的节点上。彼此紧密连接的节点比仅通过长路径连接的节点更相似，因此，网络包含拓扑信息，单个训练点可以影响多个节点。

更正式的解释是，我们有k个节点，每个节点被定义为一个d维点。首先用数据集的随机点初始化节点，我们定义了一个邻域函数作为二维网格节点的契比雪夫距离。自组织映射是通过反复从数据集中选择一个点，找到离它最近的节点并更新该节点附近的所有节点来训练的。在算法过程中，减小了邻域的大小ε和学习因子α。最后，将数据集的每个点分配给与它最相似的节点，从而得到最终的聚类。

3、建立最小生成树（MST）

聚类结果使用最小生成树进行可视化，MST将SOM的节点连接起来，使得分支的权重之和最小化。通过这样做，节点将与它们最相似的节点相连接，考虑到数据的多维拓扑结构，结果是一个连通无环图。

4、元聚类（Meta-Clustering）

使用R包ConsensusClusterPlus进行一致性聚类，根据节点的相似性将节点分配给特定的细胞类型。为了确定meta-clusters的数量，可以基于先验知识，也可以根据手肘法选择。

文章亮点(这篇文献的优点在哪？)

FlowSOM算法是一种用于聚类的自组织映射算法，与传统的层次聚类算法（如SPADE）相比，FlowSOM算法不会使每个聚类簇的大小近似相同，因此可以检测到罕见的细胞类型，无需基于密度的子采样。
FlowSOM算法在处理大规模数据集时具有较高的效率，相比于SPADE算法，去除了子采样阶段，节省了大量的时间。

我的疑问(这篇文献的不足在哪？)

对SOM的介绍比较简略，数据预处理到SOM的衔接比较割裂，有点难以理解

和我相关(我从这篇文献里学到了什么？)

该算法并不是并行，而是在单核上运行，但相比并行运行的SPADE速度还是快了10-50倍
对于FlowSOM，运行时间和内存消耗不会受到分析中marker数量变化的强烈影响

文献阅读：FlowSOM：使用自组织映射可视化和解释流式数据