文献信息
标题:FlowSOM: Using Self-Organizing Maps for Visualization and Interpretation of Cytometry Data
日期及杂志:2015 Jul, Cytometry A
作者及单位:Sofie Van Gassen, Department of Information Technology, Ghent University, iMinds, Ghent, Belgium
文献概述(这篇文献的结论是什么?)
本文介绍了名为FlowSOM的可视化和解释流式细胞术数据的方法。该算法包括四个步骤:读取数据、构建自组织映射、构建最小生成树和计算元聚类。此外,还提出了几种可视化选项:星图来检查几个makers,饼图来与手动结果进行比较,可变节点大小取决于分配给节点的单元数量,网格或树结构能够提供拓扑信息。
1、读取数据
预处理步骤:读取fcs数据文件,对fcs文件进行补偿和逻辑转换,将所有样本的数据整合成一个大的总矩阵,并进行标准化,使每一列的均值为0,标准差为1,以确保每个marker在后续处理中具有相同的重要性(如果先验知识是某个marker比另一个marker具有更高的重要性,可以设置特定的缩放参数来反映这一点)。
2、建立自组织映射(SOM)
SOM是一种特定类型的人工神经网络,用于聚类。它由一个节点网格(a grid of nodes)组成,其中每个节点表示多维输入空间中的一个点。在聚类过程中,新的数据点被分类到与其最近邻节点相对应的节点上。彼此紧密连接的节点比仅通过长路径连接的节点更相似,因此,网络包含拓扑信息,单个训练点可以影响多个节点。
更正式的解释是,我们有k个节点,每个节点被定义为一个d维点。首先用数据集的随机点初始化节点,我们定义了一个邻域函数作为二维网格节点的契比雪夫距离。自组织映射是通过反复从数据集中选择一个点,找到离它最近的节点并更新该节点附近的所有节点来训练的。在算法过程中,减小了邻域的大小ε和学习因子α。最后,将数据集的每个点分配给与它最相似的节点,从而得到最终的聚类。
3、建立最小生成树(MST)
聚类结果使用最小生成树进行可视化,MST将SOM的节点连接起来,使得分支的权重之和最小化。通过这样做,节点将与它们最相似的节点相连接,考虑到数据的多维拓扑结构,结果是一个连通无环图。
4、元聚类(Meta-Clustering)
使用R包ConsensusClusterPlus进行一致性聚类,根据节点的相似性将节点分配给特定的细胞类型。为了确定meta-clusters的数量,可以基于先验知识,也可以根据手肘法选择。
文章亮点(这篇文献的优点在哪?)
FlowSOM算法是一种用于聚类的自组织映射算法,与传统的层次聚类算法(如SPADE)相比,FlowSOM算法不会使每个聚类簇的大小近似相同,因此可以检测到罕见的细胞类型,无需基于密度的子采样。
FlowSOM算法在处理大规模数据集时具有较高的效率,相比于SPADE算法,去除了子采样阶段,节省了大量的时间。
我的疑问(这篇文献的不足在哪?)
- 对SOM的介绍比较简略,数据预处理到SOM的衔接比较割裂,有点难以理解
和我相关(我从这篇文献里学到了什么?)
该算法并不是并行,而是在单核上运行,但相比并行运行的SPADE速度还是快了10-50倍
对于FlowSOM,运行时间和内存消耗不会受到分析中marker数量变化的强烈影响
相关文献(文献扩展,其他补充资料)
fcs数据格式:fcs32.pdf (sourceforge.net)