Yu Z, Lu Y, Wang Y, et al. ZINB-based Graph Embedding Autoencoder for Single-cell RNA-seq Interpretations. AAAI 2022.
摘要导读
单细胞RNA测序(scRNA-seq)提供了在单细胞分辨率下的全基因组基因表达水平的高通量信息,实现了对单个细胞的转录组的精确理解。(单细胞RNA测序数据的意义)不幸的是,快速增长的scRNA-seq数据和损失事件的频繁发生给细胞类型标注带来了重大挑战。本文提出了一种基于单细胞模型的深度图嵌入聚类(scTAG)方法,该方法同时学习细胞之间的拓扑表示,并基于深度GCN识别细胞类簇。scTAG将零膨胀负二项(ZINB)模型集成到拓扑自适应图卷积自编码器中,学习低维潜在表示,并采用KL散度聚类。scTAG通过同时优化聚类损失、ZINB损失和细胞图重建损失,利用拓扑结构以端到端的方式联合优化聚类标签分配和特征学习。
https://github.com/Philyzh8/scTAG
Recently, emerging graph neural networks (GNNs) have been demonstrated to naturally capture graph structure information propagated through neighbor information.
Graph embedding clustering often combines deep autoencoder and graph clustering algorithms, which can learn the latent compact representation to explore both the rich content and structural information.
模型浅析
模型的结构顺序如下:
- 首先是对数据的预处理 都需要被转化
- 使用基于欧式距离的KNN算法构造近邻样本之间的关系信息
- 拓扑自适应图卷积自动编码器
其思想是,TAGCN在每一层使用K个图的卷积核来提取不同大小的局部特征,这避免了近似卷积核不能完全提取图信息的缺点。相比于传统GCN而言,增强了对数据的学习能力。
考虑到第个隐层,假设此时每个节点在进行特征映射后都有特征,即第个隐层的输入数据为,其具体的计算如下: - ZINB-based 图卷积自编码
本部分的目的在于,应用ZINB分布模型模拟数据分布来捕获数据的潜在特征,即使用数据的分布参数对输入数据进行重构: - KL聚类
-
联合优化
文章行云流水,可以说是SDCN的升级版,主要体现在GCN和AE被换成了TAGCN,直接对GCN的输出进行ZINB参数学习。去掉了AE的重构损失,但是加入了TAGCN的图结构重构,和以ZINB参数的似然估计,也变相对语义进行了约束学习。实验部分也设置很巧妙,避开了对专业领域的挖掘,从数据的特点出发,把握了模型和数据的匹配性。