引言
Seurat v4的亮点主要是进行多模态数据的整合,即多组学整合,主要算法是加权最近邻(WNN)分析,用于学习每个细胞中每个模态的信息内容,并基于两种模态的加权组合来定义细胞状态。
在WNN中,所谓的加权主要是给不同模态的数据以不同的权重,比如RNA和膜蛋白中,膜蛋白的权重要高一些,因为它更接近真实状态。在算法中,多模态数据可以看作是一个多分类的过程,如果把每一个模态看作我们对细胞的一层感知机,多模态就是多层感知机。
不变的地方
Seurat的框架基本是没变的。虽然引入了大量的新功能,但v3的工作流程、函数和语法,可视化方案在这次更新中基本没有变化。此外,以前在Seurat v3中生成的Seurat对象可以无缝地装载到Seurat v4中以进行进一步分析。
变化的地方
Seurat对已有函数做了小改动,大部分只是性能的提升,尽可能地保证了与Seurat V3 的兼容性。这些修改包括对默认参数设置的微小更改以及为相同任务使用性能更好的包,例如标识k最近的邻居和基于图的聚类。这些变化不会对下游结果产生负面影响。
默认参数的改变
-
FindNeighbors
用于识别k近邻的默认方法被设置为annoy。这是一种近似最近邻方法,广泛应用于高维分析,包括单细胞分析。广泛的社区基准测试表明,annoy极大地提高了邻居发现的速度并减少了内存需求,对下游结果的影响可以忽略不计(当然会有些许不同),这与我们的分析和测试是一致的。用户可以使用nn.method="rann"切换回原来的默认设置。 -
FindMarkers
我们重新构造了FindMarkers()函数的代码,使其更易于理解、解释和调试。差异表达的结果保持不变。然而,在默认情况下,我们现在使用的FC(fold change)则基于log2,这在其他差异表达包中是常见的,而不是V3之前的自然对数。如果设置了默认选项,FindMarkers()的输出将包括列avg_log2FC,而不是avg_logFC。用户可以通过指定base = exp(1)来恢复以前的行为(以自然对数味为底的FC)。 -
IntegrateData/TransferData
我们对锚点加权矩阵(anchor weight matrix)的精确计算做了微小的改变。这些更改反映了改进的工作流,但不会对下游分析产生有意义的差异(例如,您可以使用Seurat v3和Seurat v4来比较) -
SCTransform
在SCTransform()中,我们稍微修改了默认参数,以提高大型数据集参数估计的可伸缩性(scalability)。例如,在估计mu和theta之间的正则关系时,我们通过将ncells参数设置为5000来计算数据子集。sctransform v0.3中的vst()函数(可在CRAN上获得)还对正则化过程进行了微小的更改。我们对这些更改进行了广泛的测试,发现在速度和内存方面有了实质性的改进,特别是对于大型数据集,而且没有对结果产生不利影响。用户可以比较使用Seurat v3和Seurat v4计算的SCTransform vignette的结果,或者在更大的数据集中设置ncells=NULL来比较结果。
移除的函数
The following functions have been removed in Seurat v4:
-
CreateGeneActivityMatrix
replaced byGeneActivity
in Signac -
RunLSI
replaced byRunTFIDF
andRunSVD
in Signac -
ReadAlevin
andReadAlevinCsv
moved to SeuratWrappers, see details here -
ExportToCellbrowser
andStopCellbrowser
moved to SeuratWrappers, see details here
参考
https://www.jianshu.com/p/67ab951d8460
https://www.jianshu.com/p/9f85f5c15c81