降维方法在数据分析和可视化中至关重要,不同方法各有特点,适用于不同场景。
1. PCA(主成分分析)
原理:线性降维,通过正交变换将数据投影到方差最大的方向(主成分)。
特点:
保留全局结构,适合线性关系数据。
计算高效,可解释性强(主成分有明确方差贡献)。
对离群值敏感。
应用:高维数据初步探索、去除冗余特征、线性结构数据(如基因表达)。
2. PCoA(主坐标分析/经典多维尺度分析,MDS)
原理:基于距离矩阵(如欧氏距离、Bray-Curtis距离)保留样本间差异。
特点:
适用于任何距离度量,适合生态学、进化分析等非欧数据。
计算复杂度高(需构建距离矩阵)。
应用:物种组成数据、遗传距离等。
3. t-SNE(t分布随机邻域嵌入)
原理:非线性降维,通过保留局部邻域概率分布(高维→低维)。
特点:
擅长捕捉局部结构,适合聚类可视化。
对超参数(困惑度)敏感,计算慢,不保留全局结构。
应用:单细胞RNA-seq、图像聚类等局部结构明显的场景。
4. UMAP(均匀流形近似与投影)
原理:基于拓扑流形理论,平衡局部与全局结构。
特点:
比t-SNE更快,保留更多全局结构。
超参数(邻近点数量)影响较大,但鲁棒性优于t-SNE。
应用:与t-SNE类似,但更适合大规模数据(如单细胞数据)。
5. NMDS(非度量多维尺度分析)
原理:基于秩次距离(非数值距离),仅保留距离排序关系。
特点:
适用于非线性、非度量数据(如生态差异)。
计算耗时,需多次迭代,可能不收敛。
应用:生态学差异、等有序距离数据。
掌上生信绘图平台
在线分析平台,支持上述所有分析,无需编写代码,只需要上传文件即可一键分析并自动绘制相关图片,为您节约宝贵的时间成本。
结果图
结果表
绘图参数
结果图片还可以使用绘图参数自由修改
任务列表
如果分析结果不满意,可以修改参数重新提交分析,所有任务独立记录,可自由切换查看结果