Seurat知识点(2)

UMAP (Uniform Manifold Approximation and Projection) 降维也是seurat中常用的降维可视化工具,在seurat中对应的函数是RunUMAP(),相对于TSNE降维,UMAP降维更加“快准狠”,这里简单介绍下umap降维的相关知识。

umap降维的数学推断[1]

umap算法基于数据的3个假设:

  • 数据在流形(manifold)上均匀分布,此条件是为了更好更容易地捕获拓扑结构;现实中这样的数据很少,但是我们可以用黎曼度量来解决这个问题。
  • 此流形结构是局部相连的。
  • 保留流形结构的拓扑结果是主要目标
    首先假定数据集为:
    X={x_1,x_2,...,x_N}

先捕获高维空间中的流形结构,通过构建fuzzy simplicial set来代表高维空间的流形结构。具体步骤如下:

  • 1.1 对于每个点xi,找寻其最近的k个点

    • 通过近似最近邻搜索ANN(Approximate Nearest Neighbor)方法来搜寻,并得到距离度量dist: X×X → R≥0。
    • k的选取很重要,它控制 UMAP如何平衡数据中的局部和全局结构。例如k为10,则直接连接到第11个以上的邻居的可能性为0。
  • 1.2 标准化dist得到d

d(x_i,x_{ij})= \frac{max(0,dist(x_i,x_{ij})-ρ_i)}{\sigma_i}
其中,ρ_i= min\lbrace{d(x_i , x_{ij} ) | 1 ≤ j ≤ k, d(x_i , x_{ij}) > 0}\rbrace
\sigma_i可由二分搜索获取,使满足\Sigma_{j=1}^kexp(\frac{-max(0,d(x_i,x_{ij})- ρ_i)}{\sigma_i})=log2(k)

  • 1.3 构建local fuzzy simplicial sets(局部单纯形集合)

    • 主要是0-单纯集合1-单纯集;0-单纯集就是X中的每个数据点的集合,1-单纯集可以理解为线的集合,即两点间相连,且权重为w,权重可以理解为此边存在的概率。
      w(x_i,x_{ij})=exp(-d(x_i,x_{ij}))
    • 此时相当于构建图了G,构建的图结构为G=(V,E,w), V就是数据集X,有向边的权重就是w。
  • 1.4 边权重的变换

    • 因为此时两点间的权重是不对称的,因此将权重进行转换,由权重矩阵A变为B。
      假定A为Graph的权重邻接矩阵,则定义 B=A+A^T-A◦A^T, ◦指点积。
    • 此时的B可以理解为两点间至少一个有向边存在的概率。
  • 1.5 我们最终得到了一个单一的模糊单纯集,可将其视为一个加权图,其捕获到了高维空间的流形。

第二步是找到一个低维空间,此低维空间需要满足:

  • 使其能够代表高维空间的拓扑结构

  • 通过交叉熵(cross entropy)来衡量高维和低维空间两者的简单集相对应的1-简单集的差异。

  • 交叉熵的定义
    两个模糊简单集 (A,\mu)和(A,\nu)交叉熵C的定义如下:
    C((A,\mu),(A,\nu))=\Sigma_{a \in A}(\mu(a)log\frac{\mu(a)}{\nu(a)}+(1-\mu(a))log\frac{(1-\mu(a))}{(1-\nu(a))})

  • 2.1 初始化低维空间

    • 理论上,低维空间的初始化可以是随机的,但是为了计算的速度及稳定性,我们使用spectral layout来初始化低维空间。
  • 2.2 最小化交叉熵,输出低维空间

    • 从图的角度来看,可将最小化交叉熵视为一种力有向图布局算法。
UMAP相关知识补充
  • 流形(Manifold)
    简单的说,一个拓扑空间,加上一个微分结构,称为流形(Manifold)
  • 拓扑空间
    指定了拓扑的集合叫做一个拓扑空间。
  • 拓扑
    拓扑是集合中的一个子集,且满足一定的条件,开集就是拓扑里的元素,因此开集的定义就是先验的。也就是说给一些开集,它们就能生成一个拓扑
  • simplicial set(单纯集)
    与simplicial complexes(单纯复形)的概念有关;simplicial complexes是simplices(单纯行)的集合,能够捕获拓扑结构;simplicial set比simplicial complexes更普遍,更容易用范畴论的语言描述。

参考

[1] UMAP: Uniform Manifold Approximation and Projection forDimension Reduction.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容