幼儿园小朋友也能看懂的常春藤盟论文中的数学证明

写作动机

  • 因科研需要,最近看了一篇由康奈尔大学、普林斯顿大学以及卡耐基梅隆大学三家极富盛名的科研单位联合撰写的文章 [1]。
    Caduceus
  • Caduceus译作商神杖,亦称双蛇杖。其由一根刻有一双翅膀的金手杖和两条缠绕手杖的组成,它是希腊神话中商神赫密斯所拿的手杖,科研人员觉得他的形状和DNA双螺旋结构,故起了一个这么浪漫的名字。
    双蛇杖的图片
  • 这项工作当中,里面有一个很漂亮的定理,笔者在去唐山之前没有完全思考明白,但是在唐山的南湖公园(图1)和李老师溜达时,开悟了,故迅速记录下对这个定理的思考过程。


    唐山南湖公园美照

关键定义

  • 定义X是通道数为D且序列长度为T的序列,定义针对X拆分运算split如公式00,定义针对X反向互补算子RC如公式01
    split(X_{1:T}^{1:D}) = [X_{1:T}^{1:D/2},X_{1:T}^{(D/2):D}](00)
    RC(X_{1:T}^{1:D}) =X_{T:1}^{D:1} (01)

  • 再定义基于Mamba模块的反向互补等变性算子如公式02
    M_{RC}(X_{1:T}^{1:D}) = concat([M(X_{1:T}^{1:D/2}),RC(M(X_{T:1}^{D:D/2}))])(02)
    公式02中的M()运算为Mamba算子 [图Mamba模块],concat运算就很简单了,就是把两个东西拼起来

    Mamba模块

  • 定理3.1 M_{RC}算子有如下数学性质
    RC \circ M_{RC}(X_{1:T}^{1:D}) = M_{RC} \circ RC(X_{1:T}^{1:D})

  • 首先解释一下中间的小圆圈表示什么意思,小圆圈表示映射的乘法,即两个映射的复合映射。举个例子来讲,假设X可经由L映射到Y,可写成Y = L(X)Y经由映射M可到Z,可表成Z = M(Y),这样子我们通过高中数学知识,可得到Z = M(Y) = M(L(X)),则称M\circ L是由X到Z的映射。

  • 定理3.1的左边可以这么去理解,RC反向互补算子和M_{RC}算子去做复合映射。右边呢,先做M_{RC}算子,再和RC算子做复合映射,两者在数学上是完全等价的。好,那接下来呢,开始对这个定理进行严格的证明

定理3.1的证明过程

  • 根据DNA双链及反向互补配对的原则,我们对两条链进行RC算子的操作,数学上有
    RC([X_{1:T}^{1:(D/2)},X_{1:T}^{(D/2):D}]) = [RC(X_{1:T}^{(D/2):D}),RC(X_{1:T}^{1:(D/2)})]=[X_{T:1}^{D:(D/2)},X_{T:1}^{(D/2):1}](03)
  • 接下来,我们先做一次拼接运算,即concat(X_{1:T}^{1:(D/2)},X_{1:T}^{(D/2):D}),然后把RC运算和其做符合映射运算则有
    RC\circ concat(X_{1:T}^{1:(D/2)},X_{1:T}^{(D/2):D}) = RC(X_{1:T}^{1:D})
  • 基于公式01可以得到
    RC\circ concat(X_{1:T}^{1:(D/2)},X_{1:T}^{(D/2):D}) =X_{T:1}^{D:1}
  • 那再把这个结果写成concat拼接运算的形式有
    X_{T:1}^{D:1} =concat(X_{T:1}^{D:(D/2)},X_{T:1}^{(D/2):1})
  • 之后,再去套3.1证明过程公式03,有
    concat(X_{T:1}^{D:(D/2)},X_{T:1}^{(D/2):1}) = concat([RC(X_{1:T}^{1:(D/2)}),RC(X_{1:T}^{(D/2):1})])
  • 接下来,有
    RC\circ concat(X_{1:T}^{1:(D/2)},X_{1:T}^{(D/2):D}) = concat \circ RC([X_{1:T}^{1:(D/2)},X_{1:T}^{(D/2):D}]) (04)
  • 证到这里,其实基本已经差不多了,再结合RC运算的关键性质,RC的逆运算等价于RC本身
    RC^{-1} = RC
    RC([X_{1:T}^{1:(D/2)},RC(X_{1:T}^{(D/2):D})]) = [X_{1:T}^{(D/2):D},RC(X_{1:T}^{1:(D/2)})] (05)
  • 最后依次根据公式02,04,05,01,顺次写下来就可以完全全过程的完成证明
    RC \circ M_{RC}(X_{1:T}^{1:D}) = M_{RC} \circ RC(X_{1:T}^{1:D})
    至此,证毕!

Reference

[1] Schiff Y, Kao C H, Gokaslan A, et al. Caduceus: Bi-directional equivariant long-range dna sequence modeling[J]. arXiv preprint arXiv:2403.03234, 2024.
[2] Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces[J]. arXiv preprint arXiv:2312.00752, 2023.

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容