Knowledge Graph Embedding: A Survey of Approaches and Applications[论文笔记]

KG embedding研究的出发点：KG的表示一般基于三元组（head entity, relation, tail entity），尽管能够有效的表示结构化数据，但是底层的本质上是符号表示，使得KG很难操作; KG embedding将KG中的成分映射到一个连续的矢量空间中，不仅保留KG中的固有结构，同时简化了处理
KG embedding研究主要分为两个阶段：
- 阶段1：仅利用KG中的fact构建embedding, embedding只需要和每个单独fact匹配，对下游的一些任务not predictive enough
- 阶段2：在阶段1的基础上，利用更多的信息形式，e.g.实体类型（entity type）、关系路径(relation path)、文本描述(textual description)、逻辑规则(logical rules)，得到more predictive embeddings

只基于facts的KG embedding 构建由3步组成：

step1: 表示entities和relations:

entity表示形式：

 *   矢量

 *   考虑entity的不确定性，利用多元高斯分布对entity进行建模

relation常被看成在矢量空间中的操作，表示形式：

 *   矢量

 *   矩阵

 *   张量

 *   多元高斯分布

 *   混合高斯（mixtures of Gaussians）

step2: 定义第一个打分函数

每个fact(h,r,t)均对应一个score func f_r(h, t)，在KG中观察到的facts得分高于未观察到的，根据score function定义方式不同，这种只基于facts的KG embedding技术可被分为以下两类：

translational distance models：使用基于距离的score func【目标优化函数】，这些模型均包含约束（e.g.强制vector embedding至少L2范数），这些约束在优化问题中被转化为正则项【正则项】

TransE及其扩展，实体/关系都是矢量空间中确定的点

*   TransE：

    *   简单高效，通过学习分布式的词表示来捕捉语言规律，e.g.JamesCameron + DirectorOf ≈ Avatar

    *   处理一对多，多对一，多对多关系时有问题，e.g.一对多为例，AlfredHitchcock + DirectorOf ≈Psycho，Rebecca，RearWindow，一个导演对应多部电影，虽然这些电影属于不同实体，但是学到的矢量表示都是非常相似的，这是有问题的

*   TransE改进策略：

    *   引入 Relation-Specific Entity Embeddings:

        *   TransH：

            *   改进TransE：引入 Relation-Specific Entity Embeddings，允许实体在不同的关系中有明显不同的表示。e.g.即使Psycho，Rebecca，RearWindow在给定DirectorOf 关系时，表示很相似，但给定其他关系时，表示可能相差很大

            *   引入relation-specific超平面，每个关系r用矢量r表示，在一个以w_r为法向量的超平面上，实体h,t投射到该超平面上

        *   TransR：

            *   引入relation-specific 空间，而不是超平面；实体表示为实体空间的向量，每个关系关联到另外的关系空间，定义投影矩阵M_r（实体空间到关系空间）

            *   每个关系都需要引入投影矩阵，不如TransE,TransH简单高效

        *   TransD:

            *   简化TransR,比TransR更高效。将投影矩阵分解为两个矢量乘积，引入额外的映射向量w_h，w_t, w_r

        *   TranSparse:

            *   简化TransR,强制投影矩阵的稀疏性

    *   relaxing translational requirement:放松h+r≈t的限制

        *   TransM: 每个事实（三元组）关联一个权重，通过降低一对多，多对一，多对多关系的权重，TransM允许t在这些关系中远离h+r

        *   ManifoldE: 放松约束关系，t约束在以h+r为质心，权重值为半径的超球体中

        *   TransF: 放松约束关系，t约束在与h+r为同向即可

        *   TransA: 为每个关系r引入对称非负矩阵，使用自适应Mahalanobis距离定义score

Gaussian Embeddings，实体/关系被看做随机变量

*   KG2E：将实体和关系表示成从多元高斯分布中提取的随机向量

    *   使用 Kull-back-Leibler散度计算得分

    *   使用概率内积计算得分

*   TransG: 实体h,t利用高斯分布建模，关系r认为可能有多重语义信息，被表示为混合高斯分布

其他距离模型：

*   UM(unstructured model)

    *   TransE的简化版本，令r = 0

    *   不能区分不同的关系

*   SE(structured embedding):

    *   对每个关系r，使用两个不同的投影矩阵，分别用于head entity, tail entity

semantic matching models: 使用基于相似度的score func，通过匹配实体、关系见的潜在语义来衡量事实的合理性

RESCAL及其扩展

*   RESCAL:

    *   也叫双线性模型，将实体h,t与一个vector关联来捕捉潜在语义，关系r与一个matrix关联来建模latent factors间的两两交互

    *   其score func捕捉到了所有h,t所有成分间的两两交互

*   TATEC:

    *   不仅建模了h,r,t间3者交互，还定义了h,r/t,r间2者交互

*   DisMult

    *   简化了RESCAL，将矩阵Mr限制为对角阵

    *   其score func捕捉到了h,t中相同维度上成分间的两两交互，减少了每个关系r所有的参数数量

    *   模型过于简单【对角矩阵使得实体可交换】，只能处理对称关系，对于一般的KG功能不够强大

*   HolE(Holographic Embeddings)全息嵌入：

    *   将RESCAL的表现力与DisMult的简洁高效结合

    *   将实体、关系均表示为vector，进行Circular correlation，对pairwise interactions进行压缩，减少了每个关系r所有的参数数量，比RESCAL高效；且Circular correlation不能交换，可以像RESCAL一样，对非对称关系进行建模

*   ComplEx(Complex Embeddings)复数嵌入：

    *   对DisMult的扩展，引入复数嵌入，可以更好建模非对称关系

    *   h，r，t不再依赖实数空间，而是依赖复数空间，非对称关系最终得到的事实会得到不同的score，这依赖相关实体对应的orders、

    *   共轭对称施加在embeddings时，HolE被视为ComplEx的一种特殊情况

*   ANALOGY:

    *   扩展RESCAL，进一步对实体、关系中相似的属性建模

    *   已被证明DisMult、HolE、ComplEx均属于ANALOGY的一种特殊情况

利用神经网络进行匹配

*   SME: Semantic Matching Energy，

    *   在Input layer: 将fact三要素h,r,t映射为vector embeddings

    *   在Hidden layer：将关系r与head entity h结合得到g_u(h,r);将关系r与tail entity h结合得到g_v(r, t)

    *   score定义为g_u,g_v的点积

    *   根据g_u,g_v的形式不同，SME有两个版本：

        *   SME(linear):

        *   SME(bilinear)

*   NTN: neural tensor network:

    *   在Input layer: 将fact三要素h,r,t映射为vector embeddings

    *   在Hidden layer：将h，t，和二者与特定关系张量Mr结合三者映射到一个非线性hidden layer

*   SLM:single layer model：

    *   NTN的简化形式，将h，t对应的权重矩阵，bias置零，只保留NTN中的最后一个要素

*   MLP: multi-lalyer perceptron：

    *   h，r，t均映射为单vector

    *   在Input layer上将三者拼接，映射到非线性hidden layers

*   NAM:neural association model:（多隐层，其他都是单隐层）

    *   在Input layer: 将fact中h,r映射为vector embeddings后进行拼接，经过多隐层（激活函数：Relu）和t生成的embeddings乘积得到score

模型的训练:

一些先验知识：http://www.sohu.com/a/144575100_464088

*   封闭世界假设(Closed World Assumption, CWA)

      *   即如果我们在知识库中推不出来P或P的否定，就把P的否定加入知识库。有两种情况, CWA很有用. 一是可以当假设知识库中的知识是完全的时候. 例如, 在数据库中, 如果学生表中没有Peter, 则认为Peter不是学生. 二是当知道知识库的知识是不完全的, 如不足于回答一些问题, 但我们必须在不完全知识的情况下做出决定, 这时候CWA就有用了

*   开放世界假设(Open World Assumption, OWA)

      *   对推不出来的命题就很诚实地当作不知道这个命题的正确与否, 这样的后果就是知识库中能推导出来的结论大大减少

*   在语义Web环境下, 因为Web的开放性, 相关的知识很可能分布在Web上不同的场所, 因此在语义Web上推理, 用CWA是很不恰当的. 例如, 如果在一个知识库中只说了hasFriend(Peter, Tom), 如果采用CWA, 就会得到结论: Peter只有一个朋友. 这当然是不合理的, 因为很可能在别的地方说了Peter还有其他的朋友. 所以, 如果要在语义Web中聚集不同来源的知识, 应该采用OWA. (有一种中庸之道: 局部封闭世界(Local Closed World), 这里不多说). 描述逻辑中的推理刚好是采用OWA的, 所以它的确适合作为语义Web的逻辑基础

目标函数：

*   logistic loss最小化

        *   优势：对一些复杂的关系模式（如transitive relations）得到一些紧凑的表达方式

*   pairwise ranking loss最小化

        *   优势：不假设负样本一定是(命题)错误的，只是和正样本相比可能性小，使得positive facts得分要尽可能高于negative ones

*   以上的目标函数中均包含约束项/正则项【不同的embedding模型不同】，已证明：logistic loss+semantic matching models（DisMult、ComplEx等）性能更好；pairwise ranking loss+translational distance models（TransE）性能更好

*   优化方法：SGD+minibatch

step3: 学习entities和relations的表示
- 解决对所有观测facts的合理性最大化(maximize plausibility)的最优化问题

【未完待续...】

Knowledge Graph Embedding: A Survey of Approaches and Applications[论文笔记]

推荐阅读更多精彩内容