干货 | 大规模知识图谱的构建、推理及应用【整理，转载】

干货 | 大规模知识图谱的构建、推理及应用

构建：将众多的实体和关系需要从原始数据（可以是结构化也可以是非结构化）中被抽取出来，并以图的方式进行结构化存储

结构化数据：很容易转换为图结构

非结构化数据构建方法：

DL:

可用于抽取AVP(属性-值对)
端到端的NER:

*   从一段非结构化文本中找出相关实体（triplet中的主词和宾词），并标注出其位置以及类型

*   是 NLP领域中一些复杂任务（如关系抽取、信息检索等）的基础

*   实现技术：

    *   早期基于字典和规则的方法

    *   传统ML的方法：

        *   NER:一个序列标注问题， 不同于分类问题，序列标注问题中的预测标签不仅与输入特征有关，还与之前的预测标签有关，也就是预测标签之间存在相互依赖和影响

        *   HMM

        *   MEMM

        *   CRF： 条件随机场（Conditional Random Field，CRF）是序列标注的主流模型。它的目标函数不仅考虑输入的状态特征函数，还包含了标签转移特征函数。在训练的时候可以使用SGD学习参数。在预测时，可以使用Vertibi算法求解使目标函数最大化的最优序列

    *   DL:

        *   BiLSTM-CNN-CRF： 主要由Embedding层（词向量、字向量等）、BiLSTM、tanh隐藏层以及CRF层组成（对于中文可以不需要CNN）

        *   CNN-CRF

        *   RNN-CRF： 实验表明BiLSTM-CRF可以获得较好的效果， 在特征方面，由于秉承了深度学习的优点，所以无需特征工作的铺垫，使用词向量及字向量就可以得到不错的效果

        *   Attention机制：

            *   BiLSTM-CRF+Attention机制，将原来的字向量和词向量的拼接改进为按权重求和，使用两个隐藏层来学习Attention的权值，这样使得模型可以动态地利用词向量和字向量的信息。同时加入NE种类的特征，并在字向量上使用Attention来学习关注更有效的字符。实验效果优于BiLSTM-CRF的方法

        *   [仅需少量标注样本的半监督来进行相应的工作](https://www.cnblogs.com/robert-dlut/p/6847401.html](https://www.cnblogs.com/robert-dlut/p/6847401.html)

关系抽取：一个序列标注问题，采用模型与NER相同

关系补全：

*   通过现有知识图谱来预测实体之间的关系，是对关系抽取的重要补充

*   传统方法：

      *   TransE和TransH: 假设实体和关系处于相同的语义空间，把关系作为从实体A到实体B的翻译来建立实体和关系嵌入

      *   一个实体是由多种属性组成的综合体，不同关系关注实体的不同属性，所以仅仅在一个空间内对他们进行建模是不够的

*   TransR：

      *   将实体和关系投影到不同的空间中，在实体空间和关系空间构建实体和关系嵌入

      *   特定的关系投影能够使得两个实体在这个关系下真实地靠近彼此，使得不具有此关系的实体彼此远离

知识融合，

*   包含以下几部分：

      *   实体对齐

      *   属性对齐

      *   冲突消解

      *   规范化等

*   对开放域很难，对特定领域 可以通过别名举证、领域知识等方法进行对齐和消解，从技术角度来看，这里会涉及较多的逻辑，所以偏传统机器学习方法，甚至利用业务逻辑即可覆盖大部分场景

没有统一的方法，因为其构建需要一整套知识工程的方法，知识的更新也是不可避免的，所以一定要重视快速迭代和快速产出检验

查询：
- RDF->OWL->SPARQL
- postgresql
存储：
- 选关系数据库还是NoSQL 数据库（内存数据库、图数据库）？要不要用内存数据库（e.g.redis）？要不要用图数据库（Neo4J、graphsql、sparkgraphx（包含图计算引擎）、OrientDB、基于hbase的Titan、BlazeGraph等）？这些都需要根据数据场景慎重选择
  - nosql和传统关系型数据库的区别
```
*   优点： 灵活的数据模型，结构比后者更丰富、 更易扩展、 高可用，查询效率高，传统关系型数据库受限于磁盘io，所以在高并发的情况下，压力倍增，而像redis这种内存数据库每秒支持10w次读写、 nosql成本也比较低

*   缺点： 不支持sql这样的工业标准查询（学习成本高）、 大多数nosql都不支持事务、 nosql只能保证数据相对一致性，尤其是在数据同步的时候，主从服务器的状态是不一致的
```
- CN-DBpedia 实际上是基于 mongo 数据库，参与开发的谢晨昊提到，一般只有在基于特定领域才可能会用到图数据库，就知识图谱而言，基于 json(bson) 的 mongo 就足够了。用到图查询的领域如征信，一般是需要要找两个公司之间的关联交易，会用到最短路径/社区计算等

知识图谱的推理，将知识图谱表示为张量tensor形式，通过张量分解（tensor factorization）来实现对未知事实的判定：

用途：

*   链接预测（判断两个实体之间是否存在某种特定关系）

*   实体分类（判断实体所属语义类别）

*   实体解析（识别并合并指代同一实体的不同名称）

模型：

*   RESCAL模型

*   TRESCAL模型

*   路由排序算法（PRA算法） 常用来判断两个实体之间可能存在的关系

知识图谱的应用：搜索、问答、推荐系统、反欺诈、不一致性验证、异常分析、客户管理等。以上场景在应用中出现越来越多的深度学习模型
- 知识图谱在深度学习模型中的应用，利用大量先验知识，来大大降低模型对大规模标注语料的依赖
- 将知识图谱的语义信息输入到深度学习模型中，将离散化的知识表示为连续化的向量，使得知识图谱的先验知识能够称为深度学习的输入[见Knowledge Graph Embedding相关文章]
- 利用知识作为优化目标的约束，指导深度学习模型的学习过程，通常是将知识图谱中的知识表示为优化目标的后验正则项
- 知识图谱的表示学习用于学习实体和关系的向量化表示，其关键是合理定义知识图谱中关于事实（三元组h,r,t）的损失函数fr(h,t)，其总和是三元组的两个实体h和t的向量化表示。通常情况下，当事实h,r,t成立时，期望最小化fr(h,t)，实现模型：
```
*   基于距离的模型: SE模型： 当两个实体属于同一个三元组时，它们的向量表示在投影后的空间中也应该彼此靠近。损失函数定义为向量投影后的距离

*   基于翻译的模型：TransE,TransH,TransR， 通过向量空间的向量翻译来描述实体与关系之间的相关性
```

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,039评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,223评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,916评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,009评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,030评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,011评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,934评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,754评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,202评论 1赞 309
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,433评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,590评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,321评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,917评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,568评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,738评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,583评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,482评论 2赞 352

干货 | 大规模知识图谱的构建、推理及应用【整理，转载】

推荐阅读更多精彩内容