知识融合

大纲

什么是知识融合
知识融合的基本技术流程
典型知识融合工具简介
典型案例简介
zhishi.me
openkg.link
LIMES实战演练

什么是知识融合

目标：融合个层面的知识
合并两个知识图谱（本体），需要确认：
等价实例；
等价类/子类；
等价属性/子属性
来源于不同知识库的同一实体
知识图谱的构建经常需要融合多种不同来源的数据
实体对齐是知识图谱融合的主要工作
中文百科中的等价实例——唐三藏-玄奘-金蝉子
概念层知识融合
跨语言知识融合
知识在线融合
Google Knowlegle Vault

名词术语
知识融合
本体匹配
本体对齐
Record Linkage
Entity Resolution
实体对齐
知识融合的主要技术挑战
数据质量的挑战
数据规模的挑战
知识融合竞赛——OAEI

知识融合的基本技术流程

一般分为两部，本体对齐和实体匹配

基本流程

数据预处理

语法正规化
数据正规化

记录链接

属性相似度
编辑距离：用最少的编辑操作将一个字符串转成另一个；（插入，删除，替换）3次
动态规划算法
集合相似度计算；Dice系数，Jaccard系数
基于向量的相似度计算；
TF-IDF：主要用来评估某个字或者某个词对一个文档的重要程度。
实体相似度
怎样计算：聚合，聚类，表示学习

聚合
加权平均，手动制定规则，分类器：LR，决策树，SVM和条件随机场
聚类
层次聚类
相关性聚类
Canopy + K-means
怎样计算实体相似度：知识表示学习
知识潜入——TransE模型
实体与向量之间的关系

分块

常用的分块方法
基于Hash函数的分块
邻近分块：Canopy聚类，排序邻居算法，Red-Blue Set Cover

负载均衡

用来保证所有块中的实体数目相当，从而保证分块对性能的提升程度。
最简单的方法是多次Map-Reduce操作。

结果评估

准确率，召回率，F值
整体算法的运行时间

典型知识融合工具简介

本体对齐——Falcon-AO
自动的本体匹配系统 //Java
相似度组合策略
Falcon——分块
本体划分：概念间的结构亲近性计算
本体划分：本体划分算法
本体划分：本体分块的构建
实体匹配——Dedupe
用于模糊匹配，记录去重和实体链接的python库

指定谓词集合&相似度函数
训练Blocking：通过Red-Blue set cover 找到最优谓词集合来分块
训练LR模型

实体匹配——Limes
基于度量空间的实体匹配发现框架，适合大规模数据链接 //Java
实体匹配——Silk
Silk 是一个集成异构数据源的开源框架 # python
整体框架：知识库=>预匹配=>链接=>过滤=>输出

典型案例

zhishi.me

等价实体
解决方案：半监督方法，通过迭代，自动发现并修改特定数据集的匹配规则
Workflow - 挖掘等价属性

合并现有已匹配的实体对的属性值
匹配规则
用得到的匹配规则处理未标记的数据生成候选匹配对
Combiner 用来计算候选匹配对的置信度

Workflow - the Wrapper算法
Wrapper是对EM迭代算法的封装
似然函数

OpenKG的链接百科

LIMES实战演练

对实体计算相似度