知识融合

大纲

  • 什么是知识融合
  • 知识融合的基本技术流程
  • 典型知识融合工具简介
  • 典型案例简介
    zhishi.me
    openkg.link
  • LIMES实战演练

什么是知识融合

目标:融合个层面的知识
合并两个知识图谱(本体),需要确认:
等价实例;
等价类/子类;
等价属性/子属性
来源于不同知识库的同一实体
知识图谱的构建经常需要融合多种不同来源的数据
实体对齐是知识图谱融合的主要工作
中文百科中的等价实例——唐三藏-玄奘-金蝉子
概念层知识融合
跨语言知识融合
知识在线融合
Google Knowlegle Vault

  • 名词术语
    知识融合
    本体匹配
    本体对齐
    Record Linkage
    Entity Resolution
    实体对齐
  • 知识融合的主要技术挑战
    数据质量的挑战
    数据规模的挑战
    知识融合竞赛——OAEI

知识融合的基本技术流程

一般分为两部,本体对齐实体匹配

基本流程

数据预处理

语法正规化
数据正规化

记录链接
  • 属性相似度
    编辑距离:用最少的编辑操作将一个字符串转成另一个;(插入,删除,替换)3次
    动态规划算法
    集合相似度计算;Dice系数,Jaccard系数
    基于向量的相似度计算
    TF-IDF:主要用来评估某个字或者某个词对一个文档的重要程度。
  • 实体相似度
    怎样计算:聚合,聚类,表示学习
  1. 聚合
    加权平均,手动制定规则,分类器:LR,决策树,SVM和条件随机场
  2. 聚类
    层次聚类
    相关性聚类
    Canopy + K-means
  3. 怎样计算实体相似度:知识表示学习
    知识潜入——TransE模型
    实体与向量之间的关系
分块
  • 常用的分块方法
    基于Hash函数的分块
    邻近分块:Canopy聚类,排序邻居算法,Red-Blue Set Cover
负载均衡

用来保证所有块中的实体数目相当,从而保证分块对性能的提升程度。
最简单的方法是多次Map-Reduce操作。

结果评估

准确率,召回率,F值
整体算法的运行时间

典型知识融合工具简介

  • 本体对齐——Falcon-AO
    自动的本体匹配系统 //Java
    相似度组合策略
  • Falcon——分块
    本体划分:概念间的结构亲近性计算
    本体划分:本体划分算法
    本体划分:本体分块的构建
  • 实体匹配——Dedupe
    用于模糊匹配,记录去重和实体链接的python库
  1. 指定谓词集合&相似度函数
  2. 训练Blocking:通过Red-Blue set cover 找到最优谓词集合来分块
  3. 训练LR模型
  • 实体匹配——Limes
    基于度量空间的实体匹配发现框架,适合大规模数据链接 //Java
  • 实体匹配——Silk
    Silk 是一个集成异构数据源的开源框架 # python
    整体框架:知识库=>预匹配=>链接=>过滤=>输出

典型案例

zhishi.me

等价实体
解决方案:半监督方法,通过迭代,自动发现并修改特定数据集的匹配规则
Workflow - 挖掘等价属性

  • 合并现有已匹配的实体对的属性值
  • 匹配规则
  • 用得到的匹配规则处理未标记的数据生成候选匹配对
  • Combiner 用来计算候选匹配对的置信度

Workflow - the Wrapper算法
Wrapper是对EM迭代算法的封装
似然函数

OpenKG的链接百科

LIMES实战演练

对实体计算相似度

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容