知识处理的基本流程
-
处理的基本流程包括:知识抽取、知识表示、知识存储、知识融合、知识推理、知识可视化、知识应用、知识更新等
-
知识抽取:从不同来源不同结构的数据中进行知识提取,获得实体、属性及实体间的相互关系,并在此基础上形成本体化的知识表达,以便存入知识苦衷
- 实体抽取:从文本数据及中自动识别处命名实体
- 关系抽取:研究已经从基于模式匹配、语义规则的人工构造语法语义的抽取转向基于向量特征的机器学习、深度学习方法研究
- 属性抽取:从不同信息源中采集特定的实体属性信息。
1. 将实体的属性视为实体与属性之间的一种名词关系,将属性抽取任务转化为关系抽取任务
2. 基于规则和启发式算法,抽取结构化数据
3. 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取
4. 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系
-
知识存储
- 知识的原始数据类型
1. 结构化数据:如关系数据库
2. 半结构化数据:如XML、Json、百科等
3. 非结构化数据:如图片、音频、视频等 - 存储方式:
1. 如果数据量不大且结构较为固定,可以通过资源描述框架(RDF)或关系数据库规范存储格式进行存储
2. 如果规模较大且知识图谱复杂,可以通过使用图形数据库进行存储,在设计二度、三度的关联查询时,效率会比较高 - 常见的图形数据库:
1. 开源图形数据库:RDF4J、gStore、Neo4j
2. 商业图形数据库:Virtuoso、AllegroGraph、Stardog
-
知识融合:将多个来源的关于同一个实体或概念的描述信息融合统一起来
- 技术难点:1)数据质量方面;2)数据规模方面
- 知识融合的具体实现
1. 实体链接:将从文本中抽取的实体对象链接到知识库中对应的正确实体对象
1. 从文本中通过实体抽取实体指称项
2. 进行实体消歧和共指溶解,判断知识库中的同名实体间含义是否相同及是否存在其他命名实体与之表示相同含义
3. 将实体指称项链接到只是空中的对应实体
2. 知识合并:
1. 合并外部知识库,主要处理数据层和模式层的冲突
2. 合并关系数据库,主要采用RDB2RDF等方法
-
知识推理:通过各种方法获取新的满足语义关系的知识或结论,主要包括一下几个方面的推理
- 可满足性(Satisfiability):体现在本体或者概念上
1. 本体可满足性:检查一个本体是否可满足,如本体是否有模型等,如果本体不满足说明存在不一致
2. 概念可满足性:检查一个盖面是否可以满足 - 分类(Classification)
- 实例化(Materialization):计算属于某个概念或关系的所有实例的几何
- 知识推理的对象包括:实体关系,实体属性值,本体的概念层次
- 知识推理实现方法:
1. 基于本体及规则的推理方法:
1. 基于Tableaux运算的方法:适用于检查某一本体的可满足性,以及实例检测
2. 基于逻辑编程改写的方法:可以根据特定的场景定制规则,实现用户自定义的推理过程
3. 基于一节查询重写的方法:可以高效地结合不同数据格式的数据源,关联不同的查询语言
4. 基于产生式规则的方法:是一种前项推理系统,可以按照一定的机制执行规则
2. 基于逻辑的推理方法
3. 基于图的推理方法
4. 基于深度学习的推理方法
-
知识可视化:试制用来构建、传达和表示复杂知识的图形图像方法
-
知识应用:应用领域包括:智能搜索、智能问答、个性化推荐、内容分发、决策支持等
-
知识更新:包括概念层的更新和数据层的更新
- 概念层更新指新增数据后获得新的概念,将其添加到知识库的概念层中
- 数据层更新主要指新增或更新实体、关系、属性值
- 知识更新的方法:1)全面更新,优点是简单,缺点是资源消耗大;2)增量更新,优点资源消耗小,但目前仍需要人工干预