目录
行业知识图谱简介
行业知识图谱应用
行业KG应用挑战
行业知识图谱生命周期
行业知识图谱简介
行业知识图谱工具:Palantir
行业KG应用
金融证券——企业知识图谱
应用——企业风险评估
应用——企业社交图谱查询
应用——企业最终控制人查询
应用——企业之间路径发现
应用——初创企业融资发展历程
应用——上市企业智能问答
金融证券——金融交易知识图谱
应用——辅助信贷审核
应用——反欺诈、组团欺诈
- 医疗知识图谱
- 图书情报
行业知识图谱应用挑战
行业知识图谱生命周期
- RDF:三元组(triple)模型,SPO(主谓宾)
- OWL:RDF Schema的扩展
包括:复杂类;属性约束;属性特征;属性链 - SPARQL
RDF查询语言:基于RDF数据类型
SPARQL查询图可视化
本体(ontology)可以填充知识与查询之间的间隙,具有推理的能力
- 知识建模
建立知识图谱的数据模式。行业知识图谱的数据模式对整个知识图谱的结构进行定义,因此需要保证可靠性。
常用方法:
- 自顶向下的方法:专家手工编辑形成数据模式
- 自底向上的方法:基于现有的标准进行转换;
从现有的高质量行业数据源中进行映射。
-
知识获取
- 知识融合
- 数据模式层融合
概念合并
概念上下位关系合并
概念的属性定义合并 - 数据层融合
实体合并
实体属性融合
冲突检测与解决
- 知识存储
三元组知识的存储;
事件信息的存储
时态信息的存储;
使用知识图谱组织的数据的存储
- 知识图谱上层应用需要支持:
知识推理;
知识快速查询;
图实时计算
- 知识计算
图挖掘计算:基于图论的相关算法,实现对图谱的探索和挖掘;
本体推理:使用本体推理进行新知识发现或冲突检测;
基于规则的推理:使用规则引擎,编写相应的业务规则,通过推理辅助业务决策。 - 知识应用
一站式工具
- LOD2
-
Stardog
把关系数据库映射成虚拟图;
支持OWL2的推理;
支持Gremlim;
但Stardog仅包含对结构化数据(RDBMS,Excel等)的处理,没有针对非结构化数据的知识抽取,没有知识融合的功能。
1 知识建模
- 以实体为主要目标,实现对不同来源的数据进行映射与合并。(实体抽取与合并)
- 利用属性来表示不同数据源中针对实体的描述,形成对实体的全方位描述。(属性映射与归并)
- 利用关系来描述各类抽象建模成实体的数据之间的关联关系,从而支持关联分析。(关系抽取)
- 通过实体链接技术,实现围绕实体的多种类型数据的关联存储。(实体链接)
- 使用事件机制描述客观世界中动态发展,体现事件与实体间的关联;并利用时序描述事件的发展状况。(动态事件描述)
知识建模工具——Protege
本体编辑器;
基于RDF(S),OWL等语义网规范;
图形化界面;
提供了在线版本——WebProtege
适用于原型构建场景
构建一个适用的建模工具
- 在线并发编辑支持;
- 多用户共同编辑;上下位关系定义,属性定义编辑
- 提供导入、集成功能;
- 以存储为桥梁,可以对自动算法的结果进行编辑;
- 支持对动态事件数据的建模,使用时态信息存储实现事件时间描述;
- 支持大数据量的知识图谱编辑。
2 知识获取
结构化数据,半结构化,非结构化
- D2R工具——D2RQ
将关系数据库转换为虚拟的RDF数据库的平台 - 包装器
半结构化行业数据源解析 - 文本信息抽取
OpenIE:面向开放领域抽取信息
工具:ReVerb、TextRunner
CloseIE:面向特定领域抽取信息
工具:DeepDive
3 知识融合
包括数据模式层(概念、概念的上下位关系、概念的属性)的融合与数据层的融合
4 知识存储
两种方式:RDF存储和图数据库(Graph Database)
常见的图数据存储——Graph DBMS
- Neo4j
原生图存储和处理;
支持ACID事务处理;
不适用Schema
5 知识计算
1 图挖掘计算
- 图遍历:广度优先遍历,深度优先遍历
- 最短路径查询:Dijkstra、Floyd
- 路径探寻:给定两个或多个节点,发现它们之间的关联关系
- 权威节点分析:PageRank算法
- 族群发现:最大流算法
- 相似节点发现:基于节点属性、关系的相似度算法
2 基于本体的推理
- 基于表运算及改进的方法:FaCT++、Racer、Pellet Hermit等
- 基于一阶查询重写的方法(Ontology based data access)
- 基于产生式规则的算法(如rete):Jena、Sesame、OWLIM等
- 基于Datalog转换的方法如KAON、RDFox等
- 回答集程序 Answer set programming
3 基于规则的推理
工具:Drools 规则定义
6 知识应用
- 语义搜索
基于实体链接的语义搜索;
基于知识图谱的语义搜索 - 智能问答
基于信息检索的方法
基于语义解析的方法
基于规则的专家系统的方法
基于深度学习的方法
优点:实现“端到端”的问答,把问题与答案均使用复杂的特征向量表示,使用深度学习来计算问题与答案的相似度。 -
可视化辅助决策
工具:D3.js,ECharts
知识图谱相关书籍:
Exploiting Linked Data and Knowledge Graphs in Large Organisations