1 知识图谱的作用和意义
1). 信息挖掘超越实体,将关系囊括其中,成为结构的一部分。
2). 各个节点(现实世界中的事件、数据、信息)不再是孤立的,它们是通过特定的关系(边)链接在一起,从而形成结构化的知识表示,这种图数据结构很容易被人们理解接受,并且也很容易被计算机识别和处理。
2 图数据库优点
1) 关系型数据库不擅长处理数据之间的关系,而图数据库在处理数据之间关系方面灵活且高性能。
比如搜索“姚明女儿的生日”要先找到姚明的id;通过id外键关联找到他女儿的表;再遍历找到的这张表,筛选生日信息。
2) 数据之间的关系越来越重要。
数据之间的关系为何如此重要?正如大家都知道人际关系的价值,其实数据的价值也在于它们之间的关联关系上。
特别是直播平台可以对用户实现精准推送,将关注他的粉丝和他可能关联的客户群体联系起来,这些数据将产生巨大的商业价值。
3 图谱的应用
搜索引擎
聊天机器人
推荐系统
风险控制
异常检测
情报库
4 数据模型
数据模型的核心就是三元组,三元组是由实体(Entity)、属性(Attribute)和关系(Relation)组成的,形式为<实体,关系,实体>或<实体,属性,属性值>。简单些可以记忆为RDF的主语+谓语+宾语。三元组的形式如下:
1) 属性图要素
多关系图:
顶点:实体
边:关联
2) RDF要素
三元组:主+谓+宾语
5 企业知识图谱平台搭建
问题:如何快速搭建图谱搜索引擎?
操作步骤:
1. 先准备可视化建模工具。
2. 半结构数据解析功能或者工具。
3. 用户前端UI搜索界面。
注意:这里基础的搜索引擎应用,并不需要用到OCR功能,毕竟从非结构化数据进行实体抽取、知识融合、实体对齐等开发周期过长。
6 知识图谱本体设计轻量级工具
简介:微软开源项目SmartKG
GitHub 上的地址为https://github.com/microsoft/smartkg
官方安装文档
SmartKG/SmartKG_Spec.pdf at master ·
microsoft/SmartKG · GitHub
填写excel文档生成知识图谱,输入文件:实体文件、关系文件
实体文件格式如下:
关系文件格式如下: