本文为纯笔记梳理,旨在入门学习知识图谱,基于原理与流程,帮助理解知识图谱商业化落地的价值与可能性。
梳理内容包括:
1. 知识图谱(Knowledge Graph,KG)是什么
2. 如何构建知识图谱:一个流程
3. 知识图谱的重要性:从孤立数据、单点知识,到结构化知识体系和认知模型
4. 知识图谱的应用场景
5. 知识图谱在教育的落地:一些实例
1. 知识图谱是什么?
知识图谱最先在2012年由Google提出,用以描述其搜索引擎从不同来源获得的信息结果。这些信息的结果本质是一个多关系图(Multi-relational Graph),由不同的信息(节点)+关系(边)构成。
2. 知识图谱的构建流程
在构建知识图谱之前,要先确定是否需要知识图谱来支持的业务问题,否则传统的数据库也可以完成分析。
知识图谱的基础构建流程,分为5个主要步骤:
(1) 定义具体的业务问题 ( 2) 数据的收集 & 预处理 (3) 知识图谱的设计 ( 4) 把数据存入知识图谱 (5)上层应用的开发,以及系统的评估。
其中,在(3)知识图谱设计,知识图谱包含节点(实体)、边(关系)和属性,在设计时,构建者需要处理:
- 需要什么实体、关系和属性
- 哪些属性可以作为实体,哪些实体可以作为属性
- 哪些信息不需要放到知识图谱
处理是可以参考的原则:业务原则、分析原则、效率原则、冗余原则。(在此处不会细展开相关内容,本文暂时的目的在于对知识图谱入门并形成一个基础的落地框架认识,更细的内容在后续学习再展开)
(4)数据存入知识图谱,是基于设计模型做出的限定/范围,再将对应数据放入知识图谱,简单理解就是使框架获得数据填充。
(5)上层应用开发
- 基于规则的场景:方法论包括不一致性验证、基于规则提取特征、基于模式的判断。(具体有待进一步学习展开)
- 基于概率的场景:基于概率的方法包括社区挖掘、标签传播、聚类等技术。
- 基于动态网络的分析
值得注意的是,知识图谱由场景驱动,有场景才有生产/构建数据的可能,然后将数据加入知识图谱框架中。所以知识图谱的构建前提是具备应用场景。具备场景、盘活数据后,算法对数据/实体/节点与关系进行处理,进而加工数据。
3. 知识图谱的重要性是什么?
从数据到知识体系、认知能力构建
文首就提及知识图谱由Google2012年提出,Google基于知识图谱优化搜索结果。2013年,Google收购自然语言处理技术公司Wavii,将后者技术与Google Knowledge Graph整合。2015年谷歌推出医疗版知识图谱。现在谷歌语音搜索、Google Assistant、Google Lens、Google Home诸多软硬件产品均已接入谷歌知识图谱。
2017年百度曾表示:“知识图谱(包括需求图谱、用户画像等等),这些东西都是百度整个人工智能当中非常基础的构件,也是我们相对于其他任何一家公司的优势所在。”
“构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。事实上,现在机器的感知能力已经越来越接近于人类了,语音识别准确率达到97%甚至更高,图像识别某些领域如人脸识别,比人类个体更加准确和迅速。所以,未来人工智能的重点进步方向将是认知层,机器理解这个世界,才能更好地与世界交互,为人类服务。”
大公司在尝试将数据转化成具备结构/规则可连接的多关系图谱,通俗解释其意义在于:让机器获得从点到面到全网立体的知识网络结构,其可以实现的基本结果——可以想象下我们个人学习一个个知识点、概念之后,将点连成线、面乃至更丰满的知识体系的效用。
假设在教育领域,不难想象,单个知识点或者单条学习路径,通过构建知识图谱,使得知识点之间具备多关系,机器通过知识图谱无论在上游学习路径的构建、下游对学习者学习水平测评都有可识别、可判断的依据(规则),进而形成立体的、个性化的学习体系推荐。这方面和我上一篇笔记中,对自适应学习在内容体系、测评、练习中即有体现。
4. 知识图谱到底有哪些应用场景?
知识图谱概念起源于Google的搜索相关,其对应应用在于搜索。基于其底层原理及(业务定义-数据预处理-图谱设计/定义关系-存入数据-应用层开发)流程来看,不难判断,只有存在数据与可被定义关系的场景都可以应用到知识图谱——可以说是甚为广泛,比如教育、金融、医疗、信息推荐以及传统工业(一旦数据线上化,将会有非常多可以进一步探索的)等等。
5. 知识图谱在教育的落地
在教育领域,知识图谱构建后,很多时候与上一文章提到的自适应学习是相关联的。两者的关系,我的理解是,知识图谱是数据与关系/规则前提,是基础,自适应学习更多是基于算法模型,使得知识图谱得以应用:盘活知识图谱的节点,使其基于规则/先定关系为学习者提供个性化的学习/练习/测评内容。
如果是从一个大的框架去定义教育行业对知识图谱的角色,我目前的理解是,总体而言,无论在哪个细分赛道,知识图谱的构建原理和流程差异不大。
在落地上,国内构建知识图谱应用在教育领域的项目包括乂学教育、作业盒子、洋葱数学、盒子鱼、学吧课堂、猿辅导、一起学习等等。
以下举两个应用实例,以及对应使用知识图谱的逻辑。
乂学教育/松鼠AI
松鼠AI是面向中小学全学科在线辅导平台。其目标在于通过自适应系统,基于学生在线学习/测评情况,扫描学生知识漏洞,个性化查漏补缺。松鼠AI的自适应学习系统,主要基于四个理论体系,
“第一个叫做知识空间理论。把知识根据难易程度、重要性、认知层次进行分级,对学习内容建模,构建“知识图谱”,梳理知识点间的逻辑和认知相关关系”。
在这里,难易、重要性、认知层级,是上文提及的业务、节点关系定义相关。
盒子鱼
盒子鱼是一个中小学到高中、大学托福雅思等英语智能学习平台。基于学习内容,盒子鱼将知识点构建成知识图谱,知识图谱形成后,对学习者可以进行个性化的学习、测评、乃至下一步的智能辅导服务。
------
以上,是一个初步梳理,仅对KG有一个框架了解。