从工业应用角度解析事理图谱
知乎链接:https://zhuanlan.zhihu.com/p/53699796
近期看了很多关于事理图谱的文章,大都是从学术方面进行的论述,正好也一直在做这方面的工作,想从工业界应用的角度总结一下,整理出来也欢迎大家一起交流。
我将顺着事理图谱的概念、构建思路及应用场景这个思路进行阐述,尤其会着重描述实践过程中遇到的各种问题及个人做法。
1. 事理图谱的概念
事理图谱,顾名思义,是以事件为节点,事件间的关系为边的图谱网络,与知识图谱中实体及关系大多是稳定的不同,事理图谱中关系大多是不确定的,以一定的概率进行转移。
近些年知识图谱的火热也带动起了事理图谱的研究,知识图谱的技术及应用相对已经开始成熟,但只是基于实体知识库,并不足以描述事件之间的演化规律,而事理逻辑对现实世界的行为推演尤其重要。
2.事理图谱的构建思路
事理图谱的构建与知识图谱的整体思想基本一致,简单来讲就是从海量信息里抽取节点和关系,整体过程如下图:
图中框出来的部分就是整个事理图谱构建的核心环节,包括关系的识别及抽取和事件识别及抽象,与知识图谱构建的最大的一个区别我认为是:知识图谱领域将实体和关系联合抽取的模型效果尚可,但在事理图谱上联合抽取的效果可能并不太好,先抽取关系句子,再进一步做事件识别和抽象更加可行。
3.实践中遇到的问题
这部分主要记录下遇到过的比较大的问题及自己的一些想法,这些问题其实也是目前这块工作比较困扰大家的一些点,整理出来,欢迎大家交流。
(1)语料
在工业界做算法都绕不过的一个大问题,往往数据的好坏决定了模型效果的上限,但不幸这块工作涉及到的中文开源训练集基本上没有,假如自己内部没有积累下来的训练语料,往往就要依靠爬虫加规则,数据量庞大,噪音也巨多,开放领域和封闭领域都可以搜集,多方面都尝试。
(2)事件抽象
对于封闭领域可以根据专家经验预定义事件然后进行事件的识别,但对于完全的开放领域,就要涉及到文本的抽象及表征了。
事件识别及抽取的相关研究论文可以看我知乎的一篇文章:
https://zhuanlan.zhihu.com/p/32488490
文本抽象可以切分到词级别的抽象,例如英文可通过WordNet、VerbNet这类词典获得词的上位词或概念词,中文类似的词典有大词林、hownet等。
(3)关系识别及抽取
事件之间的关系并未有语料可以训练,大多需要自己根据规则不断迭代出训练集,后续关系识别可以直接上模型,但抽取这块还不太精确。
4. 应用场景
事理图谱的应用场景目前大多是在问答和推理上,别的文章都详细谈过,便不再赘述了。不过个人有一些感触:知识图谱在搜索情景下已在工业领域得到了广泛应用,如Google搜索、百度搜索等,这得益与知识库里存储的是事实类的知识,但事理图谱中事件是以一定的概率关联的,无法冠以百分百的置信度,所以更适合一些后续意图的识别或辅助性的推理。