深度学习的发展
- 这些年深度学习突飞猛进,各种深度学习模型层出不穷,各种网络结构纷纷登场。
- 可实际上它发展的本质是由大数据喂出来的,使得机器在图像、语音识别等感知能力方面甚至超越人类。
- 在深度学习的推动下,自然语言处理方面也取得了显著进展。
深度学习问题
- 深度学习的一个广为诟病的问题是其不透明性,不可解释性。深度学习模型是一种端到端的学习,接受大样本作为训练输入,所习得的模型本质上是神经网络结构的参数。
- 其预测过程,是相应参数下的计算过程。
- 深度学习的学习和预测过程是不透明的,模型究竟学到了什么有效特征,使得它做出这样一个判断,这个过程缺乏可解释性。深度学习的不透明性问题,有时又被称为深度学习的黑盒(“Black box”)问题,
- 不能回答Why问题,解释这些系统何以产生特定的结果,这些AI系统就只能束之高阁。这样会阻止ai的发展
- 可解释人工智能的研究范畴,也就是Explainable AI或者简称为XAI。
“理解和解释将来会是整个后深度学习时代人工智能最为核心的使命”。在深度学习时代,我们的模型某种程度上只“知其然”而不知其“所以然”。
很显然,我们不可能对只知其然而不知其所以然的AI系统完全采信。所以AI势必要从只“知其然”走向“知其所以然”。我们希望XAI能够解释过程,也能够解释结果。只有能够解释过程和结果,才能使人类信任它。
例子:
在电商以及更多商业场景下,可解释的推荐显得尤为重要,我们相信,将来如果电商不只是给用户推荐一个商品,而且还能告诉用户为什么推荐这个商品,这样的推荐更有说服力。
比如说用户去订酒店的时候,可以告诉用户推荐这个酒店的理由,或是离用户会场较近,或是价格便宜。再比如说用户搜索“二段奶粉”,平台可以告诉用户喝此段奶粉的婴儿每天需要饮用多少水,用多大容量的水杯保证每天用水量,从而推荐水杯给用户,如果平台做到有解释的推荐,相信销量肯定会大有提升。
知识图谱为可解释提供依据
- 相对于传统的知识表示,知识图谱具有海量规模、语义丰富、结构友好、质量精良等优点。
- 正是在知识图谱的支撑下,机器才能理解搜索关键字,从而实现从搜索直接通往答案,我们才能做到大数据的精准分析,未来我们才可能实现机器智脑。
- 人类认识世界理解事物的过程,其实就是在用概念、属性和关系去认知世界的过程。概念、属性、关系是理解和认知的基石。可以用概念、属性、关系来回答为什么。
例子:
对于问题,“鲨鱼为什么那么可怕”?人类给出的解释可能是“鲨鱼是食肉动物”,这实质是用概念在解释。而“为什么鸟儿会飞翔?” 人类的解释则可能是“鸟儿有翅膀”,这实质上使用属性在解释。还有最近的热门问题,“为什么鹿晗和关晓彤刷屏了”,因为“关晓彤是鹿晗女朋友”,大家都知道是因为他们公开了恋爱关系,引得鹿晗粉丝一片哗然。这里的解释实质上是用关系在解释。
利用知识图谱对可解释性应用
目前来说还在探索比较多
- 两种知识库
一是Probase和Probase+。Probase是一个大规模isA知识库,是从大规模web语料中通过pattern抽取得到的。
第二将用到的知识库是DBpedia和CN-DBpedia。它们都是关于实体的结构化知识库。
如何让机器理解互联网上出现的新词?
人是怎么理解新词的?
比如对于Bachelor(单身汉)这个概念,我们人是怎么解释的呢?我们可能会用一组属性来解释,比如{未婚、男性}。
基本目标就是为每个概念和类别自动产生这样的属性解释。利用DBpedia这样的知识库,为每个概念或类别自动生成一组属性加以解释。最终肖老师为DBpedia中的6万多个概念自动生成了它们的属性解释。 - 着看看如何利用知识图谱让机器理解一组实体,并进而做出推荐。
这种推荐是建立在实体理解基础上,我们希望用概念去解释实体,从而准确把握用户搜索意图。通过显式地给出概念,系统可以展示对于搜索实体的理解。比如说搜索阿里和腾讯,系统不仅推荐百度,还可以给出因为它们都是互联网巨头这样的解释。我们利用Probase知识库提供背景知识,提出了一个基于相对熵的模型来产生概念解释以及寻找最佳推荐实体。 - 我们经常会遇到一些标签,利用知识库,来生成机器更容易理解的概念标签来解释原本的标签。
我们利用知识图谱来做标签扩展,标签推断,来提高机器对标签的理解水平,实现基于标签的,基于知识图谱的精准推荐。
知识图谱在可解释性上的困难
对于解释和理解的认知仍然很匮乏。我们如果想把解释和理解的能力赋予机器,我们首先要反思自身,理解人是怎么解释现象,人是如何理解世界的。但是,我们在哲学、心理学、认知科学等层面,对于人类的理解和解释的认知十分有限,尤其是对于日常生活中的理解和解释机制更为有限。当前哲学领域理解和解释的研究主要还是聚焦在科学研究过程中的理解和解释,而人类日常生活的理解和解释对于人工智能技术而言则具有更重要的参考意义,对于服务机器人融入人类的生活具有重要意义。但遗憾的是,我们对日常生活中的理解与解释仍知之甚少。
大规模常识的获取及其在XAI中的应用。常识就是大家都知道的知识,比如说人会走、鱼会游等等。我们的解释通常会用到一些常识,当问题涉及到常识的时候,这个问题的解释就会变得非常困难。因为目前对机器而言,常识仍然十分缺乏。常识缺乏的根本原因在于我们很少会提及常识。正因为大家都知道常识,故而没必要提及,以至于语料中也不会显式提及常识。这样一来,所有基于文本抽取的方法就会失效。常识获取仍是当前知识库构建的瓶颈问题。但是常识获取也不是真的一点办法也没有,在大数据的某些角落里,还是会提及常识的。总体而言,常识的获取以及在XAI里怎么用是有很大难度的。
XAI的第三个挑战是数据驱动与知识引导深度融合的新型机器学习模型,或者说是如何将符号化知识有机融入基于数据的统计学习模型中。这不仅是XAI的核心问题,也是当前整个人工智能研究的重大问题之一。要想对于机器学习,特别是深度学习的过程,进行显式解释,我们需要将符号化知识植入到数值化表示的神经网络中去,用符号化知识解释习得深度神经网络的中间表示与最终结果。符号化知识与深度学习模型的有机融合是降低深度学习模型的样本依赖,突破深度学习模型效果的天花板的关键所在。目前这一问题虽然受到了普遍关注,但仍然缺乏有效手段。