【嵌牛导读】如何能让计算机具有类似人的视觉感官能力和理解能力,涉及到具象和抽象信息的转化,目前的工作进展或许代表了未来的发展方向。
【嵌牛提问】计算机怎样能够把图片信息转化为抽象的语言信息?
【嵌牛鼻子】图像识别算法
转载自新浪科技
【嵌牛正文】2017未来科学大奖颁奖典礼暨未来论坛年会在京举办。在计算机科学人工智能研讨会上,斯坦福大学终身教授、谷歌云首席科学家李飞飞称,通过图像识别技术将图像“变”短句,这与认知心理学实验结果“非常接近”。
李飞飞认为,视觉是人类发展的重要基石,在过去的几亿年中,不同生物的视觉系统不断发展,至今已成为人类大脑中最复杂的系统。在计算机识别领域,视觉系统同样是重要研究,各国专家在视觉识别方面发明了众多技术,近8年时间,视觉识别的错误率已降低了10倍。
“在2012年,我们了解到了GPU技术以及深度识别技术,帮助世界发展”,李飞飞说,人工智能的发展对视觉研究作用明显。近期,专家们开始预测,根据视觉化语言模式,了解不同体积下的关系,甚至去了解不同物体间的位置和动作关系,“这是量化研究,用更丰富的方法来了解世界”。
图像识别是如何了解物体的呢?
李飞飞举例称,一张照片,通过视觉识别技术,后台可以分析出众多标签,通过不同标签、不同属性、不同关系来描述物体,而数据库和信息集,可以做到更精准的研究。
“大家都用过百度和谷歌搜索图片”,李飞飞说,当你输入一个男人时,图片搜索结果很丰富,当搜索一只狗时,同样会获得丰富结果,但当你输入“一个坐着的男人牵着一只狗”时,结果却大相径庭,甚至很不理想。
李飞飞认为,这主要取决于算法差异。目前绝大多数算法,在搜索图像时还是使用物体本身信息,只是简单了解图中有何物体。若加入更多属性,那么结果会更好,“我们在探索新方法,比如一个长句,放到数据库中,与图像进行对比,通过这种算法可以得到更好更精准的结果”。
目前,图像识别领域的成果是通过场景图,可以提供4层的分析结果,从而获得更多信息,“但这些是不够的,到目前我们只探索了认知心理学家讨论的概念”,李飞飞说道。
她以一名美食家的视频举例。视频中,美食家在做饭时,放入了不同调料,通过图像识别技术,这些图像下方就出现了描述短语。
李飞飞表示,目前可以将图像变成短句,从而出现更多内容,“这与认知心理学的实验结果是非常接近的”。
以下为李飞飞演讲实录:
谢谢主持人,谢谢未来论坛科学大奖的邀请,再次回到我出生的地方,特别荣幸有这么多顶级的科学家聚在一起,讨论一些非常有意思,也会对未来有很大的影响的问题和学科。
今天我给大家带来的是最近的一些研究思路,今天我的演讲内容是关于视觉智能,动物世界当中有很多物种,而且有一种非常了不起,绝大多数动物都有眼睛,因此视觉是最为重要的一种感观的方法和认知方法,这是在动物的大脑当中,帮助动物在世界当中生存下来进行沟通,去操控和生存。
所以我们无论是讨论动物智能或者是机器智能的话,视觉是非常重要的基石。世界上所存在的这些系统当中,最为了解的一点是我们所知道的人类视觉系统。所以在5亿多年前的时候,这个进化已经不断地让我们的视觉系统不断地发展,使得我们的视觉系统非常重要的去理解这个世界,而且这是我们大脑当中最为复杂的系统,而且有50%的大脑当中的这些认知的单位,都有着最为复杂、最为高级的感知系统,所以能够让我们知道人类的视觉系统非常了不起。
图像本身,但是我们所输出的信息包括物体的位置以及物体之间的关系。当然这个领域有一些前期工作,但是绝大多数工作都是比较有限的。获得数据和物体之间的关系信息比较有限。
最近我们的实验当中做了这样一项工作,开始新的研究,预测根据深度学习,以及视觉化语言模式了解不同物体之间的关系。
这张图的算法能够预测不同物体之间的空间关系,进行对比,了解这种对称的关系,然后了解他们之间的动作,以及他们的之间位置关系。所以这就是一个更为丰富的方法,了解我们的视觉世界,而不仅仅是一系列的物体名称,这是我们所做出的一些量化研究。说明我们的工作在不断地进展和取得进步的。
一年前的时候,我们知道这个领域发展非常快,就是关于计算机图像识别方面。我们也知道有很多新的研究已经超过了我们的研究成果。
我们可以看一下,在他们之间的关系是什么,而且在这个图像当中不同物体的关系,能够让我们去更进一步了解这个问题,就是在物体之间还会有什么样的数据集。最开始我们知道有这个形象,非常有限的信息,比如这是一个物体,COCO进一步学习,提供一个标签,进行短句子描述,视觉数据信息是非常复杂和非常多的,
根据途径出来一些问答,经过三年的研究,我们发现可以有更为丰富的方法来描述这些内容,通过这些不同的标签,描述这些物体,包括他们的性质、属性以及关系,然后通过这样的一个图谱建立起他们之间的联系。可以在这看一下这个内容。这样一个数据库当中,包括上千个标签,包括属性和关系,还有句子、问答信息,在我们这样一个信息库当中,能够非常精确地让我们来进行更加精确的研究,而不仅仅知道物体识别本身。
而且实际上到现在为止,我们仅仅探索了认知心理学家所讨论的一个概念,人们在一眼之中能够看到什么样的内容,有什么样的概念,人们只要看一眼就能看出整个图像当中的故事,所以我们要去看一下,这种只看一下图就能够了解它主要信息的能力是什么呢?在我之前,曾经做过一个研究,就是希望人们能够告诉我们,你看到了这个图的时候看到了什么内容,所以这是我们的实验场景,实验人员坐在电脑屏幕面前,给它非常简短地看一些图像,然后很快地去看另外的一个图像,去遮盖之前留下的印象。他们需要打印出自己所看到的所有内容,做这个工作给他们付10美元,现在不给大家一小时10美元,大家可以实验一下这个感觉,如果你是参加我的实验人员的话。
在这个图当中其实很快能够被一张简单的途径去盖掉,很短的呈现时间,只有27微妙,27微妙相当于是1/40秒,简单图形的时间是半秒的时间,是更长的,人们还是能够很好地理解场景信息,基本上是很短的时间。如果我给的实验费用更高的话,大家甚至能做的更好。在这个语言当中有非常丰富的元素,不仅仅看到图像当中的物体是什么,他们的关系是什么,而且有更多的内容。
2015年开始,我们有另外一个概念,叫做LSTM,他们希望把语言之间关系建立起来,我们在电脑当中给他们一个图像,能够描述,穿橙色工作服的工人站在路上工作,或者穿黑色T恤的男士在弹吉他,不仅仅用简短的句子描述图形,所以后来进行进一步的工作,就是深度捕获。看每个短句,描述一个部分,然后描述图像的场景。
除了这个之外,我们今年所做的工作,我们希望把这些图像要用这些短语,让它成为小短的句子,成为一个小段落,给了更多的内容,而且和认知心理学家所做的实验当中,人类的描述结果是非常接近的。但是我们并没有只停于这里,在上个周的ICCB的上面展示了一个视频,非常丰富的研究区域,很多网络上的视频,有各种各样的数据形式,了解这些视频是非常重要的。在里面可以描述更长故事的片段,用同样的模型可以这样做,可以把时间的元素加入到里面。
这就是一个例子,大家可以看一下,可以看到视频是在进行着的,我们也可以去描述每一个部分是怎么样的。
这是另外一个例子,也是描述了这个演员正在做的这些事情,差不多大家能明白什么意思了。
另外一个部分,除了简单的认知以外就是推理,推理可以让我们能够回到人工智能的最初,在20世纪七八十年代的时候,人工智能的先驱们,用了很多推理,斯坦福大学的一个教授也是把他的研究称为一个块状的世界,这里面涉及到很多的深度推理。蓝色还是不错的,喜欢这些蓝色的块状,不喜欢红色的块状,不喜欢支撑三角形的东西,到底喜欢不喜欢灰色的盒子呢?所以这里有很多推理需要去做的,然后够得出一个正确的答案。
当然时间过得很快,不能讲的特别详细,但是我们在实验室里也是用了这些简单的工具,来描述这样一个分块状的世界。这里面也有很多的问答列表,每个问答列表都是涉及到推理的过程当中,最关键的一些环节,包括空间的一些关系,一些逻辑关系,在这里面也有一些问答例子。
去年,我们也是把这些智能的问答集做成了这样一个系统,人类能做多少,机器能做多少,在准确上面的一个对比。我们到底怎么能够做得更好呢?这也是最近我们做的一个工作,在ICCB发表的。我们用了一个新的程序去做,在我们的算法里面,我们把这些问题输入进来,然后把程序进行一些协调,还有执行的引擎,用预测的一些程序进行执行的处理。通过这样一个算法,我们可以看到这些学习的准确率。
有哪些学习模块呢?首先判断到底这些物体形状怎么样,这些紫色是什么样的,这是一个更加复杂的,就是在灰色的这些模块旁边,有多少发光的这些物体?得出的结果是2。
我给大家分享的就是一系列的工作,有哪些能够超越我们视觉的一些途径,其实我们在了解到场景,还有其他的一些要素,对于整个的认知会产生什么样的影响,除了这个情景、视觉、语言,还有很多推理等等,这些都是很重要的。