视觉 AI 到底发展到了什么地步?
姓名:荣皓宇
学号:17101223406
转载自知乎: https://zhuanlan.zhihu.com/p/30740947?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io,有部分删改
【嵌牛导读】:随着 AI 的发展,计算机视觉技术逐渐拥有了更广泛的应用,人脸识别,物体检测等等技术更是在安防、无人车等领域起着至关重要的作用。
【嵌牛鼻子】:视觉AI系统,语义分割,应用
【嵌牛提问】:文中的AI系统是如何完成“画”这种偏创造性的行为的呢?
【嵌牛正文】:
AI前线出品| ID:ai-front
随着 AI 的发展,计算机视觉技术逐渐拥有了更广泛的应用,人脸识别,物体检测等等技术更是在安防、无人车等领域起着至关重要的作用。来自腾讯优图实验室的杰出科学家贾佳亚先生在 2017 年 6 月 21 日中国深圳“云 + 未来”峰会上发表了关于 AI 视觉技术的演讲,为听众展示了优图实验室先进的AI视觉系统。
以下为演讲内容
AI 这个词从进入大家的视野到变得巷闻皆知才用了两年时间,所以 AI 在这个时间发展过程中有点像突然发现的东西,用什么来比喻它?我会用哈利波特的隐形斗篷来比喻它,这个隐星斗篷就是当你穿上它的时候,你会发现空无一人,但是你把隐形斗篷取下来,你发现原来里面躲了一个庞然大物。
其实 AI 视觉技术就是这样一个过程,AI 的发展从最开始到现在经历了几十年的发展,所以到今天这个规模绝对不是一朝一夕能够形成的。所以我从隐性斗篷的例子来从头看看到底怎么理解 AI 技术。
我们在很多的小说、电影、科幻读物里都有很多拟人化的机器人或者产物,其中有四个最重要的功能,第一是看,第二是听,第三是说,第四是动。当然不是所有东西都会动,但如果这是一个超级的智能产物一定会控制其他东西在动,自己不用动。当我今天想跟大家介绍 AI 的时候,我会专注在一个方向上,那就是看。为什么我们要去讲看这件事?我觉得还要从自然智能理解起。
自然智能不是 AI 智能的对立面,但是却是反方面的词。人工智能是人创造的,自然智能是从远古时代演化到现在的,我们从自然智能里学到很多东西,比如说看到自然智能的时候,我会想,我们有非常多的视网膜神经细胞,有柱状和椎装细胞但是我们有超过 40 亿以上的神经元会处理我们的视觉信息,相比之下,我们的触觉和听觉可能只有 8% 和 3% 的比例,这说明什么?说明我们这个世界太复杂了,当我们从第一天人类开始去理解这个世界的时候,我们就有足够多的神经元或者处理单元去理解这个世界,所以“看”是我们理解这个世界最重要的部分。
我们做到了什么?
视觉的 AI 可以运用在很多的游戏里面,比如说体感游戏或者是增强现实游戏,满大街去找小精灵的游戏就是重要的体现。除了视觉娱乐之外还有很大用处,比如解决在监控、安防或者需要大量人手去观察视频和图像的分为之内,我们从几百人减成几个人,这也是视觉 AI 发挥的作用。
腾讯是一个非常大的社交网络公司,里面有各种各样的媒体或者软件帮大家做交流,比如我有一个好的照片想给大家看看,是不是能够达到把人年轻十岁的效果呢?这个事情是可以做到了,甚至于如果想把自己变一个性别,从男生变成女生,那也很容易,甚至不用去医院了。这是在相册上或者是在手机端产生的变化,除此之外还有两块非常大的部分,一个是智能医疗,如何能够让一个机器智能读懂所有医疗的片,比如说 CT 片、MRI 片,这是非常重要的部分。还有自动驾驶,我们能不能辅助驾驶、自动驾驶的功能加入在视觉 AI 里面。
这些 AI 的技术代表在这个领域飞速发展的进程,但是与此同时,在不同的途径、不同的视频或者不同的专家给大家介绍各种方法的时候会说,我们的技术已经做到多么强、多么好,我在这里更希望通过科学家的角度跟大家介绍,我们的视觉 AI 角度到底发展到什么地步。
首先可以超过 1000 个类别的上亿张图像的分类理解。
当我有一张图像的时候,人和机器都可以告诉你这张图像是什么,这是一头牛还是一朵花,有的时候你可以想象机器甚至做得比人更出色,我三岁的女儿经常跟我说,爸爸,我看到那边有非常漂亮的蝴蝶。我就纠正她,宝贝,那不是蝴蝶,那是蛾子。但是我的宝贝说,这个蛾子比蝴蝶还漂亮,肯定是蝴蝶。
说明我们在图像理解上有一个过程,我需要理解它的含义得到一个结果,但是在机器学习的时候,甚至可以达到比成年人更高的境界,我们可以细分到山丘、山陵的区别,而超越人的理解。科学家已经不满足于这个问题,这个问题被认为已经在这个领域解决,下一个要解决的是检测问题。当我们有一张图,我希望不但知道这个图的整体表达是什么,还要知道这个图里哪个地方是车,哪个地方是路面,哪个地方是人,这是检测过程。由于现在有强大的计算资源和计算能力,我们可以超过五亿个品种的检测,这是视觉 AI 的另外一个可以达到的目标。
除此之外,科学家们想,当我们能检测到一些物体的时候,能不能把细致度做得更深?比如说颗粒度更深的每个像素、每个点,我是不是能知道这个点是属于马路的,属于人还是属于车的,这是远远超越于之前问题的更加进一步的推广问题。所以我们管它叫做语义分割,现在可以超过总数四千亿像素级别的多图图像分割,这是这几年整个领域产生的巨大推进作用和研究成果,能够达到的效果。除此之外更加熟悉的是对人脸的匹配查询,可以超过一亿张人脸匹配查询,找到你想要的人,你问问自己,能不能认识一亿个人?认识一百个人,我就很开心了,这在电脑上是远远超越了人。
在之前五到十年的时候,我在学校的团队还会做一些有意思的研究:我们当时想,如果看到这样一张模糊的图片你会做什么事情?你看到一张模糊图像会做什么事情?可能大家要做的就是把它删除,为什么?因为这张图片模糊了,已经没有用了,但是对我们科学家而言,是非常珍贵的资源,因为通过这张图像我们发掘出一些人类看不到的东西。
为大家举一个有趣的例子,比如在这张图像里,我们是在一个高速行进的车上,周围的环境是容易被模糊的,当我们理解环境的时候你发现,车牌或者路标已经被模糊掉,在这张图上,在这个图标上看着公路的信息,但是左边小的是什么东西?左边路牌上的数字是什么东西呢?之前大学里的团队经过五到十年的研究,把这些信息充分理解出来,最后通过我们的技术手段,能够看到最后这是在美国 101 公路上的场景,我们可以超越人类的图像模糊。
还有一个东西,我们希望十年之后出现家具机器人,什么叫家具机器人?就是你希望他能帮你洗衣服、洗碗、做饭,甚至带孩子,但是要达到这个智能机器人,怎么样才能做到这一步?其中重要的就是如何把自然语言和自然图像结合起来,也就是两者的充分结合。所以我们在之前有一系列的研究,是当你看到一张图像的时候,我的人来问一个问题,是什么放在了这个工作间的台子上,电脑看到通过你这句话,分析是什么意思,然后再去寻找在这张图像上是问了什么问题,最后把图像上重要的位置找到之后反馈回来,得到一个结果,这个结果就是船,这就是说这个答案是对的。
这个说明现在电脑可以结合自然语言,我说的话和看到的场景可以结合起来,这是一个非常了不起的进步。正是因为有这个进步,我相信令到家具机器人的理想在十年之内能够变为现实。
我们还可以做到什么?
可能有讲座介绍说,幸亏 AI 达到的程度还没有人那么高,因为人会创造,AI 不会创造。我想跟大家说,其实这句话是不对的,电脑也会创造,而且创造出来的种类和试样,很多时候是让我们惊叹的,在以往知识库里是找不到这些模组的,这就是创造的功能,视觉 AI 已经可以实现创造。
比如看这两幅图,看在座各位认为右边这张图是电脑画的?真理永远掌握在少数人手里,右边这张图确实是电脑画的,电脑用铅笔画出了整体轮廓的表达、阴影的表达,达到了非常高的层次,人类需要长期训练才能画出,但是我们画出这张图只用了 0.1 秒,就是它的创造过程,这是非常有趣的事情。
我大学的团队在去年为了去理解这个非常复杂的场景,创造了全世界最像素级的分割技术,做场景理解分析。
这个例子可以看到车是一个颜色,因为我识别出来这是车,所以是蓝色,旁边的树,我识别出是树,所以标成绿色。我们在去年实现了在大规模场景的多复杂环境下的内容分析,这是去年做的事情。今年我们不满足这样一个结果,我说我们还能做什么?然后我的团队开始在今年做了另外一件让大家激动的事情,我们实现了到迄今为止最准确的道路上的像素级语义分割技术,在已知的论文里面,我们这个技术远远高出第二名,直接到每秒 30 侦的运算速度,没有改变任何的硬件资源,我们加速了一百倍。
AI 视觉技术的社会价值
除了我刚才跟大家讲的商业价值或者学术价值之外,我今天还有另外一个内容。我想跟大家讲讲优图 AI 所产生的社会价值。有一个优图跟腾讯的公益部门以及腾讯云、腾讯互联网 + 的部门合作,我们开创了一个新的活动,这个活动叫做天眼。
大家有没有看过这部《亲爱的》?讲述的就是现在有很多很多的家庭,家里的孩子被拐卖走失,这些父母组成了一个团体,他们希望通过这个团体找寻自己的孩子,这就是 2014 年这部电影上映反映的严重现实,孩子的丢失也许是社会的一小部分现象,但是这个现象确实是存在的。所以可以想像,在这样一个环境下,可以有一个大概的估计,但是现在走失的现象在统计意义上而言非常巨大,每个城市这样的现象很少,但是因为中国人口多,在这么大的中国人口的基数上,我们能够把这个比例一点点的上升,这也是我们能贡献的力量。虽然我们有了各种各样的途径,有微博打拐,有大家贡献的力量来找寻,但是贡献率依然是 0。
2015 年,优图团队跟腾讯公益部门和腾讯云和腾讯互联网 + 的单位一起开始加入了“天眼”计划,希望通过优图的技术积累,帮助社会实现社会价值,而不仅仅是商业价值,因为这对我们而言是一件相对比较容易的事情,但是社会价值如何体现在 AI 上?
于是我们加入了这个公益计划,当时在上海的小伙伴们拿到这个计划的时候非常兴奋,他们觉得终于有一天,他们坐在电脑前面也可以像蜘蛛侠一样出去救人。他们做了很多评测,发现我们在人脸识别率上只有 40%,这个数字让我们的小伙伴非常惊讶,发现原来问题这么难,不是我们拿到一张图做一个寻人就可以把人找回来。主要有以下三点困难:
第一个是场景
我们有非常复杂的场景,有城市,有农村,有山林,有不同区域,甚至当我找回这样一个失踪人口的时候,他的发型、衣着、轮廓改变都是复杂因素。
第二是年龄
很多的失踪人口找回来的时候,他们可能在外面已经漂流了几年的时间甚至十年时间,这是一个非常长的时间段,所以从我们的面容上看,他们改变了很多,从轮廓、皱纹、皮肤的粗糙程度,这都是对我们实用算法是非常大的挑战。
第三需要具备有亿级人脸的检索能力
当我拿到一张检索照片的时候,是不是能够通过实时寻找对比,找到这个人出来。
这三大挑战是我当时面对的,但是好在我们优图的小伙伴们并没有放弃,他们觉得这件事情既然做了就要做到底,而且要做好。所以我们在经历一系列的,超过一年多的研究,把 Megaface 的准确率从 40% 提升到 83.29%,这代表了我们可以在亿级人脸检索上达到毫秒的速度,把成功率从之前的不到 50% 提高到 99%。我们立项之后,在短短三个月时间之内,就开始用在福建省公安一起合作,做了网上在线系统找回人群。
2017 年 3 月份的时候,福建省公安厅接到一个群众电话,他们在小学边上找到一个老奶奶,神智不清语言也不通,把他接到公安局以后,通过我们的线上人脸比对系统,发现可能是这个奶奶失踪了,最后我们发现,家人为了防止她走失,在公安系统已经把她挂上号,最后通过这个系统把这个老人找了回来。
我们上线这个系统短短三个月时间,在整个福建省公安部门的帮助下,实现了找回人数超过 120 人,才三个月时间。这样的成效是高过以往通过群众电话,再去通过大海捞针式的访问拿到结果的过程,所以整个福建系统“牵挂你”是有一个过程的,我们发上名单照片,通过群众找到某一个人群的时候,拍张照片,最后在数据库里做比对,然后把这个人找回来,这样成功的案例已经超过一百起,这是非常振奋人心的,而且也是很有意义的。
除此之外,我们希望技术不仅仅是帮到这样一些走失的人,我们甚至可以走得更广一点,所以我们这几年做了一个“万象鉴黄”的全球儿童网络保护行动,整个优图团队开始贡献对成人图片的检测,我们发现准确率在大部分上线系统上可以超过 99%,也就是可以实现对儿童在网络上的保护,防止这些儿童受到欺凌欺骗,这样的事情是我们团队的小伙伴最愿意做的事情之一。
结语
AI 就是一种工具,AI 的出现可能会令一些人失去自己的工作,但是 AI 确实便利了我们这个社会,使得我们这个社会更加容易和谐,做得更好。当我们发现一些不好的事实的时候,AI 这个系统能够准确判别,打击犯罪,这是一种工具,就像是一把刀一样,你切菜是好的工具,但是伤害人的时候是一个坏的工具。AI 无所谓好和坏,但是好的部分需要我们去弘扬,发光广大。最后我想说,每一个技术人员虽然都坐在电脑前面,大家都认为我们是电脑高手,但是我们每个人都有一颗蜘蛛侠的心,我们希望自己有一天不上街也能够帮助人们,打击犯罪。
-全文完-