视觉 AI 到底发展到了什么地步?

编辑|陈思

AI前线出品| ID:ai-front

随着 AI 的发展,计算机视觉技术逐渐拥有了更广泛的应用,人脸识别,物体检测等等技术更是在安防、无人车等领域起着至关重要的作用。来自腾讯优图实验室的杰出科学家贾佳亚先生在 2017 年 6 月 21 日中国深圳“云 + 未来”峰会上发表了关于 AI 视觉技术的演讲,为听众展示了优图实验室先进的AI视觉系统。

以下为演讲内容

AI 这个词从进入大家的视野到变得巷闻皆知才用了两年时间,所以 AI 在这个时间发展过程中有点像突然发现的东西,用什么来比喻它?我会用哈利波特的隐形斗篷来比喻它,这个隐星斗篷就是当你穿上它的时候,你会发现空无一人,但是你把隐形斗篷取下来,你发现原来里面躲了一个庞然大物。

其实 AI 视觉技术就是这样一个过程,AI 的发展从最开始到现在经历了几十年的发展,所以到今天这个规模绝对不是一朝一夕能够形成的。所以我从隐性斗篷的例子来从头看看到底怎么理解 AI 技术。

我们在很多的小说、电影、科幻读物里都有很多拟人化的机器人或者产物,其中有四个最重要的功能,第一是看,第二是听,第三是说,第四是动。当然不是所有东西都会动,但如果这是一个超级的智能产物一定会控制其他东西在动,自己不用动。当我今天想跟大家介绍 AI 的时候,我会专注在一个方向上,那就是看。为什么我们要去讲看这件事?我觉得还要从自然智能理解起。

自然智能不是 AI 智能的对立面,但是却是反方面的词。人工智能是人创造的,自然智能是从远古时代演化到现在的,我们从自然智能里学到很多东西,比如说看到自然智能的时候,我会想,我们有非常多的视网膜神经细胞,有柱状和椎装细胞但是我们有超过 40 亿以上的神经元会处理我们的视觉信息,相比之下,我们的触觉和听觉可能只有 8% 和 3% 的比例,这说明什么?说明我们这个世界太复杂了,当我们从第一天人类开始去理解这个世界的时候,我们就有足够多的神经元或者处理单元去理解这个世界,所以“看”是我们理解这个世界最重要的部分

我们做到了什么?

视觉的 AI 可以运用在很多的游戏里面,比如说体感游戏或者是增强现实游戏,满大街去找小精灵的游戏就是重要的体现。除了视觉娱乐之外还有很大用处,比如解决在监控、安防或者需要大量人手去观察视频和图像的分为之内,我们从几百人减成几个人,这也是视觉 AI 发挥的作用。

腾讯是一个非常大的社交网络公司,里面有各种各样的媒体或者软件帮大家做交流,比如我有一个好的照片想给大家看看,是不是能够达到把人年轻十岁的效果呢?这个事情是可以做到了,甚至于如果想把自己变一个性别,从男生变成女生,那也很容易,甚至不用去医院了。这是在相册上或者是在手机端产生的变化,除此之外还有两块非常大的部分,一个是智能医疗,如何能够让一个机器智能读懂所有医疗的片,比如说 CT 片、MRI 片,这是非常重要的部分。还有自动驾驶,我们能不能辅助驾驶、自动驾驶的功能加入在视觉 AI 里面。

这些 AI 的技术代表在这个领域飞速发展的进程,但是与此同时,在不同的途径、不同的视频或者不同的专家给大家介绍各种方法的时候会说,我们的技术已经做到多么强、多么好,我在这里更希望通过科学家的角度跟大家介绍,我们的视觉 AI 角度到底发展到什么地步。

首先可以超过 1000 个类别的上亿张图像的分类理解。

当我有一张图像的时候,人和机器都可以告诉你这张图像是什么,这是一头牛还是一朵花,有的时候你可以想象机器甚至做得比人更出色,我三岁的女儿经常跟我说,爸爸,我看到那边有非常漂亮的蝴蝶。我就纠正她,宝贝,那不是蝴蝶,那是蛾子。但是我的宝贝说,这个蛾子比蝴蝶还漂亮,肯定是蝴蝶。

说明我们在图像理解上有一个过程,我需要理解它的含义得到一个结果,但是在机器学习的时候,甚至可以达到比成年人更高的境界,我们可以细分到山丘、山陵的区别,而超越人的理解。科学家已经不满足于这个问题,这个问题被认为已经在这个领域解决,下一个要解决的是检测问题。当我们有一张图,我希望不但知道这个图的整体表达是什么,还要知道这个图里哪个地方是车,哪个地方是路面,哪个地方是人,这是检测过程。由于现在有强大的计算资源和计算能力,我们可以超过五亿个品种的检测,这是视觉 AI 的另外一个可以达到的目标。

除此之外,科学家们想,当我们能检测到一些物体的时候,能不能把细致度做得更深?比如说颗粒度更深的每个像素、每个点,我是不是能知道这个点是属于马路的,属于人还是属于车的,这是远远超越于之前问题的更加进一步的推广问题。所以我们管它叫做语义分割,现在可以超过总数四千亿像素级别的多图图像分割,这是这几年整个领域产生的巨大推进作用和研究成果,能够达到的效果。除此之外更加熟悉的是对人脸的匹配查询,可以超过一亿张人脸匹配查询,找到你想要的人,你问问自己,能不能认识一亿个人?认识一百个人,我就很开心了,这在电脑上是远远超越了人。

在之前五到十年的时候,我在学校的团队还会做一些有意思的研究:我们当时想,如果看到这样一张模糊的图片你会做什么事情?你看到一张模糊图像会做什么事情?可能大家要做的就是把它删除,为什么?因为这张图片模糊了,已经没有用了,但是对我们科学家而言,是非常珍贵的资源,因为通过这张图像我们发掘出一些人类看不到的东西。

为大家举一个有趣的例子,比如在这张图像里,我们是在一个高速行进的车上,周围的环境是容易被模糊的,当我们理解环境的时候你发现,车牌或者路标已经被模糊掉,在这张图上,在这个图标上看着公路的信息,但是左边小的是什么东西?左边路牌上的数字是什么东西呢?之前大学里的团队经过五到十年的研究,把这些信息充分理解出来,最后通过我们的技术手段,能够看到最后这是在美国 101 公路上的场景,我们可以超越人类的图像模糊。

还有一个东西,我们希望十年之后出现家具机器人,什么叫家具机器人?就是你希望他能帮你洗衣服、洗碗、做饭,甚至带孩子,但是要达到这个智能机器人,怎么样才能做到这一步?其中重要的就是如何把自然语言和自然图像结合起来,也就是两者的充分结合。所以我们在之前有一系列的研究,是当你看到一张图像的时候,我的人来问一个问题,是什么放在了这个工作间的台子上,电脑看到通过你这句话,分析是什么意思,然后再去寻找在这张图像上是问了什么问题,最后把图像上重要的位置找到之后反馈回来,得到一个结果,这个结果就是船,这就是说这个答案是对的。

这个说明现在电脑可以结合自然语言,我说的话和看到的场景可以结合起来,这是一个非常了不起的进步。正是因为有这个进步,我相信令到家具机器人的理想在十年之内能够变为现实。

我们还可以做到什么?

可能有讲座介绍说,幸亏 AI 达到的程度还没有人那么高,因为人会创造,AI 不会创造。我想跟大家说,其实这句话是不对的,电脑也会创造,而且创造出来的种类和试样,很多时候是让我们惊叹的,在以往知识库里是找不到这些模组的,这就是创造的功能,视觉 AI 已经可以实现创造。

比如看这两幅图,看在座各位认为右边这张图是电脑画的?真理永远掌握在少数人手里,右边这张图确实是电脑画的,电脑用铅笔画出了整体轮廓的表达、阴影的表达,达到了非常高的层次,人类需要长期训练才能画出,但是我们画出这张图只用了 0.1 秒,就是它的创造过程,这是非常有趣的事情。

我大学的团队在去年为了去理解这个非常复杂的场景,创造了全世界最像素级的分割技术,做场景理解分析。

这个例子可以看到车是一个颜色,因为我识别出来这是车,所以是蓝色,旁边的树,我识别出是树,所以标成绿色。我们在去年实现了在大规模场景的多复杂环境下的内容分析,这是去年做的事情。今年我们不满足这样一个结果,我说我们还能做什么?然后我的团队开始在今年做了另外一件让大家激动的事情,我们实现了到迄今为止最准确的道路上的像素级语义分割技术,在已知的论文里面,我们这个技术远远高出第二名,直接到每秒 30 侦的运算速度,没有改变任何的硬件资源,我们加速了一百倍。

AI 视觉技术的社会价值

除了我刚才跟大家讲的商业价值或者学术价值之外,我今天还有另外一个内容。我想跟大家讲讲优图 AI 所产生的社会价值。有一个优图跟腾讯的公益部门以及腾讯云、腾讯互联网 + 的部门合作,我们开创了一个新的活动,这个活动叫做天眼。

大家有没有看过这部《亲爱的》?讲述的就是现在有很多很多的家庭,家里的孩子被拐卖走失,这些父母组成了一个团体,他们希望通过这个团体找寻自己的孩子,这就是 2014 年这部电影上映反映的严重现实,孩子的丢失也许是社会的一小部分现象,但是这个现象确实是存在的。所以可以想像,在这样一个环境下,可以有一个大概的估计,但是现在走失的现象在统计意义上而言非常巨大,每个城市这样的现象很少,但是因为中国人口多,在这么大的中国人口的基数上,我们能够把这个比例一点点的上升,这也是我们能贡献的力量。虽然我们有了各种各样的途径,有微博打拐,有大家贡献的力量来找寻,但是贡献率依然是 0。

2015 年,优图团队跟腾讯公益部门和腾讯云和腾讯互联网 + 的单位一起开始加入了“天眼”计划,希望通过优图的技术积累,帮助社会实现社会价值,而不仅仅是商业价值,因为这对我们而言是一件相对比较容易的事情,但是社会价值如何体现在 AI 上?

于是我们加入了这个公益计划,当时在上海的小伙伴们拿到这个计划的时候非常兴奋,他们觉得终于有一天,他们坐在电脑前面也可以像蜘蛛侠一样出去救人。他们做了很多评测,发现我们在人脸识别率上只有 40%,这个数字让我们的小伙伴非常惊讶,发现原来问题这么难,不是我们拿到一张图做一个寻人就可以把人找回来。主要有以下三点困难:

第一个是场景

我们有非常复杂的场景,有城市,有农村,有山林,有不同区域,甚至当我找回这样一个失踪人口的时候,他的发型、衣着、轮廓改变都是复杂因素。

第二是年龄

很多的失踪人口找回来的时候,他们可能在外面已经漂流了几年的时间甚至十年时间,这是一个非常长的时间段,所以从我们的面容上看,他们改变了很多,从轮廓、皱纹、皮肤的粗糙程度,这都是对我们实用算法是非常大的挑战。

第三需要具备有亿级人脸的检索能力

当我拿到一张检索照片的时候,是不是能够通过实时寻找对比,找到这个人出来。

这三大挑战是我当时面对的,但是好在我们优图的小伙伴们并没有放弃,他们觉得这件事情既然做了就要做到底,而且要做好。所以我们在经历一系列的,超过一年多的研究,把 Megaface 的准确率从 40% 提升到 83.29%,这代表了我们可以在亿级人脸检索上达到毫秒的速度,把成功率从之前的不到 50% 提高到 99%。我们立项之后,在短短三个月时间之内,就开始用在福建省公安一起合作,做了网上在线系统找回人群。

2017 年 3 月份的时候,福建省公安厅接到一个群众电话,他们在小学边上找到一个老奶奶,神智不清语言也不通,把他接到公安局以后,通过我们的线上人脸比对系统,发现可能是这个奶奶失踪了,最后我们发现,家人为了防止她走失,在公安系统已经把她挂上号,最后通过这个系统把这个老人找了回来。

我们上线这个系统短短三个月时间,在整个福建省公安部门的帮助下,实现了找回人数超过 120 人,才三个月时间。这样的成效是高过以往通过群众电话,再去通过大海捞针式的访问拿到结果的过程,所以整个福建系统“牵挂你”是有一个过程的,我们发上名单照片,通过群众找到某一个人群的时候,拍张照片,最后在数据库里做比对,然后把这个人找回来,这样成功的案例已经超过一百起,这是非常振奋人心的,而且也是很有意义的。

除此之外,我们希望技术不仅仅是帮到这样一些走失的人,我们甚至可以走得更广一点,所以我们这几年做了一个“万象鉴黄”的全球儿童网络保护行动,整个优图团队开始贡献对成人图片的检测,我们发现准确率在大部分上线系统上可以超过 99%,也就是可以实现对儿童在网络上的保护,防止这些儿童受到欺凌欺骗,这样的事情是我们团队的小伙伴最愿意做的事情之一。

结语

AI 就是一种工具,AI 的出现可能会令一些人失去自己的工作,但是 AI 确实便利了我们这个社会,使得我们这个社会更加容易和谐,做得更好。当我们发现一些不好的事实的时候,AI 这个系统能够准确判别,打击犯罪,这是一种工具,就像是一把刀一样,你切菜是好的工具,但是伤害人的时候是一个坏的工具。AI 无所谓好和坏,但是好的部分需要我们去弘扬,发光广大。最后我想说,每一个技术人员虽然都坐在电脑前面,大家都认为我们是电脑高手,但是我们每个人都有一颗蜘蛛侠的心,我们希望自己有一天不上街也能够帮助人们,打击犯罪。


-全文完-

关注人工智能的落地实践,与企业一起探寻 AI 的边界,AICon 全球人工智能技术大会火热售票中,8 折倒计时一周抢票,详情点击:

http://t.cn/Rl2MGtT

《深入浅出TensorFlow》迷你书现已发布,关注公众号“AI前线”,ID:ai-front,回复关键字:TF,获取下载链接!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容