目前人工智能的视觉交互技术主要有人脸与人体分析处理、动态行为识别、图像处理和文字识别等。目前,基于视觉交互的行为识别可应用领域包括:视频监控,医疗监控,运动训练,人机交互和虚拟现实。(整理时间:2018/04/24)
智能监控系统
在技术上不仅要求监控系统能对视频中的内容准确理解,而且还能针对识别出的具有威胁性的行为发出警报,使监控系统具备智能孔。在经济上,要求在敏感活动区域内能够实施无人监控,避免配置大量的安保装置和安保人员,从而大大减少了财力和物力上的投入。
基于计算机系线的视频存储和检索
要求计算机系统能自动理解视频内容,由于人是现实世界中多数视频监控的主要目标,所以,针对人体复杂行为研究开发出的自动识别系统,将能极大地提高自动标注出人体行为视频的准确性。
智能人机接口
通常在高端用户中,人机接口方式可以更好地实现人和机器之间的交互,而将视觉信息作为其他信息的有效补充信息源导入计算机系统将能实现更加高效的人机交互方式。
智能家居环境
随着全球社会老龄化的加剧,对老年人的健康状况进行监测和对子女不在身边的老人居住的环境(特别是行为不便的老年人,以及老年人因为健康原因有可能会突然跌倒等日常行为进行无人监控。)进行监护的问题,已经成为日渐突出的社会问题,如何建立智能的家居环境已经逐渐成为各国研究人员的一个研究和开发的技术热点。该项技术是通过监控系统对需要监护的老人日常行为生活状况进行实时视频监控,对其行为进行自动理解并实时地发现诸如昏迷,晕倒,摔和被盗等日常行为,准确实时地向其家人或者医护机构发送报警信号,从而为包括老人,残障等特殊群体实施有效的监护。
智能行为身份识别
传统的身份鉴别方式大多基于生物特征进行识别,其包含了指纹识别,人脸识别以及虹膜识别,这些技术依赖于人的生理特征。
人脸与人体分析技术及其应用场景
人脸识别是应用最广泛的视觉交互的行为识别,可支持图片处理,身份验证,用户归类,人流统计等,有定位、检测、比对、验证等功能,可应用的领域非常广泛,通过人脸识别进行有效的身份核实,用户可以线上实现考勤签到、政务办理、金融开户、保险办理、信用贷款等。通过人脸识别进行有效的照片处理,用户可以对照片进行信息检测、人像美颜变妆、人群分类等。
人脸检测与分析
检测图片内的人脸,返回人脸的位置和性别、年龄、种族和情绪等属性。
应用:广告精准投放 人流统计 娱乐应用
人脸验证
通过提取人的面部特征,计算两张人脸的相似度,从而判断是否为同一人,即1 : 1身份验证。人脸验证技术被广泛应用于基于人脸的真实身份验证、人证合一验证等。
应用:金融远程开户 政务自助办理 服务安全监管 密码管理
人脸检索
给定一张人脸照片,和已有人脸库中的N个人脸进行比对,找出最相似的一张脸或多张脸,并给出相似度排序,即1 : N人脸检索。如果待检索照片中含有多张人脸,则针对每个检测到的人脸,返回与之对应的检索结果。人脸检索应用于用户不需要声明身份的场景,通过在身份照片库中进行人脸检索,确定人群中每个人的身份。
应用:摄像监控系统(在银行、机场、商场等公共场所对人群进行监控,身份识别,也可以针对疑犯进行布控追踪) 门禁系统(小区/学校/企业) 签到考勤系统
人脸聚类
将一个照片集合内的人脸根据身份进行分组的算法。通过将人脸照片集合内所有的人脸两两之间做人脸比对,再根据它们的相似度值进行分析,将属于同一个身份的人划分到一个组里。
应用:智能相册
活体检测
在人脸识别系统中,为了防止不法分子利用他人的照片或者视频进行欺诈,需要利用活体检测技术判断摄像头前的用户是否为真人。优图的活体检测技术对于照片、视频、人头模型等各种不同类型的攻击都能进行有效阻挡。
应用:身份核实
关键点定位与追踪技术
人脸定位并追踪面部的关键区域位置,包括眉毛、眼睛、鼻子、嘴巴和脸部轮廓等,适用于不同表情、性别、年龄、姿态、光照条件。
应用:人脸照片处理(美化、变形、漫画、换脸等) 视频贴纸与滤镜等特效
人体定位可有多个关键点定位,通过RGB图像输入超实时给出人体头肩、腰、腿等位置,可适用于各种大幅度人体动作。
应用:行为检测
目前国内的人脸识别技术领先的企业有百度、腾讯优图、Face++、商汤科技、阅面科技、陌上花科技等,在国际权威人脸识别数据库LFW上,在无限制条件下人脸验证测试(unrestricted labeled outside data)中提交的最新成绩达到了99.80%左右。
根据腾讯优图实验室的介绍,训练数据来自于他们自发搜集的名人数据库,包含了2万个身份,涉及200万张人脸图像。通过借助多机多卡的Tensorflow集群训练平台,优图实验室集成了三个深度分别为360、540、720层的类似Inception-resnet结构的深度网络,并将最后全连接层的输出作为特征输出。结果显示,三个模型融合达到99.80%的准确率,而其中准确率最高的一个达到了99.77%。
阅面科技以改进版的残差网络为基础,训练数据来自内部收集的千万级的人脸数据,训练过程中同时加入识别和验证两种监督信号保证同一个人的类内距离更小,不同人的类间距离更大。通过“增加更多数据、加深网络规模”得到一个不错的「Baseline」之后,发现进一步增加数据和网络层数并不能带来提升,算法性能到了一个瓶颈。后来仔细分析了一些测试的「bad case」,并对网络做了可视化,有针对性的调整网络结构,最终以50层的网络规模达到别人300层网络的精度。由于人脸五官具有明确的语义信息,阅面采用的多模型融合版本最终得到了98.82%的精度。
Yi+(北京陌上花科技有限公司)人脸识别技术遵循无限制,标记的外部数据协议。我们的系统由人脸检测,人脸对齐和人脸描述符提取组成。我们使用多重损失和训练数据集训练CNN模型,其中包含来自多个来源的约10M个图像,其中包含150,000个人(训练数据集与LFW没有交集)。在测试时,我们使用原始的LFW图像并应用简单的L2norm。图像对之间的相似性用欧氏距离来测量,最终以99.83%的识别精度和较低的波动幅度为位居世界第一。