浅析人工智能+安防的未来

学号：16020120050

姓名：吴言凡

转自：http://36kr.com/p/5100333.html

【嵌牛导读】：人像态势识别及其在智能视频监控中的应用

【嵌牛鼻子】：智能视频分析、人脸识别

【嵌牛提问】安防领域人脸识别有什么不足之处？AI+安防未来会有哪些新的趋势？

【嵌牛正文】：

安防已经成为人工智能落地场景中的重要赛道，其涉及的智能视频分析、人脸识别等关键技术也在研究领域受到了极大的关注。那么安防领域中涉及的人脸识别有何痛点？人工智能+安防的未来又有哪些新的趋势？

10月29日，2017年第十六届中国国际公共安全博览会（CPSE安博会）在中国深圳会展中心开幕。在政府管理论坛上，清华大学媒体大数据认知计算研究中心主任王生进教授发表了题为《人像态势识别及其在智能视频监控中的应用》的演讲，他指出，目前我国视频监控建设卓有成效，摄像头的数量惊人，达到了2000多万个。如此大量级的数据只依靠人工监控已经无法实现大规模视频监控，急需人工智能以及智能分析技术有效的技术支撑。

王生进教授从三个方面阐述了人脸识别在安防中的应用：1、新一代人工智能发展与智能安防；2、人脸识别技术与应用系统；3、以人为中心的安防理念与人像态视识别。

大数据文摘从现场发来一手报道，以下为王生进教授演讲精华，在不改变原意的情况下有部分删改：

一、新一代人工智能发展与智能安防

当前，世界范围内公共安全面临严峻情势，是国际上关注的重大课题，信息内容与情报成为掌控局势的关键要素。面向大数据背景下国家公共安全保障是重大的国家的需求。聚焦公共安全、平安城市、视频监控、网络安全的需求，以安防视频大数据，及网络空间各种视频、图像、语音、网络信息为大数据基础，创新人工智能和机器学习理论，构建公共安全大数据应用技术创新平台是我们工作的重点。

我们现在面向的空间主要有两个。

第一面向物理空间安全：全国平安城市建设视频监控前端数量已超过2000万。目标感知能力不足，大数据给公共安全事件即时感知、精确分析、快速搜索带来巨大困难，急需人工智能技术支撑。

第二面向网络空间安全：网络空间富媒体通信的引入，带来新型媒体信息管控难题，国家急需大数据环境下富媒体内容感知、网络信息安全、网络多媒体内容监测的支撑技术。

十二五期间，全国600大中城市视频采集系统建设已初具规模，监控系统26.8万余个（2009），安装摄像头2000万余个（2013）。按每个摄像头每天约7.2GB (0.3G（CIF）*24)的数据量，北京市摄像头40余万个（2011），每天产生的数据量为 2800TB，数据量巨大。

在这样大量的数据下，依赖人工监控，智能化程度低，无法实现大规模视频监控环境下的事前感知、事中联动、事后有效处理及智能检索。急需人工智能以及智能分析的技术，在视频监控里能够提供有效的技术的支撑。

2017年7月8日，国务院发布新一代人工智能发展规划（国发〔2017〕35号）。人工智能成为国际竞争的新焦点，是引领未来的战略性技术；人工智能成为经济发展的新引擎，作为新一轮产业变革的核心驱动力；人工智能带来社会建设的新机遇，将深刻改变人类社会生活、改变世界。抢抓人工智能发展的重大战略机遇，构筑我国人工智能发展的先发优势，加快建设创新型国家和世界科技强国。

根据这个核心，《规划》里提出利用人工智能提升公共安全保障能力的规划和要求。

第一、促进人工智能在公共安全领域的深度应用，推动构建公共安全智能化监测预警与控制体系。

第二、围绕社会综合治理、新型犯罪侦查、反恐等迫切需求，研发集成多种探测传感技术、视频图像信息分析识别技术、生物特征识别技术的智能安防与警用产品，建立智能化监测平台。

第三、加强对重点公共区域安防设备的智能化改造升级，支持有条件的社区或城市开展基于人工智能的公共安防区域示范。

在智能视频分析关键技术方面，我简单列了相关的关键技术：

1、侵入/越界检测

2、遗留物体事件检测

3、拿走物体事件检测

4、徘徊检测

5、行人/车辆检测、跟踪

6、人脸（人像）/行人/车牌识别

7、人群密度监测

8、异常行为（奔跑打架斗殴）检测

9、视频质量诊断

10、视频浓缩与摘要

11、视频内容快速检索

12、图像增强与复原技术

人脸识别技术应用方面，根据实际应用场景，人脸识别可以分为如下3类：

第一、有配合人脸识别。分认证和查询，通常应用在证件照人脸，声明我是A，然后将A的模板人脸图像和现场采集的A的人脸图像进行比对，给出Yes or No，或查询大库。通常要求配合。

第二、半配合人脸识别。也分认证和查询。通常应用在受限的通道、卡口，进行黑/白名单比对。该类应用通常光照稳定，不要求配合。

第三、非配合人脸识别。查询为主，通常应用在视频监控的动态布控场合，进行黑名单查询。该类应用光照复杂，姿态不确定，难度大。

清华人脸识别技术——人证合一验证通关应用：2005年，由公安部出入境管理局主持集成清华大学人脸技术，世界上首次在我国出入境旅客最多的深圳罗湖口岸开通“旅客自助查验通道” ，日均出入境人数在数十万以上。已推广到深圳、珠海两个地区的边检口岸共已开通了近400条自助通道，近300万旅客，验放旅客超过数亿人次，通过率98％，成为世界人脸识别技术大规模成功应用的范例。

二、人脸识别技术与应用系统

人脸识别技术通过采用摄像机或摄像头，采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关处理技术，通常包括：人脸检测、人脸跟踪、人脸五官定位、人脸归一化、特征提取、分类器训练和比对匹配，以达到识别不同人身份的目的。被广泛地应用在安全、认证等身份鉴别领域，因而被誉为”21世纪十大影响人类生活“的革命性技术。

人脸识别从应用上一般分为人脸检测，人脸五官定位，1:1人脸识别，1：N人脸识别，M：N动态布控。人脸检测与五官定位应用方向：客流量统计，视频检索等。智能贴图，智能美妆美颜，变脸特效等：

1:1人脸识别应用方向是指身份证人脸认证系统，社保人脸识别。

1：N人脸识别应用方向是指身份证照片查重，护照照片查重。比如你现在要做一个护照，你是张三，公安部门会到人口库里面查一下，看你会不会是顶替，也就是一人多证。

M：N人脸识别应用方向是指动态监控，黑名单监控，VIP客户管理系统，校园人脸识别系统，智能楼宇。

人脸识别技术，近两年发展非常迅速。基于机器学习的人脸识别方法方面，人脸识别方法总体上可分为三大类：

一是基于统计的识别方法，主要包括特征脸(Eigenface)方法、隐马尔科夫模型方法、子空间法等；二是基于网络连接机制的识别方法，包括人工神经网络(ANN)方法和弹性图匹配方法等；三是几何特征方法和三维模型等一些其他的综合方法。

1、人脸识别核心课题

人脸识别的过程：令x 为一个待识别的人脸输入，F(x)为一个分类器函数，y 是关于x 的类别标签输出。人脸识别的关键，是获得高性能的F函数。传统的人脸识别的方法（Deep Learning以前）： F分类器函数的构建，主要是分步处理、人工设计的。

基于统计学习的人脸识别方法得到了广泛的应用。人脸识别当前遇到的主要困难包括：

人脸面部结构的相似性

人脸的姿态变化

人脸的表情变化

复杂环境的光照变化

人脸的饰物遮挡

人脸的年龄变化

以上问题给人脸识别带来了相当大的挑战。随着深度学习的发展，我们遇到的困难得到了解决。

2、人工智能新浪潮的关键技术——深度学习

人工神经网络是一种端到端的机器学习方法（全步骤一次性学习）。端到端的学习方法一出现给人工智能带来了巨大的推动，应用在AlphaGo，图像识别，语音识别，无人驾驶，VR/AR，智能交通，智能视频，智慧医疗，智能制造。

3．人脸识别关键技术

1)人脸检测：判断输入图像中是否存在人脸；如果存在人脸，返回人脸所在的位置。

2)关键点定位：确定人脸中眼角、鼻尖和嘴角等关键点所在的位置，为人脸的对齐和归一化做准备。

3)人脸归一化：根据关键点的位置，采用相似变换，将人脸对齐到标准脸关键点，并裁剪成统一大小。

4)特征提取：利用海量数据，训练卷积神经网络；将人脸图像表示成具有高层语义信息的特征向量。

5)特征比对：主要是利用Metric Learning等技术，进一步提升识别准确率。

4．人脸检测技术

（1）基于A CNN Cascade for FaceDetection框架。一共6个CNN，3个detection-net用于判断输入的区域是否是人；3个calibration-net对输入的人脸框进行校正，得到更加准确的人脸框。检测过程中采用NMS消除高度重叠的窗口。

（2）人脸识别网络。针对不同人脸识别场景，设计了多种网络架构，以适应不同场景（速度、精度）的要求。图是我设计的一个网络，左边的网络具有速度快的特点，仅需要5毫秒的CPU时间，在LFW上的识别准确率为97.28%，主要用于对实时性要求高的场景。右边的网络，RES-FaceNet，一共包含26个卷积层，5个max-pooling和1个全连接，单个model在LFW上的识别准确率可达99.22%。

三、以人为中心的安防理念与人像态视识别

基于以人为中心的安防理念，提出人像态视识别新概念。安防的重点是人，特别需要关注和获取重点人群的全面信息。例如以下的相关信息：关注人物出现在公共场所和交通卡口；他的行为和举止是否异常；携带包裹进入公共场所，走出后箱包是否消失；其面部表情和神态如何；近期是否有过敏感接触、过激言语等。

1、人像态视识别

人像态视识别，是我们构建的深度人像识别的一个新概念，即对于人的像态、形态、神态、意态。

—像态包括人脸和行人表观图像；像态，感知两个维度: 1、对感知对象的物理特征进行精准认知，以表达如颜色、尺寸等；2、对这些特征组合的表象进行属性描述，以表达是什么，如车牌、人脸、行人。像态包含表观：人脸、指纹、掌纹、虹膜、指静脉、人群聚集事件等。

形态包括静止和序惯图像。形态，感知两个维度: 1、对感知对象的静止肢体特征进行认知，以表达如动作、姿态等；2、对感知对象的肢体变化特征进行描述，以表达做什么，如步态、奔跑、逆行。形态包含多种人体肢体特征：姿态、行为、动作、步态、轨迹等。视频监控行人识别系统，是在跨视域视频监控网络中，依据行人外观和步态特征，识别查找追踪在不同摄像头下的特定行人。

神态包括主动和被动下的人脸图像。神态，感知主动和被动两个维度: 1、对感知对象的面部表情特征进行认知，以表达如喜怒哀乐等；2、对感知对象的面部神色特征进行描述，以表达其内心的波动、思想的意识、精神的状态，通常不为人的意志所控制。神态主要用于表达人的内心状态：神态自若、神色慌张、精神恍惚等。

意态包括显性信息和隐性信息。按照这个范畴定义，构成人像态势识别新概念，智能安防，人是其中核心关键的要素。意态与隐形信息相关联，主要体现在信息的逻辑关系的关联上，具有显性和隐性两个维度: 1、对感知对象行为的企图、目标、后果的显性特征进行认知；2、对感知对象行为的企图、目标、后果的隐性特征进行认知，以表达其行为与其他事件的关联、影响、及潜在的可能后果。意态的显性特征认知较为容易实现，意态的隐性特征认知难度较大，但实际的事件预测十分需要。例如，同样是购买一把菜刀，如果是一个主妇，可能是用于家庭的厨房餐饮；但若是有前科的人，则需要预警；—又如，一个人长时间在某个地方徘徊，像态是徘徊，但意态可能预示可能的事件。

大数据时代，如何处理从各个数据源收集来的信息，如何对不同地点、不同媒体、不同时间、以及不同清晰度、不同粒度的信息进行综合利用，包括对信息的真伪进行鉴定；都是从未完成过的挑战。显性信息关联，主要体现在目标表观信息的关联上，如目标类型，目标属性，目标状态，目标时空点；隐性信息关联。主要体现在逻辑关系信息的关联上—“蝴蝶效应”，亚洲蝴蝶拍拍翅膀，将使美洲几个月后出现比狂风还厉害的龙卷风！

人像态视识别，全面构建对人的像态、形态、神态、意态的深度识别。通过人像态视识别，实现对目标人的整体信息分析、完善的状态描述。1、2态，侧重“格物”，本意即为考察人这个事物; 3、4态，偏向“致知”，进而达到完善的识别和理解; 人像态视识别的目标就是“格物致知”。综上，通过人像态视识别，实现对目标人的整体信息分析、完善的状态描述。人脸识别系统包含人脸识别、年龄估计、性别识别等，新一代的具有智能的安全监控技术，可实现对人脸的检测、识别和分类；人像态视识别，全面构建对人的像态、形态、神态、意态的深度识别。通过人像态视识别，实现对目标人的整体信息分析、完善的状态描述。

将人像态视识别与智能视频分析有机结合，运用于安防领域，无疑将提高公安安防工作的效率，为平安城市建设和公共安全保障提供精准和有效的信息技术手段，大数据背景下国家社会安全保障重大需求。

浅析人工智能+安防的未来

推荐阅读更多精彩内容