1,产品和本文介绍
Face++是旷视推出面向开发者,以API或SDK形式,将计算机视觉技术开放给开发者。
2,Face++组织结构
face++由下至上软件能力分别为API的单个能力,SDK再到解决方案三层结构。
而API技术目前按业务维度分为“人脸识别”,“人体识别”,“文字识别”和“图像识别”四大类。
3,人脸识别
3.1人脸检测
人脸检测是检测图片中的人脸,并返回高精度的人脸坐标。
人脸检测是对人脸进行分析和处理的第一步。
能力的演示效果如下。
接口主要传参和返参的格式如下
传参主要信息:图片
返参主要信息:被检测出人脸数组,人脸数组信息主要包含人脸的标识,人脸矩形框的位置,人脸关键点坐标数组,人脸的特征数组(性别,年龄,是否佩戴眼镜,人脸姿势信息,人脸模糊状态,眼睛状态,情绪识别,人种识别等)。
人脸的特征数据就是人脸的结构化数据的一部分,其中的性别,年龄,和是否佩戴眼镜就可以用于实际的业务,例如广告机依据摄像机采集图片中的性别,年龄比例投放不同的广告。
应用场景:可以在零售业,机场和学校等场所基于人脸的人流量和出勤率统计。
3.2人脸对比
人脸对比是两业务上会依据输入的两张图片进行对比,输出置信度分数和相应的阈值,用来评估张人脸属于同一个人的可能性大小。
接口主要传参信息:对比图片与源图片。
接口主要返参信息:对比结果置信度与参考的置信度阈值。
当上传的图片含有多个头像时,系统会采用最大的头像做对比(业务设计)。
应用场景:主要应用于金融等行业,用于证件(例如身份证)和真人身份校验(通常会和活体校验一起做未身份校验)。
3.3人脸检索
人脸检索是针对一个新的人脸,在一个已有的人脸集合中搜索相似的人脸,搜索算法会返回一系列相似人脸,以及相应的置信度与阈值。
功能演示的效果如下
传参主要信息:搜索的图片,可以指定图片的搜索区域,加搜索标识。
返参主要信息:搜索结果数组(数据库中的人脸标识与对应的结果置信度),参考的置信度阈值。
人脸检索技术可以用在刷脸门禁和安防监控场景,把捕捉到的人脸和已有的数据库对比,核实身份。
3.4人脸关键点
人脸关键点能力是定位并返回人脸五官与轮廓的关键点坐标位置。关键点包括人脸轮廓,眼镜,眉毛,嘴唇以及鼻子轮廓。高精度的人脸关键点可以对人脸图像进行各类复杂的变化,例如人脸妆容,滤镜贴纸和3D动画等。
人脸关键点能力偏向娱乐化,3D人脸模型大致是下面的样子
3.5人脸属性
人脸属性可以获取到人脸的各种属性,包括年龄,性别,微笑程度,头部姿态,情绪,皮肤状态,人种等信息。
能力的演示如下图
人脸属性同样可以用于广告机精准投放场景。
3.6情绪识别
情绪检测是分析检测人脸情绪,并在返回该人脸在各类不同情绪上的置信度份数,用于推测人脸情绪。可以用于广告机的精准投放场景。
能力演示如下:
3.7颜值评分
颜值评估是用来评估该人脸的颜值份数,Face++是给出同一个人脸男性和女性的评估份数。演示效果如下(下图选中的是男性的图片):
可应用于美妆和婚恋交友场景。
3.8视线评估
视线评估是对图片中的人眼视线方向进行评估,计算并返回高精度的双眼眼球中心位置坐标,以及双眼视线方向向量,在视频中可以实现对人眼视线的实时追踪。
该能力主要应用于基于注意力分析的复杂任务,例如广告精准投放,在线教育学生状态分析等。
4,人体识别
4.1人体检测
人体检测主要是检测和定位图片中的人体,返回高精度的人体矩形坐标。
人体检测是人体进行分析和处理的第一步。所有检测出的人体都可以进一步进行人体属性分析,获取完整的人体信息。
功能演示如下图。
可用于公共场所的人群监控,零售场所的人流量统计,和视频中对人体进行追踪,根据人体移动速度和方向,调整摄像头对人进行追踪拍摄。
4.2人体抠像
识别出图像中人体的轮廓范围,与背景进行区分,并返回图片中每个像素是否在人体轮廓内的置信度。
人体抠像可用于照片合成,相片处理和娱乐特效场景。
功能演示的效果图如下
4.3人体属性
指获取人体上的衣物,人体本身性别,衣物上logo等能力,是人体图像方面的基础能力。
4.4手势识别
检测并返回图片或视频中所有手部矩形框位置,以及手势的含义。目前face++支持的手势有“OK”,“比心”,“胜利”等19种。
能力演示的效果如下图:
手势识别一旦识别的种类和精度达到一定的条件,可应用的业务场景及其广泛,猜想其重要程度等同于现在手机与手滑动,点击的互动。
5,文字识别
文字识别可以分为证件识别和OCR识别两大类。OCR文字识别技术可以用于资料结构化整理,内容审核与管理和单据识别应用场景。
6,图像识别
6.1场景与物体识别
检测图片中的场景与物体,返回检测出的场景与物体名称,以及相应的置信度。
可应用于图片分类场景。