Amazon Go的亮点
用户进入商店,穿过闸机的时候打开手机让其识别,这时手机里的系统启动,并随时准备更新物品清单。令人惊艳的部分就是,****在用户拿走或放回物品的一瞬间,手机里的系统会自动更新清单。最后,用户拿着物品满意地离开,手机自动扣款。
机器视觉、深度学习算法和传感器融合
“侦测物体互动和移动”(Detecting item interaction and movement)
“侦测物体互动和移动”(Detecting item interaction and movement)这份专利的摘要是:
用户从一个货架上拿起或放下一个物品,货物管理系统可以侦测到这个动作,并且更新用户移动设备里的清单。
“物品从置物设备上的转移”(Transitioning items from the materials handling facility)
“物品从置物设备上的转移”(Transitioning items from the materials handling facility)这份专利的摘要是:
物品被识别,并且当用户正在拿起物品时,物品自动与用户发生关联。 当用户进入或穿过一个“转移区”(Transition Area),被拿起的物品将自动转移到用户,而不需要用户有任何的输入。
这两份专利文件都描绘了十分庞杂的应用场景,包括:货仓、船运、零售市场等,所以很多人当初在看到这份文件时,都以为这是亚马逊为自己的仓储系统量身定制的,不过今天一切真相大白。
这两份专利分别讲了什么?
总的来说就是,被识别的物体与用户发生关联,能自动更新清单,并在“转移区”进行自动交易(“转移区”在Amazon Go里指的就是商店的出口)。
我们可以从下面一张图里,一窥 Amazon Go 的基本原型。
- 208:摄像头
图中代号为208的物体都是摄像头,大约有10多个(有一些被人体挡住)。208摄像头分别置于天花板(如图左右两边各有一个比较大的摄像头)、货架两侧和货架内部。文件里描述到,天花板上的208用来采集用户和货品的位置、货架两侧的208用来捕捉用户的图像和周围的环境,货架内的208用来确定货品的位置或用户手的移动(进入和离开货架)。
而从视频里,我们隐约能够看到安置在货架内部的摄像头。
另外,专利文件里还补充道:这里的摄像头可以是多种类型的,可以是RGB摄像头,或深度感知摄像头。除了摄像头之外,也可以有其他输入设备,比如压力传感器、红外传感器、体积位移传感器、光幕等等。压力传感器可以侦测物品移出和进入的时间,红外传感器可以用来区分用户和的手和物品。
我们具体并不清楚Amazon Go到底在多大程度上使用了计算机视觉技术。比如说,当用户进出商店时,都需要对用户进行识别,文件里反复提到可以用人脸识别技术实现,但是又会继续补充说明可以通过手机等移动设备来侦测。
Quora网友Anurag Ranjan是一位机器视觉和深度学习领域的准PhD,他分析称:
Amazon Go使用商店里的摄像头识别出了用户,可能针对用户拍了几张照片,依靠一些标准的深度学习网络形成了一幅特征图,比如Resnet,、GoogLeNet 或者 VGG 这样的。总之,当用户踏进店里的那一刻起,Amazon Go就知道用户长什么样了。
但是根据专利和既有经验来看,在整个过程中用计算机视觉来追踪用户,代价太高了。我们大致可以确定的是,货架上的一排排摄像头应该就是对用户进行“动作识别”,并且识别出物体是否被拿走(这里也或许是传感器实现的)。
不过整个过程中的难点是,如何将物品与用户进行唯一绑定?
云从科技高级算法工程师周翔告诉雷锋网,Amazon Go具体用到哪些技术,目前我们只能够猜测,他提到可能的实现机制是:
通过手机做到了精准定位人,然后物体的具体位置可以大概确定,一旦人附近的物品离开,同时最近的人的ID就会关联这个物品ID。
置物架肯定用到了压力传感器,一旦物品离开,就会明确知道什么物品在什么地点离开,一旦物品回来,压力传感器同样会感应到。
深度学习可能是学习了人的购物习惯,可能用到计算机视觉做了人的动作识别,然后根据物品与人的ID进行关联,也就是二次确认。同时分析一个人的购物喜好,推测他会买的东西,提前做一些预判。
周翔提出,可能Amazon Go根本没有用到人脸识别的技术,“国外对人脸的隐私权是比较高的,未经允许采集他人的人脸会被起诉的”。雷锋网(公众号:雷锋网)也关注到,在李飞飞的那篇推文下,有网友对此持抵触态度,认为如果是人脸采集,侵犯了自己的隐私。
Amazon Go的出现惊艳了很多人,不过并不是所有人对此表示欢迎,除了上文提到的隐私问题外,有不少人担忧,如果这种技术大范围普及(我们知道亚马逊是多喜欢2B业务),大量超市收银员将会失去工作,毕竟亚马逊在视频里承诺要在 2017年初,于西雅图上线第一家Amazon Go。
不过这种技术究竟有多少“实操性”,还是存在很多的疑惑的,例如:
如果好几个人挤到一起买同一类东西(比如商场打折抢货,这是经常发生的),那么物品与人的ID关联还能保持精准吗?
如果用户把商品放回的位置是错的呢,这样也会被收费吗?
如果有人搞怪,将自己家空果汁瓶取代商店里的新鲜果汁,那么Amazon Go识别的出来吗?
识别动作靠如下步骤:
采集用户的手进入货架平面前的图像。
采集用户的手离开货架平面后的图像。
两者对比,可以知道是拿出货物还是放入货物。
识别物品按照如下步骤:
- 识别被拿走的物品因为物品是被雇员人工放置的,所以该物品可以直接标记到系统中,因此不用图像识别是何种物品(它已经被人工识别了)。用传感器表示它被拿走即可。
- 在某些情况下,商品可能没有被提起设置或者设置后被混乱了,那么此时需要图像识别该位置现有的商品与应该有的商品是否一致。例如,物品 A 被放在 B 物品处,如果只有上面提到的那种方式处理,就会被当成物品 B,不过这种情况较少。
- 如果是高置信度事件,可直接确认,更新(增加)物品清单,否则还有顾客协作确认的环节。
识别被放回的物品
- 在放回物品前,可以通过物品清单确定用户与物品的关系,这些物品的图片被储存在系统内。
- 检索图片,与被放回物品进行比较,识别物品。
- 高置信度即可判断物品正确,更新(删除)物品清单,否则还有顾客协作确认的环节。
- 被放回的物品会存在错放位置的情况,识别后通知雇员整理。
- 不管是拿走还是放回,如果是低置信度事件,会被系统记录分析。
陈维龙把 Amazon Go 系统“拆分”为三部分:人/货架/进出口。其中硬件软件构成如下表:
人
货架
进出口
硬件
手机
摄像头/压力/红外/体积位传感器/光幕
二维码识别器/自动门
软件
专门应用
库存管理系统
定制系统
布局如下图所示:
货架墙壁上安装多个摄像头,多种传感器埋在每层货架的底部或顶部。摄像头负责拍照,光幕/红外传感器负责制造一个水平面,如果用户的手穿过此面表示用户开始实施某种动作,提高图像分析效率。压力/红外传感器用来表示商品的位置和状态,为用户的行为提供数据。
利用这些数据进行深度学习,建立商品—动作—人的判别模型,提高系统反作弊/识别能力。
1,沃尔玛的“Scan&Go"
沃尔玛的“Scan&Go"项目主要是开发一款手机应用,将客户的手机变成扫描枪,客户成了收银员,边购物边扫描,最后手机结账。如下图:
现存报道如下:
沃尔玛推Scan&Go移动支付应用实现自助结账服务| 行业志**
因为盗损率过高(好像是从0.7%上升到3%以上)该项目最终失败了。对于薄利多销的超市而言,损失过于巨大。
2,扫描仪方案
12年的时候沃尔玛在北京实施过另一个计划,给每个客户发一个扫描仪,每台购物车上安装简易终端(用于导航和展示商品),具体过程与上面介绍的方案类似,失败结果也是一样的。
3,智能购物车方案
15年出现了”BuySmart超市智能购物车“,它与前面的区别在于用Pad更换了手机/扫描仪,而且提供了销售数据分析功能。
报道如下:
BuySmart超市智能购物车:BuySmart超市智能购物车,你的时间我来负责 - DEMO - 创业邦**
沃尔玛的“Scan&Go"类方案失败的关键在于没能解决防盗防损问题,提供了一些华而不实或者后续才需要实现的功能。
二:无人收银机方案
先上图:
无人机方案比较好理解,和地铁无人售票机一样。客户购物完成走到无人收银机前,将每个物品放入扫描,然后放钱结账。便宜的机器是没有防盗措施的,国外某些机器具有简单的防盗措施,例如重力感应。这个措施是很容易被破除的,例如不扫描直接带走,李代桃僵(重量一致)。
无人收银机方案的关键是节约人工成本(限国外),防盗防损技术基本没有,操作麻烦,不能完全非人工作业,完全不智能。该方案在国外用的多,国内嘛,深圳/上海/杭州等地都出现过,基本上没啥用途。
介绍如下:
国内超市无人自助收银系统为什么发展缓慢? | 知乎精选**
自助收银机已登陆上海,你看好吗?-搜狐**
三,诚信超市方案
15年6月的时候,阿里搞了个无人诚信超市活动,就是给便利店的员工放一天假,客户顺便购买/拿商品,付不付钱,付多少钱全靠你自己。这种超市用脚想都知道没戏,不过在国外还挺多,但也有特殊条件才行。这种方案不要问我关键因素在哪~~~
报道如下:
无人超市试水 1天后恢复“有人”(组图)**
在“无人超市”,体验美式信用--国际--人民网**
四,RFID方案
RFID是无线射频识别**技术的缩写,它的使用方法是将标签贴在商品上,商品经过一个区域可以自动被感知标签,从而识别商品。这与当前的收银员扫描过程类似,只是RFID技术能远距离(30m)批量识别,这样的话只要设立感应装置(出口),任何经过该出口的商品都能被识别。它的应用场景是:你购物过程中自动识别购物车中的物品,完成购物后手机出现付款二维码,到收银台扫描付款即可。该方案没有在超市应用的主要原因是因为标签成本太贵,好像高达0.5元一个。不要以为0.5元很便宜,对超市而言,简直贵死了。沃尔玛的毛利在15%左右,净利在5%左右,超市大部分商品单价在10元左右,你想想,每个商品贴上0.5元的标签,光标签成本就是5%。
Chaotic Moon Lab智能购物车:能带路的"智能购物车"_网易新闻中心**
五,Amzon Go方案
大家先看官方视频:Amazon.com: : Amazon Go**。视频下方有关于Amzon Go的简单介绍。
官方介绍说用于到了“technologies used in self-driving cars: computer vision,sensor fusion, and deep learning”(无人驾驶技术中的计算机视觉,感应器融合和深度学习)。下面推测一下硬件及其位置:
计算机视觉应该就是监控摄像头及图片分析技术,所以摄像头是必不可少的。这个摄像头不可能是用户手机摄像头,只能是亚马逊自己的摄像头,因为用户手机可以揣兜里。摄像头可安放的位置也只能是货架和墙壁,因为要拍摄到商品和用户(准确的说应该是手),拍摄之后就可以分析图片了。 摄像头大家都知道,真正关键的是图片分析技术。一般的超市的监控分析是如何完成的呢,答案是保安实时看。在Amzon Go方案中,大概是利用图片分析了物品的运动:物品离开货架到进入货架的过程。
蓝牙发射模块的推测理由大概是这样的:
手机能够根据购物行为实时增删虚拟购物车,所以必须有与手机通信的装备/模块,这样的装备/模块必须是密集分布在货架里。假设只有1个或少数几个通信装备/模块,那么还需要解决向哪个顾客发送的问题,我认为这个问题是比较难的。如果是密集分布,那么一定区域(足够小)的的货品对应唯一的发生装备/模块,在这足够小的货品区域中,一般而言不会同时存在两个客户。比如在能放4瓶酒的区域中,会同时出现2个顾客太难了,一个顾客的体积就足以覆盖这个区域。所以也就形成了一一对应的关系。
重力或红外感应器的推测理由如下:
当物品静置时,视频/图片变动不大,电脑可以实时分析。当物品被拿动时,可以根据物品的运动区分原有物品是否在原地。这个运动的边界就是货架。因为从公布的视频来看,物品离架瞬间就被记录了,所以它默认物品离架等于购买,原有物品放回原地等于不购买。从一个区域到另一个区域(跨越边界)的图片分析技术已经应用了。其中还有就是从图片中识别物品(如果放回来的不一样呢),这个技术很难,据说百度在国际上得奖的图片识别技术也只能是95%或98%,而且是有条件的。在超市这样复杂环境中肯定没法只靠这种技术。因此,识别物品跨界和识别物品就需要感应器。
那么为什么是红外/重力感应器呢?
因为我实在想不到还有别的简单/低成本且符合条件的感应器了。小时候看神偷电影都会有红外激光保护宝物的镜头,红外感应就是识别物品进入与否的方案。重力感应也可以,没有重量的时候表示被拿起,有重量表示被放下。这个还只是解决了物品跨界问题,识别物品(是否是原来的)还没有很好的解决。
总结一下,Amzon Go用到了计算机视觉,感应器融合和深度学习,前两者主要用于采集数据,后者用于数据分析和识别,主要用的硬件有摄像头/红外或重力感应器/蓝牙发送器。主要过程是通过监控分析物品的运动,判断用户是否购买,感应器采集数据,通过分析进一步印证判断,最后通过蓝牙进行发送。
Ps:识别物品并没有想象中的困难,因为摄像头和感应器对应特定区域的物品,相对而言难度降低很多。
这个方案本身可能难度不大,但是能否取到应有的效果,还不清楚。而且有个重大的问题,从视频中判断,售卖的商品存在极大的限制——必须是包装完整的商品。普通超市中存在大量散装商品,如水果,谷物等。
另外, @彭河森的评论好像蕴含着什么
五种方案总结如下:
目前,超市防盗措施有:视频监控,人工巡逻,收银员核查,电子标签感应。
前三者大家都能理解,到处都是摄像头,摄像头后面是保安实时监控。超市内部有便衣巡逻,营业员也起到监督作用。收银员在收银的时候能查出极少的掉包事件。电子标签感应就是进出门口的感应防盗门。大概有30%的商品(单价高)会贴上标签,有的是硬标,例如衣服上的,有的是软标(贴在条形码或者商品里面),识别软标的办法是收银员是否将商品扫描后在收银台上摩擦一下,摩擦的过程就是消磁,只有消磁了进出防盗门才不会响。所以总的来说,超市大部分防盗还是靠人,大部分商品是没有任何防盗措施的,只要胆子大,直接揣口袋被发现的概率极低。
从现状和各种方案来看,实现无人超市的关键还是在于技术上配合防盗举措,实现低成本防盗。