未来式"谷歌搜索"——计算机视觉

李运泽 14020199014

嵌牛导读

科技的进步使得机器广泛走出室内,来到户外,面对外界的视觉信息,计算机视觉技术可以使得机器更智能地为我们提供搜索服务,我们可以从一款名叫"Alice Who"的APP开始,来窥见计算机视觉的强大。它能为我们带来什么样的便捷呢,它是如何突破某些技术难点的呢?

嵌牛鼻子

点状云 数据库 数据标签策略

嵌牛正文

在旧金山街头,会有人使用一个叫“Alice Who”(神马爱丽丝)的APP。 你只要把手机摄像头对准一栋建筑,或一家餐厅,“Alice Who”就会告诉你,这是什么地方,这家餐厅叫什么名字;“Alice Who”还能够帮你链接去美国版的大众点评网Yelp,FourSquare等,让你能够了解这家餐厅的详细信息和评价。

图片发自简书App
有了Alice Who,地方搜索变得异常简单,就像有一个当地的好友在身边,你眼睛看向哪儿,这位当地朋友就能告诉你看到的是什么。这或许就是未来的搜索体验吧!

图片发自简书App


看似简单的应用,背后包含了复杂的技术。对于户外环境中建筑、店面的识别,一直是计算机视觉的难点。如何让计算机看清楚,看得准?即使户外的光线千变万化,即使环境中存在众多干扰因素?

这归功于独辟蹊径的计算机视觉技术

计算机视觉(Computer Vision)是近年来大家谈的较多的话题。无人驾驶汽车、无人机等产品渐渐进入大众视野,如何让机器能够像人一样,有看见、辨识周围环境的能力,成为这些产品成功的关键。

随着计算机视觉技术的发展,人们开发了不同的手段来帮助机器“看见”物体。大部分技术是基于同一基础的,那就是点状云(Point Cloud)。通过3D扫描物体,构建点状云,然后用点状云训练机器的算法,让机器能够辨识出这个物体。

图片发自简书App


(Point Cloud 示意)

但是,这种标准的技术,在室内适用,识别物体、人脸都很给力,却不擅长识别户外建筑。在户外,随着光线的变化,不但建筑反光的颜色和强度会变化,阴影会变化;此外,建筑物周围的行人、停靠的车辆,也会影响识别。

而计算机视觉技术,主要集中于应对这些挑战。算法专注于把握建筑的几何形状,而非整体和细节。也就是说,通过把握建筑的门、窗及主要结构,避开光线和干扰物的影响。

其实,“Alice Who”APP只是该科技公司推出的一款展示用APP。其真正的商业模式,是通过提供API或SDK为客户提供服务。

目前,目标客户包含三类。

第一类是地区搜索引擎,如Yelp、大众点评、Trip Advisor等,让这些搜索引擎的用户,能够非常简便的用手机摄像头识别周围环境,提供不一样的搜索体验。

第二类目标客户是品牌和公司,这些公司希望通过分析其用户在社交媒体上发布的照片的地理位置,来获得商业洞察。例如,这些公司的用户,通过社交媒体发布了自己的照片,但并没有注明拍摄地址。该应用帮助客户分析这个图片,告诉客户,这是什么地方,从而帮助客户分析其用户的行为模式和喜好。

而第三类,当然是国防和安全行业了。


客户群体的扩大必将伴随着技术难度的提高,那么该如何快速地进行图像识别呢?

通常,该应用会把用户通过手机摄像头捕捉到的图像,与数据库中的图像进行比较、匹配。那么,如何将一个图像,与云上的成千上万张图像比较, 并且快速、精准?背后的两个关键词是:数据库和标签策略。

数据库来源分为两类。对于一些客户,例如国防安全类的,客户会负责提供图像数据库。但也能够自己抓取公开网络上的图像,快速形成图像数据库。例如,Yelp,Trip Advisor等网站上,有用户上传的大量图片,包含了建筑外观,并有相应的地点信息。在制作“Alice Who”APP时,该公司建立了整个旧金山的商业类建筑的数据库,包括所有的餐厅、酒吧等,只用了2到3天的时间。目前,这个公开网络数据抓取的能力,还不是全自动的。下一步,就是研发能全自动的从浩瀚的网页上抓取图像,形成数据库的解决方案。

不过,如果每次都要将一个图像与云上的成千上万张图像比较、匹配,可能会减缓识别的速度。所以该公司配合使用了标签(signature)策略,让计算机算法根据某类标签,先进行预筛选,然后再匹配识别,以配合现有的电脑处理的条件。

例如,地址可以作为一种标签。当用户在某一个地点用摄像头捕捉图像时,用户的手机会上传地理位置信息就能根据这个地理位置信息,先筛选出数据库里附近的建筑的图像,再与用户手机捕捉到的图像进行匹配,从而更快、更准的得到结果。

数据库里关于被拍摄建筑的图像越多,就能越快、越准确的得到答案。对于小型的建筑,例如一个咖啡馆,只要云端数据库上有10到20张图像,Fringefy就能很准确的辨识出这个建筑。而对于中央火车站这样的大型建筑,大约需要500张左右的数据库图像。目前Fringefy能够做到的程度是,在80%的实验中,能准确的辨识出建筑,没有任何错误。

最后,谈谈它的潜力。

谷歌开创了一个时代。在那个时代里,谷歌将网络上的文字内容贴上标签(index),通过标签进行搜索,使得搜索引擎成为可能。而渐渐的,随着移动设备的普及,人们更多的开始在户外使用搜索引擎,而非在办公室和家里。并且,移动设备上的摄像机越来越强大,使得机器“看见”世界成为可能。

图片发自简书App

人们使用习惯的变化和硬件技术的前进,把我们推向了另一个未来,那就是视觉搜索的时代。在这个时代里,一切的图像、不管是平面的还是立体的,都可以被标注、被搜索。

这个未来还很远吗?No。就像一句有名的广告词:未来已来。在硅谷,大公司已经在大力投入,计算机图像识别的创业公司被收购、投资无数。在这里,投资者青睐的很多技术,都指向同一个目的,让机器更好的“看见”环境,并理解四周的环境。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容