自从托夫勒在1980年热情地将“大数据”称颂为“第三次浪潮的华彩乐章”之后,大数据历经了40年的发展早已渗透到了各个行业的方方面面。如果说谁在工业时代控制了石油,谁就控制了经济,那么在数字时代谁掌握了大数据,谁也许就掌握了行业发展的命脉。
虽然人人都知道大数据的重要性,但却很少有人能把大数据的全貌讲清楚。基于此,我们与星河研究院的5人团队在经历了两个多月的精心策划和资料整理后。在过往的8期节目中,我们已经为大家梳理了大数据产业的底层技术架构、数据分析、可视化、BI、机器学习等8类通用分析技术,以及企业服务、金融科技、工业、农业、生命科技等15个垂直领域的77家典型企业,客观公正地为你呈现了一幅大数据行业从技术到应用的全景图。
我们发现这些公司绝大多数都是由技术领域的专家和学者所创立,甚至很多人已经连续多次创立了明星企业,但是他们今天依然奋战在大数据领域的最前线,足以见得他们对大数据行业未来发展的乐观前景是多么坚定。本期作为海外大数据系列节目的最后一期,我们将会为大家介绍一下部分以大数据为“燃料”的海外人工智能通用技术类企业,它们使用的这些“黑科技”也许在不久的将来就会再次掀起AI应用的高潮,也希望这能对你有所启发。感谢你在这两个月的陪伴与支持,我们会在后期与你分享更多的深度行业报告。
以下,供你参考。
首先我们将AI技术、图像识别、语音识别这三个领域的典型大数据公司列举如下,接下来我们将分版块为你进行详细介绍。
第一 自然语言处理
自然语言处理(NLP)一直是AI技术中应用较为广泛的通用型技术,计算机通过大量数据及算法的“学习”,能够识别出听到的语言并进行需要的处理,这种技术在如今的语音助手、智能音箱,甚至冰箱台灯等各种设备中得到广泛应用。
Gridspace将这一技术的应用场景放进了会议室中,其产品Memo M1是一个可以放置在会议桌上的语音采集设备,只有当会议室有人说话时才会自动进行记录。如果用户在会议前事先在相应的应用中输入与会者信息的话,该设备还能够分辨出是谁在讲话。当会议结束后,它便可以自动将整理好的会议纪要通过电子邮件发送给与会者,与会者还可以通过人物或者话题搜索的方式重听某一段会议内容。
随着NLP技术的成熟,如何让机器在“听懂”语言的基础之上能够“表达”,又成为了科学家的追求。自然语言生成(NLG)技术便是在这一追求下的产物,这一技术潜力巨大,已经在自动写稿、自动化报告中得到了应用,节省了大量人力的同时能够做到真正的实时高效。
Narrative Science推出的Quill平台可以分析结构化数据,将人工智能与大数据进行技术融合,从而产生简短的文字表述或结构化的报告内容。此前Narrative Science的产品已经被媒体引用在了新闻稿件的撰写中,目前在财经报道等领域,包括 Forbes 等网站都已经开始与它建立了合作伙伴关系。
Narrative Science的最终目的还是希望将NLG用在BI方面,而不仅仅是写作新闻稿。未来自动读取数据并自动化分析后直接输出与人类语言习惯相符的数据报告将是其发展的一大目标。
Arria公司研制的“NLG 引擎”能够抓取并分析大型数据库,并用日常语言写成有用的报告。这种报告读起来就跟真人写的一样,并能够根据不同的受众调整其文体格式和内容。
2013年一家能源企业与Arria签署协议为其深水开采平台安装NLG引擎,此后各种设备产生的数据会被自动记录下来并进行筛选和分析,然后快速地通过NLG引擎以非常简单的语言形成报告,人们可以根据报告中所分析的问题来尽快做出应对。
同样在天气预报中,NLG引擎可以花费1分钟为5000个城市写出一份3天内的详细天气预测报告,而一个专业气象工作人员则需要整整六个星期的时间来完成同样的工作,并且这一报告还可以根据原始数据的变化而随时改变报告内容。
第二 图像识别
图像识别技术是AI的另一重要的通用型技术,目前图像识别的技术已经拓展到了视频等动态领域,安防企业据此能够做到对特定人的连续查找追踪,广告商可以通过视频分析从而有针对性的投放相关商品,自动驾驶汽车则需要去判断周围物体的类别从而采取应对措施。图像识别及视觉技术将会不断渗透到生活工作中,成为我们的“第三只眼”。
Affectiva公司的核心技术是情绪识别系统,通过人们的表情来分析判断出人的情绪是喜悦、厌恶还是困惑等, Affectiva搜集的数据越多则它能识别的表情也就越多,例如可以发现对方是否在假笑等。
Affectiva声称,基于对超过500万个面部表情的分析和训练,已经积累了120亿个情感点和超过10亿个面部表情。Affectiva情绪识别技术可助广告主和品牌以直接的方式分析视频广告或电影电视预告片的效果,找到消费者真正感兴趣的部分。零售技术公司Cloverleaf将其用于实体店的动态货架解决方案,通过捕获用户对货架上产品的情绪来决定进货种类及摆放方式。
Chronocam致力于研发新型视觉传感器和系统,其传感器技术的灵感来自于眼睛,能够高效获取并处理视觉信息。其技术特点是通过限制数据采集来发挥作用,系统会设法知道何时图片应该采集,何时不应该采集,然后就可以对传输的数据进行更低能消耗、更高效的视觉处理,这对于开发无人驾驶车辆的企业来说很重要,并且该技术可广泛应用于物联网设备、无人机以及机器人等。在车用市场,Chronocam的合作伙伴包括雷诺、日产以及众多的一级供应商,预计产品将于2018 年推出原型并在2021年上市。
第三 人工智能创新公司
除了上述的语音及图像类AI技术公司外,还有部分公司开发出了通用性较强的AI技术,服务于多个产品或领域,例如Salesforce就开发了AI产品Einstein,并将其嵌入到销售、服务、营销、分析、商业、物联网以及社区等云服务中,进一步提升企业服务软件的效用。
Einstein集成了机器学习、深度学习、预测分析和自然语言处理等功能,可以为销售人员自动匹配最有可能成为用户的电话号码。与此同时,Salesforce也将向开发平台App Cloud开放Einstein服务,以方便消费者开发自己的智能应用。
除了依靠海量数据和神经网络等技术所开发的人工智能技术外,目前市场中也存在着一些非常前沿的技术路线,例如结合了神经学和脑科学的强人工智能研发企业Vicarious、基于拓扑结构和脑科学的Nara以及基于大脑皮层活动开发皮质学习算法的Numenta等,目前也都取得了一定的成绩。
相比于采用传统神经网络的算法,Vicarious的系统拥有更快的学习能力,它采用了一种新的神经网络算法,在学习了一项信息之后能够预想这个信息在其它情景中是什么样的,这是一种人造的想象方式。Vicarious 已经证实,他们的方法能够开发一个十分准确的视觉系统,且效果惊人。
在2013 年,这一系统已能够破解 CAPTCHA(用于防止垃圾程序恶意注册账号的验证图片),嵌入 Vicarious 系统的这一反馈机制能让其在图片失真或者部分模糊的情况下,想象字符可能会是什么样的,这一模型的系统能够只用1406张图片作为训练集,就超越了利用深度学习800万图片达到的效果。
Nara围绕真实的神经突触规则进行抽象,利用脑电路计算的数学逻辑来设计新型的神经网络。其突触智能算法正在不断学习,并且随着新信息的添加而变得越来越聪明。Nara在学习如何帮助你的过程,事实上是在尝试模拟你的大脑的思维方式,所以你使用它越频繁,Nara就越了解你的个人喜好,推荐也就更加的精准。
Nara推出的最新服务为Naralogics.com,提供按需的个性化服务。通过该服务,企业可以使用现有的数据,或网络上的任何数据来源来进行推荐,此外企业也可以更好地了解用户行为和互动情况。例如,凭借该服务,网络出版商和电商网站可以向用户展示更具相关性的内容、产品和建议,而电子邮件营销人员也可以使用该服务去自动实现消息的个性化。
Numenta的创始人在霍金斯的分层时间记忆理论中构建了最初的架构(关于大脑如何在时间序列中存储数据的内存层),这种被称为皮质学习(CLA)的算法成为了Numenta代码库的基础。Numenta正在建模一层皮层,但只是模仿一个很小的一块,里面包含1,000到5,000个神经细胞。
IBM最近开始为一些实际任务测试Numenta算法,比如分析卫星图或侦测机械故障问题。Numenta之所以吸引IBM的目光是因为相比较其他人工智能软件,它更像人的大脑,现在IBM有一个100人的团队来测试该算法。
到此为止,我们与星河研究院已经对海外大数据产业进行了一个全面的介绍,并介绍了众多具有很高价值且具备借鉴意义的企业。下面的海外大数据地图,是星河研究院精选出的具有代表性的企业集合,部分企业在第二期到本期中有过介绍,受限于篇幅原因,还有大量企业资料及介绍会在本期附录中体现。
结语:随着移动互联网带来的红利增速不断放缓,产业互联网在国内外都成为了备受瞩目的领域,在互联网技术尚未完成对产业界的全面渗透时,互联网+大数据+人工智能三位一体的解决方案将成为大多数行业改造不可或缺的一环,我们也将对这一巨大的机遇保持长期持续的关注,在预见未来的同时更好的让大家把握住这一红利。