企业大规模部署机器学习模型的困境

作者 | Justin Gage

译者 | Sambodhi

编辑 | Vincent

AI前线出品| ID:ai-front

AI 前线导语:“尽管人工智能正在被广泛应用,但大规模部署基于 AI 的产品如此之难,不过,一些新技术正被寄以厚望改变这一现状。

基石风投合伙公司研究人工智能、机器学习的分析师、美国纽约大学的前数据科学家 Justin Gage 不久前写了一篇文章 [1],为我们讲述了机器学习的部署和建模的不同之处,以及在公司中部署机器学习的困境,并介绍了 Algorithmia 公司在解决这一难题的优势。Algorithmia 是一个非常有趣的平台,它用 App Store 的模式为“算法”量身打造了一个类似的应用商店,让开发者可以到这个商店里发布自己的算法,或者寻找并购买自己需要实现的算法”。

以下是作者 Justin Gage 的声明:

我并非 Algorithmia 雇员,与该公司亦无任何利益相关。作为具有数据科学背景的数据科学家,我仅仅是为了本文观点找到一家令人信服的公司而已。

毫无疑问,我们已经迈入了人工智能时代,机器学习几乎渗透了我们日常生活和工作中所有的方方面面。受到日益创新的数据存储和计算能力的驱使,上世纪 70 年代诞生的神经网络闪亮回归了。医疗、安防、客服、欺诈检测,但凡你能想到的,都有资金雄厚的公司正在通过机器学习来提高和改进上述问题。很有可能,你正是通过 Medium 基于机器学习的推荐系统发现的这篇文章。

机器学习似乎因为任何理由都能很好地解决一系列问题并立竿见影。你甚至称之为一场革命。

创建深度学习模型越来越容易,但大规模部署却依然没有这么容易

数据存储和 Nvidia 的兴起无疑推动了这种革命,当今机器学习的另一个推动力就是你可以轻松地创建有效、精准的模型。机器学习正在显著的抽象化:新的工具使 AI 落地比任何以往时候都更容易了。[2]

除了像 Clarifai 和 Indico 那样为特定任务提供功能丰富的 API 的私人公司外,在流行的数据科学语言(如 R、Python 等)中的第三方工具包生态系统呈现飞跃式发展。2015 年 11 月,Google 发布 TensorFlow 初始版,从那时起它的发展势头异常迅猛(已经很流行的 ScikitLearn 除外)。对数据科学家而言,在测试环境中创建复杂模型已经方便多了。

遗憾的是,这种方便并没有脱离赖以发轫的 iPython Notebook。这是因为机器学习模型在生产环境中工作,与它在你电脑上工作相比,是非常不同的任务。部署模型意味着模型被大规模调用时,以你想要的方式进行工作。创建理论上精确的模型是无用的,如果它们一旦开始为客户提供服务就崩溃的话。

你要迎接全新挑战,你需要担心的是,掌握一套新技能,以及衡量你成功的不同指标。

部署与创建模型非常不同,无论公司大小,它都非常困难

就像分布式应用一样,部署机器学习模型极其困难,是跟构建模型完全不同的任务。体现在以下几个方面:

人员的不同:由数据科学家和机器学习研究人员完成模型构建,而部署则由软件工程师、机器学习工程师和数据工程师来完成。

指标的不同:模型构建的目标是创建能够准确预测的模型,而部署的目标是快速、可靠的预测。

场所的不同:模型构建通常由多人在多台虚拟服务器上完成,而部署模型需要具备扩展的能力,能够处理极为海量的 API 请求。

这些区别反映了部署模型和构建模型有所不同。这也是很难做到的,因为涉及到不同的技巧、优先级和能力。假使你最精准的模型需要很长时间运行将会怎么样?如何用新数据更新模型?如何通过跨地域多元化来优化速度?

无论公司规模多大,都会受此问题困扰。部署对那些希望开发和运行机器学习模型产品的初创公司来说,简直就是一团乱麻。招聘合格的软件工程师和数据工程师本就是一个巨大的挑战了,再让一款产品落地就更为困难,你的恢复能力还取决于使模型运行的那些人。数据科学家所掌握的技能为你创建精准的模型,但却无法大规模部署模型。

这个问题并不会随着你公司的发展而变得容易,事实上,在某些方面,这个问题在企业中最为明显。数据科学团队开发有效的模型和产品,但他们需要让这些运行及具备可扩展能力,这就意味着需要其他工程团队加入,而他们并不一定拥有合适的背景。然而,数据科学家还得依靠他们来正确地移植模型、调整参数、确定批量大小。等他们的团队克服机器学习部署的挑战后,时间可能已经过去四个月或者更久,而且模型与数据科学团队最初构建的样子或者运作完全不一样。

总之,很多初创公司无法解决这一令人头疼的问题,很多企业同样也束手无策。针对部署问题的普遍解决方案之一是使用某个平台,但这些平台对多数公司并不适用。本质上来说,你要保存自己的数据,但要使用 API 快速构建驻留在供应商的服务器上的脏模型,它们给你扩展模型,你还要操心如何使这一切良好运作。适合此类需求的平台有 BigML、Seldon。

不幸的是,取决于它们的构建方式,这些平台部署并非总是有用:如果你公司构建了大型的机器学习相关产品,你就无法将模型迁移到第三方平台上。你想创建自己的复杂算法,不管它们是 TensorFlow 还是别的什么其他平台上的神经网络。

造成这一现状的根源就是没有哪个产品解决了“最后一公里”的问题:根据自己的需求开发模型,同时维护好剩下的部分。谢天谢地,事情正在改变。

Algorithmia 提供部署服务,解决“最后一公里”的难题

Algorithmia 发布新产品来解决这一问题,但遗留了一个问题:建模和数据仍然由数据科学家掌握。这款产品名为 Enterprise AI Layer,它本质上就是对机器学习部署进行自动化的开发运维,让你专心致志构建伟大的模型和产品。

Enterprise AI Layer 涵盖了可扩展部署解决方案所有的基础问题。它和云无关,可以根据你的需求进行扩展,并允许你选择使用 CPU 或者 GPU,有着非常低的延迟。Algorithmia 的平台也适用于开发运维人员:它有详细的仪表板,能跟踪所有的指标,确保部署符合客户要求。

Google 工程和人工智能副总裁 Anna Patterson 表示:

作为一个多年设计和部署机器学习系统的人,我真是被 Algorithmia 的无服务器微服务架构所折服。对想规模化部署 AI 的公司来说,这是一个很棒的解决方案。但是,除去技术规格之外,Algorithmia 的 AI Layer 也很重要,因为它改变了公司考虑机器学习的方式。现在,机器学习就像任何应用一样,在你发送新数据并预测之前,你需要处理所有的基础架构。就像一个 API 调用 Yelp 的应用那样,你的 API 可以调用你的模型。这就是应用程序的类型,意味着你的团队需具备应用部署的技能。

现在情况不一样了,因为你的团队可以专注创建优秀的模型,而不是考虑它们在基础架构上如何运作。这是无服务器通过 Google 的 BigQuery 和 Amazon 的 Athena 来完成数据存储的模式:允许公司专注数据分析,无须考虑复杂的存储数据技术问题。赖以获取利润的数据分析是从数据存储中抽象出来的,现在,建模也可以从部署中抽象出来。

这真是帅爆了:这意味着更多的点子可以转化成产品,更多的产品可以打破特大型工程团队和公司积压带来的单调。这意味着作为一名数据科学家,你可以做你真正想做的事情:专注构建卓越的想法和模型,而不是如何处理后端的管理。我认为,这是一件幸事。

参考资料

[1] The missing part of the Machine Learning revolution

https://towardsdatascience.com/the-missing-part-of-the-machine-learning-revolution-91e58b3427ef

[2] Machine Learning Abstraction And The Age of AI Ease

https://machinelearnings.co/machine-learning-abstraction-and-the-age-of-ai-ease-f3274bb9e0c1

-全文完-

人工智能已不再停留在大家的想象之中,各路大牛也都纷纷抓住这波风口,投入AI创业大潮。那么,2017年,到底都有哪些AI落地案例呢?机器学习、深度学习、NLP、图像识别等技术又该如何用来解决业务问题?

2018年1月11-14日,AICon全球人工智能技术大会上,一些大牛将首次分享AI在金融、电商、教育、外卖、搜索推荐、人脸识别、自动驾驶、语音交互等领域的最新落地案例,应该能学到不少东西。目前大会8折报名倒计时,更多精彩可点击阅读原文详细了解。

http://t.cn/Rl2MftP

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容