淘宝参数服务器实践之路

数据

当今我们正处于一个大数据时代,Google每天产生30亿查询、300亿Served广告、30万亿indexed网页;FaceBook目前全球超过14亿用户,每天分享43亿内容;推特每天产生4.3万亿Tweets;Apple Store每天App下载量达到1亿左右。国内的互联网公司,阿里巴巴一年产生86亿包裹,平均每天2356万个;蚂蚁金服/支付宝在2015年双十一当天共产生7.1亿笔支付。
这么多数据如何才能有价值地将其利用起来呢?
设计理念

理念

用户在不同场景下有不同的响应,结合这些数据通过机器学习得到模型,然后进行智能决策,如个性化推荐、搜索个性化等。上图中显示的监督学习的案例,监督学习通过搜集大量用户的日志、用户行为,然后抽取成特征,然后将特征送入机器学习系统中,系统通过一定的方式得到相应的模型。一个用户到来之后,对用户特征进行提取,将用户特征送入模型中,得到预测结果。例如记录用户的点击。购买、收藏等行为,经过模型的预测,根据用户之前的偏好,进行个性化推荐。
大数据带来的挑战
挑战

大数据给机器学习带来机遇的同时也带来了相应的挑战。第一个挑战是模型会非常大,谷歌的大型机器学习系统Sibyl,五年前的训练数据在1T到1P左右,特征级别达到百亿到千亿级别;样本同样是百亿到千亿级别。
大数据与大规模模型结合
模型

如此大的数据和如此大的模型如何进行结合呢?思路是采用分布式学习系统,结合算法和系统两方面入手。
正如上文所提到的,在大数据上,利用机器学习从中学习到知识,是人工智能取得突破的主要手段,也是系统架构师面临的重要挑战之一。很多的模型和抽象先后用于解决这一任务,从最早期的MPI,到后来的MapReduce,再到当前使用较多的Graph、Spark等。
分布学习系统包括两大模块:模型和分布式系统。其中模型需要解决训练和正确率的问题,分布式系统需要考虑并行、网络、慢机、故障处理、调度。
系统学习

如上图所示,分布式学习系统将两者的复杂度结合起来。每一个维度和算法都有融合、交叠。在网络方面,需要考虑网络的通信效率,因为模型非常大,如果直接预发会造成网络的巨大负担,如果有些流量不发,又会影响训练和模型的正确率。
慢机方面,在数千台机器中,肯定会存在机器处理速度的差异,如果采用完全同步的方法,迭代的速度是取决于最慢的机器,这就造成了资源的巨大浪费。第三故障处理,数千台机器中一定会出现机器挂掉的现象,机器挂掉之后如何让训练继续进行,获得正确的训练模型这也是一个非常大的挑战。
工业界现有系统的不足
首先看一下现有工业界系统的缺点:
MapReduce:迭代式计算低效,节点之间通信效率不高;
MPI:无法支撑大数据,任意节点挂掉,任务就失败;
Graph:用图来做抽象,类似深度学习无法高效求解,只能同步,不支持异步;
Spark:通用框架,高维度和稀疏数据支持不够;

综合考虑模型训练正确率、故障处理、慢机等因素,性价比高的选择是参数服务器(Parameter Sever)。
大规模机器学习框架-参数服务器

学习框架

参数服务器是机器学习的核心竞争力和技术壁垒之一,之所以这么说是因为:首先,它需要使用大数据(1T-1P)快速训练、快速迭代优化;同时需要考虑failover、通信/计算效率、收敛速度等多个特性。
在之前的分析中,阿里巴巴的ODPS中的MPI为例,统计了MPI中的Job的成功率(上图所示),当Work数超过1000时,成功率低于30%,从而导致稳定性很差,浪费大量的资源和费用。由于存在稳定性和成功率等问题,我们自己设计了一套参数服务器框架。
服务器

框架的大致结构如上图所示,包括三大模块:Server Node、Worker Node、Coordinator,分别用于模型分片存储、数据分片存储和总体流程控制。该结构相对于MPI的优势在于:
内置Failover机制,稳健性大大提升;
架构中有多个Server,模型的可扩展性非常强;
完美支持同步和异步,可以达到更快的收敛速度,同时不影响模型的精度;
同时在稀疏性的上支持,让worker和server节点在通信效率上大幅度提升。

server

参数服务器具体框架
具体来讲,Coordinator主要进行迭代控制,同时完成Failover管理,当Worker或Server挂掉时,由Coordinator进行处理;当Worker、Server和整个Job都失败的情况下,通过Checkpoint机制,在下一次启动时从上一次保存的中间结果继续前进。
Sever本质上是分布式Key-value存储系统,它将一个非常大的模型,通过一致性Hash切成多片,在多个Server上分担压力,进行模型分片。
Worker是将数据源的不同行加载到不同的Worker上,实现数据分片,同时通过计算接口完成梯度计算。
参数服务器

Worker和server通过Pull和Push两个接口进行通信,完成模型的迭代更新。Push主要是将worker上的Weight推到server上,从而节省大量的流量,提高网络利用率;server更新之后,worker通过Pull动作从server上拉去Weight到本地。
Sever更新策略
Server有三种更新策略。
完全同步更新策略

同步更新

第一种完全同步更新,图中所示的机器1和机器3虽然很早就完成了Iteration,但由于机器2是慢机,所以机器1、机器2、机器3需要等待最慢的机器完成iteration,才可以与server进行通信,这中间存在大量的资源浪费,但也有一定的优点:收敛性很好,多次运行后模型差别不大,同时还便于调试。
完全异步更新策略

异步

第二种更新机制完全与第一种更新机制相反:完全异步更新。完全异步是说机器1、机器2、机器3随到随走,三者之间互相不可见,唯一的交互点是Parameter Server。这种更新策略的效率非常高,各机器之间没有任何等待。同时也会带来一些问题,收敛很困难。
有界异步更新策略

异步更新

第三种更新策略介于完全同步和完全异步之间,称之为有界异步。有界异步可以从机器1和机器2上看出,最快的机器不能比最慢的机器快太多,两者之间有一定的界限。通过这种机制提高模型的稳定性。
参数服务器在算法上的优化
逻辑回归是一种线性回归模型,在分类上应用广泛,通过logit函数将线性回归的值限制在[0,1]范围内,增强了模型的鲁棒性。在工业界应用较多的是稀疏逻辑回归,通过L1正则化构造稀疏模型,具有简单、实用、可扩展、特征操作性强等特点,适合大规模问题,同时应用场景非常丰富(如点击率估算),是应用非常广泛的机器学习模型。
如何结合Parameter Server对逻辑回归进行改进呢?
目前,我们实现了超大规模的CTR预估算法,结合Server的更新动作,实现同步/异步的控制。
在算法优化方面:
应用Proximal算法,进行二阶、异步Filter,提高了效率;
开发增量学习,提升模型利用更长历史窗口数据的能力。

全链路优化方面:
稀疏化、特征序列化加速、慢机处理、次要特征过滤(screen rule)等。
通过上述机制,最终实现提速超500%,支持千亿级别样本跟特征的效果。
逻辑回归与在线学习结合
在线学习是工业界常用的另一类算法。在线学习是指每来一个(批)训练样本,就用该样本的梯度对模型迭代一次,时效性较好。
那如何通过Parameter Server对在线学习进行改进呢?
目前,我们实现了超大规模在线机器学习算法(异步FTRL)。通过有界异步ASGD提高效率,同时模型的收敛性有较强的保证;同时基于mini batch的稀疏通信,在百亿特征下,每个mini batch通信为毫秒级别;此外,在模型中加入类似Trust region的方式,提高模型稳定性。
最终达到100亿/100亿样本几十分钟内就可以收敛的效果。
算法大规模扩展
除了在线和离线之外,还有一些大规模的算法扩展:
深度学习,通过在参数服务器上支持深度学习,形成了通用的深度学习框架,扩展性很强,例如,通过从大量click log中学习,提高搜索相关性的DSSM模型加DNN语义模型。
其他常用算法,包括LTR的GBDTLambdaMART、GBRank和NLP的LDA、Word2Vec等等。
提供了通用SDK,用于降低门槛,便于开发各类算法。
典型应用场景

应用

第一个应用场景是支付宝钱包内的刮刮卡业务,蚂蚁会员在支付宝客户端内转账到卡、缴费、余额宝转入、信用卡还款等场景下,使用支付宝支付,都能获得一次刮奖机会。
这其中的实现过程是基于大规模学习平台,通过协同过滤、监督学习、特征迭代优化,来满足用户个性化需求,提升用户体验。
阿里妈妈

在阿里妈妈的应用主要是阿里妈妈直通车搜索广告。计算广告学的核心问题就是在给定的环境下,用户与广告的最佳匹配。它的传统实现方法是通过机器学习和历史数据,进行精准的CTR预估。
结合上图来看,当搜索鲜花时,界面右侧和下侧会显示掌柜热卖的广告,通过采集大量的用户特征、广告特征和场景特征等交叉特征,通过加大特征和样本规模,同时算法和系统协同提升,基于大规模机器学习平台,提升CTR。
未来展望
不论是人工智能还是其他前沿技术,都离不开高质量的数据和强大的计算平台以及高效的算法平台,需要三者协同提升。未来的发展方向主要集中在以下三个方面:
1.支持更多的通用模式,如Graph及其升级版。
2.正确率和效率的折中,是否可以进行采样丢弃部分数据?是否可以通过更好的异步算法充分利用数据?是否可以简化算法本身,更好的适配参数服务器框架?
3.是否需要更加通用化的DataFlow,支持多种软硬件平台,降低大规模机器学习的门槛。
本文根据蚂蚁金服的资深技术专家周俊在蚂蚁金服&阿里云在线金融技术峰会上《大规模机器学习在蚂蚁+阿里的应用》的分享整理而成。
文章来源:36dsj
深度阅读:基于spark的参数服务器开源实现

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容