2015-7-17 Netflix使用的异常服务器侦测技术

凌晨,时针指向两点,我们技术保障团队一半的人手还在追查Netflix出错的原因。系统看起来运行还算正常,肯定是有哪不对但我们死活也找不着。查了一个小时,终于发现原来是数据中心里一台服务器出了问题。我们一直在查找有没有什么特别明显的问题,而且数据中心有好几万台服务器,所以把这个小淘气给忽略掉了。

连续剧《夜魔侠》里面的主角是个瞎子,但其他的感官异常灵敏。这使他可以察觉到某个人行为上的些许异常从而判断出这个人是否在撒谎。我们也开发了一个系统来发现服务器之间细微的差别,差别虽然小,但可能就是这些小的地方出问题。

本文中我们将介绍这一自动异常侦测技术和问题服务器的修复。多亏了它,不然我们恐怕得整天半夜爬起来救火。

现在运行Netflix服务的有好几万台服务器,一般出问题的比例不会超过1%。比如说有一台服务器的网络出了点问题导致用户的连接出现了延迟。虽然运行状态不理想,但在服务器健康检查中是看不出来的。

其实这种有问题的服务器还不如直接挂掉。起码挂掉的话现有的监测系统和工程师能够发现它挂了。现在它虽然没有挂,但影响到了用户的体验,我们的客服还是一样要接电话听用户的抱怨。也不知怎的,几万台服务器里总有几个要出问题。

图中不同颜色的线代表某个服务器的错误率。每条线都有峰值然后掉回到零,但紫色代表的这台服务器错误率一直高于其他服务器。从图中你能看出紫色代表的服务器有异常吗?有没有办法使用这些时序数据来实现异常侦测的自动化呢?

有一种简单的方法是设置一个阈值,错误率高于阈值就报警,但只适用于错误率特别高的服务器而且这种方法有一个问题就是所有数据都会有尖峰所以可能误差会比较大,下面的图中我们就很难找到一个合适的阈值,此外使用的阈值也需要定期进行调整因为服务器集中使用的时间和负载都可能出现变化。我们提高系统可靠性的突破点就是自动侦测那些有问题但用阈值法发现不了的服务器。

为了解决这一问题我们使用了聚类分析算法。聚类分析算法的基本原理是将相似程度高的样本归到一类。这一算法是非监督式的所以我们不需要进行数据标记和提供数据。具体的聚类分析算法有很多种,这里我们使用的是Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。

DBSCAN算法原理

DBSCAN算法是Martin Ester、Hans-Peter Kriegel、Jörg Sander和徐晓伟在1996年提出的,可以说是聚类分析的典型算法。DBSCAN遍历所有的数据点,如果有很多相邻的数据点的话就归为一类。为了在DBSCAN算法中衡量数据点是否相邻我们需要一个判断距离的方法。这里可视化了DBSCNAN算法运行的过程,如果感兴趣的话可以看下。

使用DBSCAN算法寻找异常服务器

要找出有异常的服务器,我们先要指定一个指标,比如之前我们提到的错误率。接下来就要收集一段时序数据并使用DBSCAN算法来进行处理找出发生异常的服务器。比如下面这幅图中涂成粉红色的就是从Netflix时序数据平台中收集的部分。

除了测量的指标,我们还需要指定将服务器标记为异常的最短持续时间。探测到异常之后就交由我们的报警系统来进行以下处理:

发邮件或者打电话联系负责人

服务器下线但不停止

收集服务器数据以供进一步调查

停止服务器等待扩展系统进行替换

参数的选择

DBSCAN算法中需要设置两个参数:Eps和MinPts。意思分别是判断数据点是否相邻的半径和定义一个集群所需要的数据点的最小个数。这里我们的参数是根据现有的异常服务器数目使用模拟退火算法逆推出来的。这种逆推的方式简化了参数的设置所以现在Netflix有好几个项目组都在用我们这个系统。

为了对这个系统的有效性进行评估,我们已经在生产环境中进行了测试。我们一共收集了一个星期的数据,然后将人工识别出的异常服务器与算法识别出的异常服务器进行了对比。下面是测试的结果

这个结果显示我们这个侦测系统虽然不是100%准确但是效果很不错了。根据我们的自身情况来说也不用完全做到一点都不差,因为就算把一个正常运行的服务器给关掉了也不会对用户体验造成多大影响,因为扩展系统马上就能加一个新的服务器进来。有这个侦测系统总是比没有强吧哈哈。

现在我们的做法是收集一段时间的数据来进行侦测。因为不是实时侦测,所以效果就跟收集数据的时间长短有关:时间太短的话可能有噪音,太长的话侦测的速度又太慢。如果要对这套系统进行改进的话,可以考虑使用实时流式处理框架比如Mantis和Apache Spark Streaming。数据流挖掘和在线机器学习方面的研究也有一些进展所以如果你想建设一个类似的系统可以考虑下。

此外在参数的设置上也可以进行改进。可以进行数据标记来组织训练数据并根据提供的训练数据来对模型进行训练,这种方法比我们现在用的逆推更好而且模型可以根据训练数据的变化来重新训练。

小结

Netflix的基础设施变得越来越庞大,将运营中的某些决定(比如这里的停止服务器)进行自动化可以提高可用性并减轻运维人员的负担。夜魔侠的服装能帮他打架,机器学习也能够提高我们技术保障团队的效率。侦测异常服务器只是自动化的一个例子,其他可以自动化的机会还有很多,就留待大家去发掘吧。

英文原文:Tracking down the Villains: Outlier Detection at Netflix(译者/刘旭坤 审校/朱正贵 责编/仲浩)

【预告】首届中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容