深入浅出AIOps——智能时代的新运维

今年是CNUTCon的第三年,极客邦科技InfoQ中国的第十年。有一些CNUTCon的老用户可能会看到,今年CNUTCon的主题和去年前年不一样,之前都是容器,而今年我们定位是智能时代的新运维。

要说原因也很简单,作为一家技术媒体,我们的使命是推动软件技术的发展,去年、前年我们看到了容器为运维领域带来的种种变革和创新,而今年,到这个节点我们看到AI可以很好地解决运维中的一些问题。

我们希望不管是极客邦科技提供的课程、视频、新闻、文章、直播还是会议,都能向整个的开发者社区提供最为前沿的理念和实践。

我们自己定位是一家内容驱动的公司,那我们怎么做内容了?这里我简单和各位分享下我们重点参考的技术采用生命周期模型。


简单来说,技术采用生命周期是一个用来衡量用户对某项新技术接受程度的模型,这个理论最早源于1943年对玉米新品种的扩散行为研究,而后1962年因为《创新的扩散》一书的出版逐渐变得流行起来。

这一曲线将用户采用新技术的过程分为五个阶段,分别包括创新者、早期采用者、早期大众、晚期大众与落后者。简单来说,一个技术从开始到最后流行都会逐步经历这五类人群,比如一开始的创新者,在新技术来的时候,他们只要觉得东西不错,就会毫不犹豫的采用。但越往后走,大家越保守。 任何一个产品从面世,到最后发展成熟,都会经历这些人群,以及这些发展阶段。比如OpenStack的发展。

图中大家可以看到,在早期采用者和早期大众之间,有一个巨大的鸿沟,很多技术很多产品也都是因为没有走出这一个跨过这一鸿沟而消亡,也有的人叫它死亡之井。所以InfoQ重点关注的是前两个阶段的技术,我们通过会议、线上内容、课程等来报道这两个阶段的技术,希望能够被更多的用户知晓并采用,以帮助这些技术跨越鸿沟。

所以简单来说,我们做内容时参考的模型就是这个技术采用生命周期模型,我们关注处于创新和早期采用阶段的新技术,以帮助他们跨过死亡之井(Chasm)。

在这里,我也总结了从我们看来的运维领域重点的几个技术。他们都还没有跨越鸿沟,我们也是在重点关注这些技术点。

接下来,我结合今天的主题,和大家重点聊聊AIOps。前面和大家介绍了这么多,就是想告诉大家我们做内容的思路,以及为什么我们要定智能时代的新运维这个主题,是因为我们的编辑从中看到了一些发展趋势。

前两天,我在微博上和一个粉丝还讨论,它说为啥你们又搞出一个新名词,上一个新名词DevOps我还没消化明白了。我说,这不是新名词,我们相信AIOps是运维发展的必然趋势。如果我们不抬头看路,瞄准未来,那可能就是井底之蛙了。

为什么这么说了?我们先来回顾下整个运维的一个发展历史,运维人员一开始的称谓其实是系统管理员,然后逐步过渡到后来的运维,再后来又有了DevOps或者SRE的称谓。我们其实可以看出来,这些年,随着互联网技术的逐渐成熟,企业对于运维的能力要求越来越高,整体来说,就是要让运维具备开发的能力。

为什么会有这样的趋势呢?我认为是整个互联网应用的运维越来越复杂了,动不动就是几万个应用,几个9的可靠性,运维管理的复杂度和难度成倍数的增大,业务的告诉发展倒逼运维的迭代。

这些年,运维平台的演进我觉得大体是这样的:

这两年炒的比较多的概念还有一个就是自动化运维。借着这个大会,我采访了很多自动化运维的团队,也都问了大家说这么多年自动化运维实施下来,都解决了他们哪些问题。得到的答案出奇的一致,基本围绕在效率这个词上。

记得在2001年的时候,Gartner Group有一个调查显示在IT项目经常出现的问题中,源自技术或产品(包括硬件、软件、网络、电力失常及天灾等)的问题只占20%,但流程失误方面却占40%,人员疏失方面也占到了40%。

这些年来,企业通过自动化运维平台以及DevOps等协作理念其实是逐步在解决了Gartner提到的流程失误和人员疏忽相关的80%的问题。虽然目前没有具体的统计数据,但可以确认的是,这一问题得到了有效解决。

但另外一个值得注意的点是当前的IT项目基础设施环境与5年前已经没有办法同日而语,更不用说10年前。近几年,随着云计算、微服务等技术的流行,以及互联网业务的迅速发展,运维人员要关注的服务数量也呈现了指数级增长,自动化运维虽然提升了效率,解决了一部分问题,但也遇到了新的难题,比如面对繁多的报警信息,运维人员应该如何处理?故障发生时,又如何能够迅速定位问题?

这个时候,恰好历史进入了人工智能时代,那上面的这些问题可否通过『AI + Ops』的这种跨界创新的方式来解决呢?于是Gartner在2016年时便提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。简单来说,AIOps就是希望基于已有的运维数据(日志、监控信息、应用信息等)并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。

如果说要下一个定义的话,我认为是这样:

那紧接着又有一个问题,人工智能需要有数据,AIOps的数据从哪里来?我想各位也一定能列举出很多,比如各种各样的监控数据、各种各样的日志数据,各种各样的硬件数据。总结起来,有这几类:

当然,这不是我凭空说的,这是百度同学总结的,晚上我们有AIOps的圆桌讨论,到时候可以过来聊聊。

你肯定会问,说AIOps有怎么样的应用场景呢?这里我来说几个例子,阿里巴巴很早之前就在利用机器学习的方式来预测磁盘故障,而百度的智能运维,这个一会百度AIOps的同学也会分享,应用也非常广泛,包括性能优化、故障分析、流量调度等等。

那现在有哪些AIOps的落地实践呢?这里我分享一下我看到已经开始实践的企业,并且在网上能查到相关资料的。供各位参考。


http://www.infoq.com/cn/minibooks/AIOps-indepth

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容