写在最前:这篇稿子困扰了我很久,我想了很多,但最终表达出来只有一点点。
许多事情可能都是这样,你付出了很多,但最终展现给别人的,可能还不到十分之一。
于是许多人会说——“好简单”。殊不知这三个字代表的,可能只是冰山一角。
能把复杂的事情变简单,这本身就代表了强大的能力,至少目前的我还做不到。比如,我总想把稿子写得简单点,但总会很啰嗦,下笔千言,离题万里。
再比如咱们今天要说的IT运维。这其中包括了太多的系统,太多的软硬件协调,也需要太多的人力、物力投入,想要“变简单”绝对不是一件容易的事情。但是这并不代表着“简单”不可行,也并不能阻挡许多人苦苦的探索与尝试,并且取得一些成就。
一、
IT运维是件苦差事。
如果这个世界上有“挣着卖白菜的钱,操着卖白粉的心”大奖评选,我相信IT运维一定能够入围。每隔几个月,我们总能够收获这样的信息——某云平台瘫痪,因为光纤线缆被“临时工”挖断;某某网站数据丢失,因为“临时工”误删核心数据库;某某某单车APP无法运行,因为高峰期服务器压力过大……
每当这个时候,IT运维人员都是冲在第一线的,而且经常会24小时工作,不眠不休。如果说,7*24*365是数据中心运维基本要求的话,那么对于那些负责运维的人,情况也大抵如此。
IT运维人员都有两面,一面是“救火队长”,另一面就是“背锅侠”。在我们刚才列举的几个事件中,无论是人为问题还是系统问题,最终免不了成为“人”的问题,而这个问题的解决,就依靠IT运维人员来实现。
抛开挖掘机弄断光纤这种小概率事件;抛开所谓“误删”数据库,顺手还“误删”了备份文件的主观动因不说,类似这种人为的故障都是可以避免的,也不是IT运维的常态。更多的时候,系统无故宕机、网络流量逼近极限、服务器无法访问等事件才是大家经常遇到的情况,也亟待解决。
海量告警信息处理不及时、没有可靠的自动化运维手段、缺少直观的运维大数据可视化工具,这三者可能是IT规模迅速提高、IT环境越来越复杂的当下,运维部门最常遇到的问题,也是最希望解决的问题。原本,IT运维还只是企业管理的服务和保障部门,很难受到重视;但是伴随着数字化转型的深入,以及云计算、大数据技术的广泛应用,当街头卖早点的小贩都在利用微信支付收款的时候,传统两地三中心的集中式、重耦合IT运维理念已经无法满足互联网用户敏捷、高效的需求,自动化、智能化的呼声越来越高。
“那时候运维就是体力活,大家戏称干运维的都是搬箱子、搬服务器的……运维其实非常简单,主要是依赖于人工巡检,比如通过状态灯看服务器或者硬件状态,哪个地方坏了换一个”,云智慧CEO殷晋(Andy)说。
二、
相对于印象中那种CEO来说,Andy显得平易近人得多。在采访之前,我也曾试图在网上搜索一些与他相关的信息。不过这些信息大多是2014年或者2016年的,所谈论的也多是与APM相关的内容。似乎在此之后,Andy就变得越发低调了。
“每年我都会花很多时间跟很多企业的CIO们聊,了解他们目前的需求和业务情况,并把最有价值的需求整理出来,在我们的产品中予以实现。从2016年开始,这些成果逐渐形成了云智慧业务运维的理论体系和框架,更为惊喜的是,这套体系居然与Gartner目前所倡导的AIOps概念不谋而合,当然人家的系统逻辑更为严密。”在采访中,Andy表现得非常坦诚。
为了清晰表述云智慧业务运维理论框架,Andy通过画板为我们勾勒出这套理论的形成过程。“广义的IT包括三个层面,硬件、软件和数据。当然对于云智慧来说,我们觉得用户应该在这些层面之上,我们做的所有事情都是来自于用户和客户的真实需求。”一边说着,Andy一边飞快的画出了这幅图。
在底层硬件和IT基础设施层面,传统运维遵从ITIL管理体系,使用的是ITOM/ITSM管理工具,总结起来无外乎“监控”两个字。对于“监”来说,主要是识别服务器、存储、网络等基础设备的运行状态,进行监视;而“控”则是对已经发生的故障进行处理和修复。
正因为ITOM市场存在的时间最长,所以竞争也最为激烈,堪称红海。不仅有很多专业的运维管理软件厂商,一些服务器、存储和网络设备厂商也都有自己的监控系统与解决方案,比如大名鼎鼎的IBM Tivoli,HP Openview等。由于传统运维主要是“搬箱子”之类简单、繁琐的工作,所以更多的企业都向上寻求业务空间,这样就来到了软件层。
三、
相对于硬件平台监控来说,软件的应用场景更为广阔。这个层面的主要表现形式是各种应用、系统组件、中间件等等。而针对应用性能的诊断和管理,如今最流行的解决方案就是APM。所谓APM,即Application Performance Management ,包含Web应用(网站)监控、移动(APP)应用监控、API接口健康检查及监控、应用拓扑关联分析和业务性能诊断等。
作为在中国市场涉足APM领域最早的公司,云智慧在多年之前就以用户体验为核心指标,推出了端到端APM解决方案,通过覆盖全部技术栈的应用性能指标的采集、分析和统计,为用户提供更加便捷、更优成本、更高质量的应用系统监测与前瞻性数据分析,持续提升应用产品的开发、运维和运营效率。在Andy看来,“APM服务能够帮助开发和运维人员深入到系统黑匣子之内诊断和发现问题,极大的提升了运维工作效率,加速了产品迭代周期,让企业能够将更多资源投入到更加擅长的业务领域”。
由于APM有较高的技术门槛,在很长一段时间内,像云智慧这样的APM厂商仅仅有三四家。但是随着云服务被广大企业所接受,应用的作用和价值愈发凸显,越来越多的传统运维管理厂商和B2B创业者投身APM领域,整个市场已经从蓝海转变为红海。为了迎接新的挑战,Andy又在思索着更多的出路。
于是有了业务运维。
四、
前文提到,每到年终岁末,Andy的一项重要工作就是找各大企业的CIO/CTO沟通、交流,以此确定未来的发展策略。这部分用户在IT用户划分中是最高端的,也是从整体层面把控IT发展的人群。随着IT在企业内部的地位不断提升,CIO们需要更加贴合业务的数据分析、更加直观的结果报告与指导性的解决方案,而不是简单的一个新产品或者一项新技术。
“从硬件到软件、再到数据,IT层次越高越抽象了,十年前或者几年前很少有人会从用户和业务数据的角度考虑IT的事情,而最近几年大家在这个层面看问题,找方向”,说到这里,Andy有些激动。恰恰是看到了如此强烈的客户需求,云智慧才能从产品的层面更进一步,从监控宝、透视宝的具体产品中升华出来,以业务数据和IT数据为蓝本,为企业客户提供更有价值的业务运维解决方案。
“现阶段的CIO们会更加关心客户满意度怎么样,业务线收入怎么样,用户转化率怎么样。而IT系统是什么样子,有没有问题;如果有问题,原因在哪里;IT部门怎么能够更快的发现,怎么能够更快的修复?这是业务运维平台干的事”。
这也就是云智慧业务运维架构的逻辑。相对于传统聚焦在一个功能点或者一条产品线的视角,业务运维从业务的全局角度自上而下考虑问题,这也就帮助管理者能够分辨轻重缓急,酌情处理IT问题——对业务影响严重的问题必须第一时间处理,而不影响业务的问题完全可以放一放。
Andy将云智慧的业务运维的IT价值概括为八个字“监控、发现、报警、处置”,相应的云智慧也为此付出了八年的时间。在运维的早期,比如2010年左右,那时候运维工具还仅限于“监控”和“发现”的层面,也就是我们说的基础设施层面。随后伴随着CMDB、伴随着NPM和APM的落地,发展自动化运维已经成为业界的共识,实现了故障的自动巡检和应用的自动部署。而如今,拥有大数据分析和机器学习能力的业务运维平台,正在逐步实现自动化处置。
这很大程度上得益于人工智能技术技术的成熟。在此之前,所有的处置都是依靠人来进行,系统能够在故障之初发布告警,给运维人员发邮件或者短信,但是这之后就需要人工对故障进行响应、判断和处理,而人为因素恰恰是造成IT灾难的最大隐患。
对于云智慧来说,这是一次里程碑式的的升级。
一方面,业务运维平台可以进行对海量告警信息进行聚合、分类和预处理,让故障信息并非是一股脑爆发而是按照对业务的影响程度分级提供给不同的运维人员,同时通过根因分析准确定位故障节点,节省用户的排查时间。而在另一方面,云智慧在告警信息处理方面积累了高达PB级别的海量数据,结合机器学习和深度学习技术,业务运维可以针对不同的故障给出对应的解决方案,并在下一次事故发生前进行预判。
如今,云智慧的业务运维平台借助于AI技术正在进行快速迭代,同时Andy秉承着互联网的开放精神,把业务运维平台的能力以API接口的方式开放出来,以便吸纳更多的合作伙伴。相对于18个月之前解决方案刚刚发布时,如今的业务运维平台已经实现了商业化与产品化,并正在为包括金融、制造、连锁快消等许多世界500强规模的客户提供服务,帮助这些企业在利旧的基础上实现运维管理的升级。
在Andy看来,目前业务运维市场还是蓝海,云智慧也是国内第一家实现产品化的公司。在谈到未来的时候,Andy提到了三个关键词:持续迭代、场景落地和广泛兼容。当然对于云智慧这样的公司来说,他认为应该专注于技术研发,做好业务运维平台的核心能力是第一位的。至于满足更广阔的数字化市场需求,和合作伙伴携手共赢才是王道。
“业务运维这个事,我们越搞越有信心”,Andy说。
后记:从最初的搬箱子到现在的自动化,IT运维实现了从“平民到皇帝”的转变。原本只属于辅助、后勤、从属地位的IT运维伴随着互联网化、数字化的推进逐渐走到前台,同时IT价值的爆发也倒逼着管理者必须重视业务运维。对于云智慧来说,从最早的监控宝产品到如今的业务运维平台,它正在帮助越来越多的客户摆脱传统手工运维的束缚,向着智能化的新蓝海阔步前行。