读书笔记|智能运维系统的简要规划

对于互联网公司来说,系统复杂化导致的人工运维成本激增已经是普遍现象,采用智能运维是行之有效的应对策略。智能运维的核心思想是利用算法来处理海量运维数据,积累运维经验,从而代替人工思考判断,以自动化的过程实现风险的预防、发现、定位和处理。而智能运维系统是其中的重中之重,但建设企业应用智能运维系统,不是应用运维部独立规划设计就可以完成的,它需要业务、产品、开发、基础设施运维多部门协同才能顺利实施。

因为工作需要不停充电,前阵子买了《应用智能运维实践》这本书,读过之后受益匪浅,书里详细讲解了智能运维系统的架构,分享了规划建设智能运维系统的简要方案,这里做个总结记录,算是写给我自己的阅读笔记,也给大家做个分享~

前期准备

前期准备过程中需要详细地调研,并讨论以下四个需要完成的内容:需求准备、应用准备、人员准备和技术准备。

需求准备:理解企业现有的应用运维过程。

需求准备阶段核心的工作内容是理解企业现有的应用运维过程,定义应用运维场景,并基于实际需求规划建设目标。开展这项工作,首先需要应用运维团队和企业内部负责应用系统开发的产品/项目团队沟通,了解当前应用系统的现状,对应用画像。

在前期沟通工作中,最关键的是对目标用户场景进行梳理,从中找出用户的关键需求点。

另外,需求调研人员要对对标产品有足够深入的理解,能够透彻地分析优势和劣势,并总结目标场景。


典型用户角色需求总结

应用准备:为目标应用的运行状态准确画像。

在应用准备阶段,要做的是对运维目标应用的运行状态进行画像;对应用所处的生命周期阶段、服务目标用户群、用户接入方式和系统架构进行调研;通过定性和定量分析方法找到应用特点,制定与其匹配的运维智能化策略。

人员准备:组建技术和管理专家团队。

在通常情况下,制定应用智能运维系统建设的验收目标,需要进行需求调研的目标团队主要有:应用运维团队,其主要关注日常应用的稳定性、性能保障;产品/项目团队,其主要对上线系统的代码问题进行定位分析;数字运营团队,其关注应用的稳定性、性能对数字营销效果和用户转化率的影响。


应用智能运维系统建设团队的人员角色  

技术准备:储备运维智能化的关键技术。

落地智能化的运维算法难度较大,解决实际应用场景问题,要求应用运维团队不但要有应用性能工程、APM、应用链路追踪、日志分析等传统运维技术,还要有大数据存储、索引、清洗、统计等方面的经验,能够熟练使用机器学习和人工智能算法。如下图所示,企业需要在建设前期积累的技术能力。


应用智能运维的关键技术

规划设计

围绕运维现状,规划建设愿景。

做好了需求、应用、人员和技术的准备,就可以围绕企业当前的运维现状,规划设计应用智能运维系统的建设目标和愿景了。行业、规模和经营模式的差别导致企业运维模式大相径庭。充分考虑企业当前的运维现状、应用系统状态和目标用户特点,制订分阶段可行的目标愿景,可以大幅度提高系统建设成功的概率。

多部门协作,规划服务质量目标。

对于依赖信息系统直接面向用户提供服务的企业,服务质量目标(SLO)是运维、运营、开发等多部门关注的关键KPI。运维部门要通过SLO判断故障的严重程度,以及是否需要立即介入;运营部门要依据SLO判断数字营销效果是否会受应用稳定性的影响,分析用户转化率与应用性能之间的关系,需要提出对SLO的保障要求;开发部门则要根据SLO量化监控的需要,提供应用程序监控埋点,获取对应业务流程的点击次数、请求响应时间等指标的支持。

制订监控策略,设计SLO计算算法。

制订SLO,首先要考虑相关指标的量化,并且找到聚合计算需要的原始监控指标,否则就需要人工统计计算。其次,对真实用户访问过程进行被动监控追踪。有了原始监控指标,还需要根据经验设计对应的SLO聚合计算算法,并在上线运行过程中不断修正和调整,这样才能适应真正监控的需要。

专注过程,规划有效的风险管理机制。

运维的关键任务是管理风险,管理风险是关联工具、数据和人的过程。在实践过程中,过程经常采用自动化工作流管理工具。

IT运维阶段及能力层级模型    

概念验证

不同于CMDB、ITOM、APM等系统建设有成熟的工具平台和方法学指导,应用智能运维系统建设更贴近用户和应用场景,数据采集、存储和使用人工智能算法解决问题都可能需要针对具体需求定制,很难做到标准化。加上当前数字信息技术的演进速度加快,互联网应用的迭代更新也随之加速,导致对应用运维保障需求的变化更加频繁。因此,应用智能运维系统建设需要基于高度开放、容易扩展且能力相对完备的数据采集、存储分析和展现平台来开展概念验证,然后基于验证结果,结合实际需要制订实施计划。

应用全景监控可视化仪表盘的体系结构  
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容

  • SRE对风险的考量 SRE旨在寻求快速创新和高效的服务运营业务之间的风险的平衡,而不是简单地将服务在线时间最大化。...
    RaistlinD阅读 885评论 0 0
  • 夜莺2517阅读 127,719评论 1 9
  • 版本:ios 1.2.1 亮点: 1.app角标可以实时更新天气温度或选择空气质量,建议处女座就不要选了,不然老想...
    我就是沉沉阅读 6,887评论 1 6
  • 我是一名过去式的高三狗,很可悲,在这三年里我没有恋爱,看着同龄的小伙伴们一对儿一对儿的,我的心不好受。怎么说呢,高...
    小娘纸阅读 3,387评论 4 7
  • 这些日子就像是一天一天在倒计时 一想到他走了 心里就是说不出的滋味 从几个月前认识他开始 就意识到终究会发生的 只...
    栗子a阅读 1,621评论 1 3