大家好,我是楠哥。
之前看到个文章,说运维的本质是“可视化”,甚至还有人说是DevOps。不可否认,“可视化”是运维过程中非常重要的一个环节;DevOps则是开发运维一体化非常重要的工具。究其根本,到底什么是运维最本质的东西?
其实很简单,运维的本质是“可控”。一个重要的事实是,目前国内的IT运维很多还都处于救援队的行列。想必提到运维大家都会想起 “7*24”的字眼。就是说运维人员基本都处于全天候保障业务稳定运行的一个状态。
运维是一门非常复杂的学问,不像学会两三门语言,设计几个网站应用就可以成为架构师那样的工作。他除了技术之外,经验积累、视野、大局观、甚至是心胸都有可能决定成败。优秀的开发者比比皆是,但是优秀的运维人员少之又少。
原因就是运维内容太复杂了!我认为运维的本质是“可控”, IT运维体系的架构中,IT运维监控是IT运维体系中重要的组成部分,作为运维的生命线,安全生产保障的生命线仍需强调。运维的安全生产保障,主要以“监、管、控”为核心,其中“监”则主要指的是监控。大概有以下几个原因:
第一点:稳定性“可控”
作为企业级的运维人员,我们要运维的系统不但数量多,而且网络架构复杂。不是维护好一两台机器,发布代码就好的,而是要做成千上万,甚至十几万台的服务器和各种网络设备、存储设备等专有设备维护,除了熟知的服务器、存储、网络设备、负载均衡设备等,可能还有很多是运维人员没有接触过的新玩意。而这些硬件又承载了各种应用,组成了各类不同的系统供用户访问,复杂程度不言而喻。
如何让这些大量的服务器稳定的跑在生产环境中,不因为硬件损坏、发布变更、系统升级而引发的业务系统故障?没有东西是不会坏的,没有系统是没有bug的。硬件出现问题也好,系统升级也好,发布变更也好,这些都没有关系,最重要的是做到心中有数!一旦发生这些之后能知道对系统业务有多大影响!?需要多少时间和工作量恢复?
第二点:性能“可控”
合理分配系统资源,合理的性能对系统的稳定性起到了至关重要的作用。
一个系统慢与快并不是运维人员最担心的,时快时慢才是最可怕的。因为此时的状态是最不可控的状态,这样的系统是不可能承载企业核心或者重要的业务的。
最典型的应用场景就是云计算平台的资源分配。一旦平台资源被错误的分配,对业务的影响是不可估量的,排错过程也将是运维人员最头疼的。
第三点:安全“可控”
有没有绝对的安全呢?理论上没有,所以,运维的同学,总要花很多精力在系统安全上。可以说安全是唯一一个贯穿运维全部过程的模块。
比如控制哪些用户可以登录系统环境?哪些用户是可以进行变更?哪些操作需要授权,哪些操作必须通过审计?测试和开发隔离,公司内外隔离等都是因此而生。
合理的通过自动化代替部分人工操作,可以规避很多低级错误的发生。这对于企业级的复杂系统是至关重要的,可以明显提高可靠性,减轻运维人员繁琐的手工操作任务。
如前所述,运维的内容相当复杂,交付“可控”,变更内容“可控”,效率“可控”都是可以值得深究的东西,因此,无论是“可视化”,“大数据”,“运维自动化”等等,都是在为“运维可控”服务的。数据可视化,带来的是规模可控;运维自动化,带来的是效率可控,风险可控,如是而已。
每一个点的提升,都是运维的提升。希望所有从事运维的同学,都能感受到,做什么可以让“可控力”提升。现在的运维已经不像多年前那种被动式的运维了,需要运维人员快速转变观念,学会通过主动运维的方式应对复杂多变的IT问题,保证业务系统的稳定。需要更多的站在客户的角度思考问题,解决问题。
也许当我们再次遇到各种运维问题的时候,可以拿起一杯茶,做一个优雅的运维。
大家如果有想讨论的内容,欢迎留言!关注我,请帮忙点赞分享,您的支持是我们最大的动力!