目录:
1、为什么要做强巡检
2、具体怎么做
3、应用场景有哪些
4、未来方向
为什么要做强巡检
最近系统配置遗漏、配置错误问题占了总BUG数的60%,由于配置问题会导致系统无法访问,开发人员白天只能跟进处理这些“优先级高”的环境问题,直接导致真正需要开发人员进行代码处理问题积压,客户怨声载道。如何能够让提升需求上线效率,快速交付的产品,是后续大面积推广产品的关键因素和前提条件。
如何提升?当某一个人遇到任务积压时,可能会有很多种方案,增加人员是最常用的一种方案,也是最简单的一种方案,有时在个性化类型的需求面前,也不乏是一种非常用效的手段。是否能真正的解决问题,实践证明并不是,相当大家一定也有非常清晰的认识,当你真正实践临时加人后,可能就会发现只能解决短期问题,制定长远的治本策略及方案才是出路。
长远的治本策略及方案是什么?软件行业针对提升质量和效率其实有相关不成文的规则,主要是用工具替代手工,用自动化替代工具,用智能化替代自动化,这条屡试不爽的规则,层层递进,越往上效率更高,质量更好。经实践证明,在绝大多数的场景下,确实从根本上解决了质量和效率的问题。
比如大数据的智能预警监控系统,运行半年多来,确确实实的解决了数据质量的问题,最基本的就是数据的及时产出。通过制定相应的监控巡检,借助企业信息、短信、电话预警等机制,及时的发现并解决问题,确保数据的及时、有效、正确的产出,在客户处体现数据价值的最大化。半年多来,规避了20次左右的事故事件的发生,为大数据的正常运行真正起到了保驾护航的作用。
随着租户量的增长,场景的增多,应用的复杂度增加,目前这个问题表现的越来越突出。特别是随着新场景的引入,交付过程中的3套环境必须逐个部署、验证、交付,开发人员陷入到环境排错的时间太大,影响日常需求的开发。
具体怎么做
如何解决,根据上述分析,方向肯定是手工->工具->自动化->智能化。
以前是人工配置容易出错,一线人员能力参差不齐,分析评估后,配置的工具化和巡检的自动化现阶段最有效的手段,具体如下:
1、配置的工具化:
说明:
1)集中的配置入口和界面;
将各个站点中多个地方配置的工作进行统一,提供集中配置入口,保证配置集中管理,降低配置难度,提升配置效率和质量;
2)分业务分场景的配置分类;
包括公共配置、基础业务配置、业务应用配置;针对不同角色提供不同配置区域,分工协作;
3)权限控制;
不同角色设置不同的权限,确保合适的人做合适的事情,控制好不同角色的权限避免出现配置错误导致的事故;
2、巡检的自动化:配置的工具化重点解决了配置效率的问题,配置是否正确,是否符合场景需求,从根本上是解决不了的。
巡检的自动化则是从质量的角度出发,重点解决质量问题,确保配置完成后,系统能够真正使用。
巡检分为基本检查、实际运行检测、结果展示及建议解决方案;
1)基本配置检查:包括是否填写,是否符合规范,简单的规则检测;比如URL是否填写、是否符合规范等;
2)实际运行检测:比如获取款项名称是否能够正确执行,返回结果是否符合要求,需要真正访问接口并返回实际的结果信息;
3)结果展示及建议解决方案:针对每个巡检项,检查结果标识通过或不通过,不通过则给出错误原因并提供有效的处理指引;
应用场景有哪些
配置工具化及巡检自动化的应用场景主要有2个:
1、产品上线过程,包括测试环境、客户测试环境、生产环境的上线验证,确保上线的快速、高效;
2、日常定期的巡检检查,主要应用于生产环境,定时周期性的检查,比如每天检查一次,为日常的长时间稳定运行保驾护航;
工具化和自动化是手段,最终需要解决问题,需要形成可行的执行机制,及时的、有计划的将问题进行优化解决,只有这样才能真正发挥工具的作用,达成质量和效率的目标。
未来方向
未来发展3个方向:
1、不断丰富巡检规则,尽量多的通过自动化完成相关的检测;
2、针对巡检的问题,进行自动的修复处理,将问题的处理逐步、有条件的实现智能化;
3、与预警平台对接,通过预警监控,及时解决问题,提升运行的稳定性;
进步无止境,相信通过不断巡检规则的积累,巡检框架的不断完善优化,预警平台的对接与应用,稳定的接口运行环境一定能到来。