总体构成
系统运维由资源管理、软件配置管理、监控管理、告警与故障定位管理、日志管理、安全管理、成本管理、巡检管理。
目前,我们涉及的是资源管理、软件配置管理、监控管理、告警与故障定位管理,安全管理和日志管理较为初级,成本管理尚未涉及。
资源管理
资源管理记录维护设备的信息,包括设备型号、配置、归属信息、管理信息、软件版本、维护人员等。资源管理可以帮助集中管理一个或多个项目内的设备信息,可以提高异常处理速度。
软件配置管理
软件配置管理包括软件版本管理(git、svn)、配置管理、软件安装、软件升级更新、系统补丁安装。
-软件版本管理:主要管理已发布的软件程序,保证上线版本均从且仅从版本库中获取;软件版本要包括基础版本和定制版本,不能有所遗漏。版本管理可以使用svn或git方式。
-配置信息管理:配置管理应对重要的软件配置文件进行管理,记录并跟踪文件内容的变化情况。
1、本地配置管理:实现一个针对配置文件的脚本定时检查并把发生变化的配置文件备份(未实现)。
2、远程配置监控:定时对所有定义过的配置文件及目录进行扫描,并将配置项键值发送到监控服务器(zabbix)。
-软件安装:软件安装必须保证只安装业务所需的最小化软件,保证前后版本的业务连续性,满足用户的业务功能需求。
1、系统最小化镜像:通过预先配置订制符合业务要求的最小化安装介质,预先设置安全配置,规范化软件安装目录,提高维护一致性。
2、软件安装自动化:通过使用定制化脚本,降低人为操作失误风险,加快部署速度。
3、安装环境检查:提供测试工具,实现对业务前置条件的检查(比如检查是否包含特定业务数据),部署后业务流输出检查(比如推送数据包是否正常),提供安装结果报告。
-软件升级更新:软件更新应规范进行,保证软件版本符合业务需求,保证配置连续性,保证业务连续性。
1.使用脚本升级软件:使用定制化脚本更新软件版本。脚本要考虑前后版本配置差异,做好原有配置和文件备份,具备业务回退选项,具备多主机同时操作能力。
2.使用配置集中更新机制:设置配置管理服务,由各业务主机定时注册并获取最新版本信息,并自动拉取更新最新版本。
-系统补丁安装:关注网络安全信息通报,遭遇重大漏洞应测试后及时更新;应禁止系统补丁自动更新,人工方式进行更新。
1.系统补丁更新模拟,避免对在线业务造成影响。(建立业务测试平台,对需要安装的软件补丁重复测试后,在进行线上部署。)
2.补丁使用本地缓存,避免上线安装。
监控管理
监控使用监控客户端等方式收集被监控机的硬件、系统、应用指标情况,并发送到数据集中服务器。
监控使用zabbix、beat、cacti、ganglia等。
1.性能监控
2.可用性监控
3.应用监控
4.日志监控
告警与故障定位管理
告警是对异常事件潜在故障的及时反馈,一般是基于阈值或历史基线条件及其组合触发,并按照特定的通知群组和告知规则向外发送告警。
故障定位是综合多个告警信息的关系,根据历史经验自动或人工判断问题点。
此部分也包含对故障的修复和排除,修复可以由工程师完成,也可以自动执行符合场景的预制脚本完成。
1.故障异常告警:提供对监控异常数据的告警,包括数值缺失、数值异常变化等。(zabbix)
2.综合故障告警:根据多个指标项综合诊断确定故障的发生、故障发生的位置以及可能影响。(部分具备)
3.日志告警:根据设备日志中的重要告警异常产生告警,使应用或系统的重要故障可以及时发现。
日志管理
日志管理指主机系统、应用软件记录自身运行情况的重要信息,随后即由filebeat、logstash、fluent等收集汇总处理;
日志可以经由软件处理后发送到ELK stack或zabbix用于数据展示钻取或异常行为告警。
日志需要放置在相对集中的目录中,并且日志内容应该遵循syslog标准。
1.zabbix日志告警:zabbix对匹配正则表达式的日志产生告警信息,并发送到zabbix服务器。
2.filebeat日志采集:定时查询日志变化情况,将新增日志发送到ElasticSearch服务器,由ES分词、存储,提供后期的统计和查询。
安全管理
安全管理包括操作系统初始化配置、系统安全加固、系统文件完整性校验、安全漏洞检测、僵木蠕检查、账号权限管理、用户行为管理。
-系统初始化配置:系统安装系统时安装最小化的软件包,减少不必要组件,进行安全加固。
1.系统最小化镜像
-安全漏洞检测:
1.使用nessus远程扫描设备端口;
2.使用本地audit审计脚本发现设备漏洞;
-系统安全加固:
-僵木蠕查杀:
1.安装开源杀毒软件:一般只有邮件服务器需要。pass
2.执行本地rootkit检查工具,比如chkrootkit,需要周期性更新软件并执行。
3.系统完整性校验:通过文件系统重要文件的异常修改,发现潜在的入侵和恶意软件。tripwire是较为常用的软件。
-登陆用户行为记录:记录用户登陆时间、登陆ip地址、命令操作历史详情。
实现方式有两种:
1.堡垒主机统一记录:由堡垒机统一认证授权,记录用户行为;成为用户访问设备的唯一入口。
2.本地主机记录:本地主机记录所有登陆人员的命令操作,比如script配合脚本实现;需要在每台设备上建立所有操作人员的账户,不能允许共享账户(共享账户会极大削弱记录的作用)
| | 优势 | 劣势
| 堡垒机 |统一管理,更加安全|需要额外配置管理
|本地主机|部署简单,查询方便 |容易被黑客行为破坏
-系统文件完整性校验:通过执行完整性校验软件,获取重要系统文件的校验信息并保持在安全位置;周期性执行诊断,对变化文件产生报告信息。
1.tripwire软件本地校验:校验数据和校验结果均保留在本地,由工程师手动检查。
2.tripwire结合远程管理:校验数据保留在本地,校验结果发送到远端监控服务器,产生异常告警。
-配置文件管理:系统、软件配置信息变化内容变化必须得到记录,原有配置应该记录在设备上,有可能的情况下传输到远端管理平台。
1.本地配置备份:定期执行配置文件备份工具,将预置路径下的配置文件和程序打包压缩到特定文件夹;定期清除老旧备份。
2.远程配置监控:配置信息传送到远程服务器,或配置文件定期保存到远程服务器。
-账号权限管理:账户权限管理的基本要求是账户专人专用,赋予完成任务所需的最小权限,密码要符合复杂性要求并定期修改。
1.密码复杂性策略:通过linux pam设置,使密码至少大于8位且有大小写字母数字混合;
2.密码更新策略:90天强制更新密码,15天宽限;通过集中管理,每3个月更新root权限密码;
3.远程访问ssh限制:限制root登陆,限制最大连接尝试数,使用autoban限制同一ip地址反复尝试;
4.专人专户:每人使用一个账户,不得使用共享账户登陆设备。管理员手动管理或堡垒机管理。
成本管理
成本管理是通过设备资源、网络资源使用情况,计算设备的利用效率或应用的运转成本;
基于数据的成本管理有助于及时调配现有资源支持业务发展,有助于减少资源浪费和不必要开支。
1.设备资源使用率统计:统计cpu资源、内存资源、网络资源使用情况,评估远程
巡检管理
巡检是指对现有业务系统进行软硬件的定期检查,根据操作方式可以分为远程和现场巡检,根据检查内容可以分为系统、应用软件、安全巡检等。
巡检工作执行需要根据巡检要求定制脚本,根据操作方式选择合适的方法,执行执行计划,并检查巡检结果。
-远程巡检
1、批量集中巡检:通过批量下发平台分别对特定类型设备下发巡检指令,统一反馈结果;
2、脚本命令执行:通过项目监控服务器连接项目内各主机并执行检查脚本,后期通过手动处理结果产生报告;
-现场巡检
1、脚本命令执行:通过项目监控服务器连接项目内各主机并执行检查脚本,后期通过手动处理结果产生报告。