FMEA方法
FMEA(Failure mode and effects analysis,故障模式与影响分析),FMEA 是一种在各行各业都有广泛应用的可用性分析方法,通过对系统范围内潜在的故障模式加以分析,并按照严重程度进行分类,以确定失效对于系统的最终影响。
具体分析方法
给出初始的架构设计图。
假设架构中某个部件发生故障。
分析此故障对系统功能造成的影响。
根据分析结果,判断架构是否需要进行优化。
FMEA分析表
其实,就是一个FMEA分析表,表格包含下面部分
功能点: 用户的角度,而不是系统各个模块的功能点划分
故障模式: 精确、量化,避免泛华
故障影响: 故障模式造成的功能点的具体影响,准确描述
严重程度: 业务角度看,一般按程度分为“致命、高、中、低、无(优化)”
故障原因:概率不相同、检测手段不一样、处理措施不一样
故障概率:根据故障原因,概率一般按高中低三档划分
风险程度:综合严重程度加故障概率判断
已有措施:已有的如检测告警、容错、自恢复等。不一定所有问题都需要解决,规避措施也可以
规避措施:降低故障概率的技术或管理手段
解决措施:一般是通过技术手段进行修复
后续规划:综合已有、规避、解决措施,结合风险程度进行优先级排序,规划问题解决计划
FMEA实战
简单的用户管理系统,包含登陆和注册两个功能,初始架构:
FEMA表格如下:
功能点 | 故障模式 | 故障影响 | 严重程度 | 故障原因 | 故障概率 | 风险程度 | 已有措施 | 规避措施 | 解决措施 | 后续规划 |
---|---|---|---|---|---|---|---|---|---|---|
登陆 | Mysql无法访问 | 当MC中无缓存,预计有60%用户无法登陆 | 高 | Mysql服务器断电 | 中 | 中 | 无 | 无 | 无 | 增加备份Mysql |
登陆 | 同上 | 同上 | 高 | Server到Mysql网络连接中断 | 中 | 中 | 无 | 无 | 无 | Mysql双网卡连接 |
登陆 | Mysql响应时间超过5s | 60%用户登陆时间超过5s | 高 | 慢查询导致Mysql运行缓慢 | 高 | 高 | 慢查询检测 | 重启Mysql | 无 | 不需要 |
登陆 | MC无法访问 | 所有用户都到Mysql查询信息,Mysql压力增大,响应变慢 | 低,慢,但是能登陆 | MC服务器断电 | 中 | 低 | 无 | 无 | 无 | MC集群 |
注册 | Mysql无法访问 | 用户无法注册 | 低,新注册用户少,每天只有100个 | Mysql服务器断电 | 中 | 低 | 无 | 无 | 无 | 无,因为增加备份机器,也无法作为主机写入 |
注册 | MC无法访问 | 无影响,用户注册不操作MC | 无 | MC服务器断电 | 中 | 低 | 无 | 无 | 无 | 不需要 |
由此主要改进措施为:
Mysql增加备机
MC从单机扩展为集群
Mysql双网卡连接
改进后的架构: