磁盘故障预测Predicting Disk Replacement towards Reliable Data Centers

针对问题：预测磁盘故障

提出模型：1.使用时序中的changepoint检测，识别即将替换的磁盘的SMART属性。

2.通过将事件编码成一个个点，把事件序列转换为样本集，从而得到每个磁盘时序的信息表示。

3.建立一个预测分类模型区分正常和故障的驱动器drives。

4.通过迁移学习，对新的磁盘模块的数据进行更换预测。

基于SMART的分析流程，可预测10-15天之后的磁盘更换情况。使用统计方法自动检测与磁盘更换相关的SMART参数，并进行预测。

问题背景：IT设备是导致数据中心停机的主要原因，磁盘是IT设备里面最容易坏的。影响磁盘的因素：温度、占空比、工作负载。

磁盘不可预测的故障：电子元件由于处理不当导致的突然崩溃。可预测故障：缓慢过程（磨损）造成的，通常持续数月or数年。

算法步骤：（1）选择相关的SMART属性，（2）紧凑的时间序列表示，（3）通过下采样来平衡正常or故障的磁盘类别，以及（4）磁盘替换的分类模型。

1.选择相关属性

用 $S_i=(s_1,s_2,...,s_p),$ 表示第i个属性在更换磁盘之前的p个测量值。当t<p，满足 $ML(t)$ 明显大于 $log(p(s_{1:p} \vert \hat{ \theta})$ ，则 $t=argmax_\tau ML(\tau)$ ， $ML(\tau)=log(p(s_{1:\tau}\vert \hat{\theta} _1))+log(p(s_{\tau+1:p}\vert \hat{\theta} _2))$ 。

接着检查在没有变化的时间点 t 没有观察到的变化的情况下，潜在SMART属性的时间序列与相同属性的相应时间序列之间的差异是否显着。检验这个变化是否与磁盘更换

让时间序列 $\Gamma _t=(s_t，···，s_p)$ 表示潜在SMART指标 $S_i$ 从时间戳t到替换时间p的记录值。再对相同的指标生成 $Ψ = (\tilde{s_{t+1}} , · · · , \tilde{ s_p} )$ 表示时序在t点没有显著改变。计算Ψ后面的分布 $p(\tilde{s}_{(t+1):p} | s_{1:t}, x_{1:p})$ ,用贝叶斯时序模型得到控制时序 $x_{1:p}$ 和 $s_{1:t}$ 的值。控制时序：正常磁盘的该SMART属性值的样本。

如果在检测到的变化点之后测量的实际时序的概率分布 $\Gamma _k$ 与基于正常磁盘生成的合成时间序列Ψ的概率分布显着不同，则该目标SMART属性指示磁盘替换。通过假设检验评估差异。未知分布P,Q分别对应 $\Gamma _k$ 和Ψ。 $H_0:P=Q,H_1:P\neq Q$ .

2.紧凑时序表示(滑动平均）

用一个窗口将原始数据集划分为多个段。使用特定时间范围内的指数平滑将每个相关时间序列整合为一个值。最近的观测值权重最高，权重按指数递减的方式分配给剩余的观测值 $S_t = α·Y_t +(1−α)·S_{t−1}$ .固定窗口大小k， $S_t$ 表示观测值 $Y_t$ 到 $Y_{t-k}$ 的加权平均值。参数α控制较旧观测值的衰减速度。 α越大，历史观测值的权重越低。

对于每个相关的SMART属性，选择平滑处理中使用的时间窗口的宽度作为其相应显着变化的时间戳分布的媒介。

3.通过信息下采样平衡分类

因为只有一小部分磁盘被更替，所以用于预测的这些样本数据是不平衡的。a.使用密集类的代表性子集——健康磁盘，平衡训练数据集。选择这个有代表性的子集是为了使其包含信息量最多，且低/无冗余的样本。 b.使用K-means聚类将与健康磁盘集相关的观测值聚类。 c.对于每个群集，选择最接近各个群集中心的数据点作为健康磁盘类的代表。 d.k与替换磁盘的样本数量接近，来生成平衡的训练数据集。

4.磁盘替换的分类

训练集 $D = {(x_i , y_i )}^n_{i=1}$ ，X为SMART属性集，y=0/1。

预测模型：正则化贪心森林RGF：梯度提升树GBDT的一种变体，结构搜索和优化是分离的。两者区别：

a. 正则化项： $\hat{h} = argmin_{h∈H} [l(h(x); y) + R(h)]$

b.RGF采用完全校正的贪心算法，该算法迭代修改当前获得的所有叶节点的权重（决策规则），同时通过贪婪搜索将新规则添加到森林中。还包括一个显式正则化以避免过度拟合和非常大的模型。

c.RGF利用结构化稀疏性的概念直接基于森林结构在森林节点上执行贪心搜索。

对于森林F的每个结点v，都有对 $(b_v,a_v),$ $b_v$ 表示结点v的基本函数， $a_v$ 表示权重。模型F $h_{F(v)}=a_vb_v(x)$ ,对于中间结点， $a_v=0$ .

正则化损失是F的函数： $Q_F = l(h_{F(x)}, y) + R(h_F)$ .S(F)表示适用于F的所有结构更改操作的集合（即节点的拆分或新树的添加）。

5.迁移学习

磁盘不同制造商的SMART属性相似，但是分布不同。迁移学习可以解决制造商们磁盘型号之间的数据集移位问题。

用目标（新）磁盘型号的未标记数据进行样本选择去偏。算法思想：训练一个分类器，该分类器根据特定磁盘型号的观测值和目标磁盘型号的观测值的相似性，对特定的磁盘型号的观测值进行排名。此外，这使得能够对来自原始磁盘型号（已经被标记）的观察进行采样，即，将原始磁盘型号的分布与目标磁盘型号匹配。

1.收集特征：（1）时间戳，（2）磁盘序列号，（3）磁盘型号，（4）磁盘容量，（5）故障-0：驱动器处于活动状态；1：第二天更换了磁盘，（6）SMART统计信息。

数据集大小：17个月，粒度：每日。

磁盘制造商：Hitachi 和Seagate。在Seagate ST4000DM000 (SgtA) 和Hitachi HDS722020ALA330 (HitA)建立预测模型，在Seagate ST31500541AS (SgtB) 和 Hitachi HDS5C3030ALA630 (HitB)上评估迁移学习。

两种制造商四个型号的数据集大小

每个SMART指标，记录了原始值和归一化值。原始值通常代表计数或物理单位（例如摄氏度或毫秒）。标准化值较高，表示磁盘正常，也有例外（Seagate型号的温度属性）。

磁盘SgtA 的参数SMART 187 raw（记录不可校正误差）

使用50天后，磁盘开始累积不可校正误差，直至需要更换为止。在第1-50天观察的时序与在50-80天观察到的时序之间存在显着差异，因此算法会在更换磁盘30天之前检测到更改点。

有些SMART指标与希捷disk替换相关性比日立大，反过来也是。比如温度，日立替换磁盘的比例为31％，而希捷只有2％。原因：日立磁盘的总体较高温度。尽管分布相似，但日立有明显的向高温转变，即5到10摄氏度。

✔️表示包含在分类预测模型里的特征（与disk替换有关的特征）

2.根据指标changepoint更换前的天数分布，用中值选择时序窗口长度。用于紧凑时序表示

3.RGF分类。因为只有很少一部分磁盘被替换，分类器会偏向运行正常的驱动器。通过将正常样本下采样到接近替换类别的大小。SgtA下采样为1000；HitA下采样为500。这些值的选择基于正则贪婪森林（RGF）分类器的误差估计。以100和50个簇作为输入来运行K-Means，再为每个簇选择最接近每个簇质心的前10个数据点（将1000分为100组，500分为50组，每组10个点）。

评价指标：对替换和正常的数据集计算精度P，查全率R和F评分。精度用于衡量分类器正确识别有风险的磁盘的能力。查全率衡量分类器的敏感度，即分类器捕获所有替换磁盘的能力。较高的查全率等于最大程度地减少了误判负数（即，在正确更换磁盘时标记为正常的磁盘的数量）。 F分数是精度和查全率之间的总和，即加权谐波平均值。

4.迁移学习。

同一制造商的不同磁盘模型之间各种相关预测变量的协变量偏移，所以需要迁移学习

磁盘故障应用于大规模数据中心的要求：（1）连续测量SMART参数；（2）故障磁盘至少要数百个才能保证预测精度大于80%。

总结：

提出一个磁盘替换预测模型，并基于来自两个不同制造商的大量磁盘中的真实数据构建和评估。基于changepoint的特征选择和SMART指标的紧凑时序表示，用RGF可10-15天之前达到98%的预测精度。此类模型对从中学习的SMART属性的数量和训练数据的大小敏感。建立一个具有24个希捷属性的模型，而对于日立只有12个属性。使用迁移学习为同一制造商的其他磁盘型号建立预测模型。

RGF：https://blog.csdn.net/notHeadache/article/details/83146982

磁盘故障预测Predicting Disk Replacement towards Reliable Data Centers

磁盘故障预测Predicting Disk Replacement towards Reliable Data Centers

相关阅读更多精彩内容

友情链接更多精彩内容