机器学习-无监督学习之异常突增突降检测

目录

  • 前置
  • 异常突增突降检测
  • 实际代码
    • 周期性数据使用PCA检测
    • 平稳性数据使用PCA检测
  • 周期性数据突增突降主流程
    • 前置
      · - 流程
  • 参考文章

前置


异常突增突降检测

  • 本文介绍异常突增突降检测无监督学习(特点是训练数据没有明确的标签或类别信息)降维算法(PCA),无监督的聚合算法(CBLOF使用了KMeans),现公司业务生产环境中数据太少不如降维准确简单测试
  • 本文模型预处理对于太多无用数据不预测,使用均值或者中位数填充部分数据
  • 模型预测完之后,异常数据使用箱型图和zscore+肘部法则对最终异常数处理

实际代码

  • 基于PCA降维的代码
  • 数据类型excel,可以自己构造, 举例子240202_240206_g_video_not_status_cycle_pca
time    bw
2024-02-02 00:00:00 12827388.68
2024-02-02 00:01:00 13225658.56
2024-02-02 00:02:00 13246549.29

周期性数据使用PCA检测

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA


def get_g_video_not_status_code_data():
    # 这块统计出刚刚开始上涨的数据也很准
    df = pd.read_excel('F:\\py_data\240202_240206_g_video_not_status_cycle_pca.xlsx', sheet_name='Sheet1')
    df['time'] = df['time'].apply(pd.to_datetime)
    df['bw'] = df['bw'].astype(float)
    df1 = df.set_index('time', drop=True)
    se = df1['bw']
    time_series = se.asfreq('T').fillna(method='bfill')
    se_test = time_series['2024-02-07 00:00:00': '2024-02-09 23:59:00']
    return se_test


def get_g_video_not_status_code_data_v2():
    # 这块统计出刚刚开始上涨的数据也很准
    df = pd.read_excel('F:\\py_data\\240202_240206_g_video_not_status_cycle_pca.xlsx', sheet_name='Sheet1')
    df['time'] = df['time'].apply(pd.to_datetime)
    df['bw'] = df['bw'].astype(float)
    df1 = df.set_index('time', drop=True)
    se = df1['bw']
    time_series = se.asfreq('T').fillna(method='bfill')
    se_test = time_series['2024-02-02 00:00:00': '2024-02-06 23:59:00']
    return se_test

def get_12306_status_code_data():
    # 这块统计出刚刚开始上涨的数据也很准
    df = pd.read_excel('F:\\py_data\\20240208_20240215_12306_status_code.xlsx', sheet_name='Sheet1')
    df['time'] = df['time'].apply(pd.to_datetime)
    df['bw'] = df['bw'].astype(float)
    df1 = df.set_index('time', drop=True)
    se = df1['bw']
    time_series = se.asfreq('T').fillna(method='bfill')
    se_test = time_series['2024-02-08 10:00': '2024-02-15 08:00']
    return se_test

def get_baidu_status_code_data():
    # 这块统计出刚刚开始上涨的数据也很准, 算是平稳型数据
    df = pd.read_excel('F:\\py_data\\20240208_20240215_baidu_status_code.xlsx', sheet_name='Sheet1')
    df['time'] = df['time'].apply(pd.to_datetime)
    df['bw'] = df['bw'].astype(float)
    df1 = df.set_index('time', drop=True)
    se = df1['bw']
    time_series = se.asfreq('T').fillna(method='bfill')
    se_test = time_series['2024-02-08 10:00': '2024-02-15 08:00']
    return se_test


if __name__ == '__main__':
    se_test = get_g_video_not_status_code_data()
    # 计算残差 比之前用seasonal_decompose好,因为seasonal_decompose 有时效性, 数据都是一天的周期
    trend = se_test.rolling(window=1440).mean()
    residuals = se_test - trend
    # 使用向前填充, 前面数据可以不用,数据量不大,填充的价值很小
    residuals.fillna(method='bfill', inplace=True)

    # 绘制分解后的组件
    plt.figure(figsize=(12, 8))

    plt.subplot(411)
    plt.plot(se_test, label='Original')
    plt.legend(loc='best')

    plt.subplot(412)
    plt.plot(residuals, label='Residuals')
    plt.legend(loc='best')

    plt.tight_layout()
    plt.show()

    # 使用PCA计算异常得分, 经过实验这种周期性明显的数据, 离线生成阈值,再结合得分算异常,不如直接取多天比如四天的数据再统计更准确
    pca = PCA(n_components=1)
    pca_fit = pca.fit(residuals.values.reshape(-1, 1))
    # 将这些数据重塑为一个二维数组,其中每一行代表一个数据点,每一列代表一个特征。-1是一个占位符,表示该维度的大小应自动计算
    principalComponents = pca_fit.transform(residuals.values.reshape(-1, 1))
    # principalComponents ** 2将每个主成分值平方。np.sum(principalComponents ** 2, axis=1)沿着每个数据点的维度(即,沿着列)求和,得到每个数据点的主成分得分的平方。np.sqrt(...)则取平方根,得到每个数据点的主成分得分
    scores = np.sqrt(np.sum(principalComponents ** 2, axis=1))

    # 通过箱型图确定异常阈值
    q1 = np.percentile(residuals, 25)
    q3 = np.percentile(residuals, 75)
    iqr = q3 - q1
    lower_bound = q1 - 10 * iqr
    upper_bound = q3 + 1.5 * iqr

    # 找出异常的残差
    outliers_residual = (residuals < lower_bound) | (residuals > upper_bound)

    # 结合PCA异常得分和箱型图异常阈值确定最终的异常数据,outliers_residual这个就比较准
    # 这里假设只有残差箱型图和PCA得分同时满足异常条件时,才认为是真正的异常
    # 该阈值是均值加上两倍的标准差。在统计学中,一个数据点如果其值超出了均值加减两倍标准差的范围,通常被认为是一个相对比较极端的值(在正态分布的情况下,大约95%的数据会落在这个范围内,所以超出这个范围的值是相对罕见的)
    final_outliers = (outliers_residual) & (scores > np.mean(scores) + 2 * np.std(scores))
    # 打印异常数据的索引 todo 最后告警要有连续的几分钟比如十分钟才告警来
    res = final_outliers[final_outliers].index.tolist()
    print("异常数据索引:", res)

平稳性数据使用PCA检测

import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from pyod.models.cblof import CBLOF
import pandas as pd


def CBLOF_fit_check(data_scaled_inner_2):
    # 使用CBLOF计算异常得分
    cblof = CBLOF()
    y_pred_cblof = cblof.fit_predict(data_scaled_inner_2[['value']])
    scores_cblof = cblof.decision_function(data_scaled_inner_2[['value']])

    # 将scores_cblof转换为Pandas Series(如果它还不是的话)
    scores_series = pd.Series(scores_cblof)

    # 计算四分位数Q1和Q3
    Q1 = scores_series.quantile(0.25)
    Q3 = scores_series.quantile(0.75)
    # 计算四分位距IQR
    IQR = Q3 - Q1

    # 定义异常值范围, 动态值变化下
    lower_bound = Q1 - 10 * IQR
    upper_bound = Q3 + 10 * IQR
    # 找出异常值,todo 思路是对的找数据的异常值, 还没处理不过没关系
    outliers = np.any((scores_cblof < lower_bound) | (scores_cblof > upper_bound))
    # 打印异常值
    print("Outliers in CBLOF space:", outliers)


if __name__ == '__main__':
    val = [9.07, 9.28, 9.37, 9.61, 9.89, 10.11, 10.29, 10.42, 10.45, 10.39,
           10.83, 10.79, 10.75, 10.83, 10.85, 10.75, 10.70, 10.64, 10.65, 10.68,
           10.83, 10.79, 10.75, 10.83, 15.85, 10.75, 6.75, 8.75, 126.75, 118.75,
           116.75]
    ind = ['2022-07-24 08:00:00', '2022-07-24 08:01:00', '2022-07-24 08:02:00', '2022-07-24 08:03:00',
           '2022-07-24 08:04:00', '2022-07-24 08:05:00', '2022-07-24 08:06:00', '2022-07-24 08:07:00',
           '2022-07-24 08:08:00', '2022-07-24 08:09:00', '2022-07-24 08:10:00', '2022-07-24 08:11:00',
           '2022-07-24 08:12:00', '2022-07-24 08:13:00', '2022-07-24 08:14:00', '2022-07-24 08:15:00',
           '2022-07-24 08:16:00', '2022-07-24 08:17:00', '2022-07-24 08:18:00', '2022-07-24 08:19:00',
           '2022-07-24 08:20:00', '2022-07-24 08:21:00', '2022-07-24 08:22:00', '2022-07-24 08:23:00',
           '2022-07-24 08:24:00', '2022-07-24 08:25:00', '2022-07-24 08:26:00', '2022-07-24 08:27:00',
           '2022-07-24 08:28:00', '2022-07-24 08:29:00', '2022-07-24 08:30:00']
    se = pd.Series(val, index=ind)
    # 将Series转换为DataFrame
    data = pd.DataFrame(se, columns=['value'])

    # 期望结果为一个二维数组,所以添加一个时间序列的整数表示列
    data['time'] = range(len(data))

    # 标准化
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(data)

    # 使用PCA
    pca = PCA(n_components=1)
    # 训练数据 data_scaled可以改变, 这里数据量不大暂时取相同的
    pca_data_train = pca.fit_transform(data_scaled)
    # 真正测试
    pca_data_test = pca.fit_transform(data_scaled)

    # 识别异常值
    Q11 = np.percentile(pca_data_train, 25, axis=0)
    Q31 = np.percentile(pca_data_train, 75, axis=0)
    IQR1 = Q31 - Q11
    # 定义异常值范围
    lower_bound = Q11 - 1.5 * IQR1
    upper_bound = Q31 + 1.5 * IQR1
    # 找出异常值
    outliers = np.any((pca_data_test < lower_bound) | (pca_data_test > upper_bound), axis=1)
    # 打印异常值
    print("Outliers in PCA space:", outliers)

    # CBLOF检测 也可以识别出来不过会有误告,相对来说上面数据集PCA准确一些,可以结合起来,一个非常大三个比较大徒增数据PCA只会
    # 报一个,三个比较大PCA都会报,CBLOF也会报但总有误报
    #CBLOF_fit_check(data)

    # IForest, 聚类这块不太准确
    # 使用IForest计算异常得分, contamination参数表示数据集中异常点所占的比例
    # 使用IForest计算异常得分, 箱型图计算的有点问题
    # clf = IsolationForest(contamination=0.1)  # contamination参数表示数据集中异常点所占的比例
    # preds = clf.fit_predict(data[['value']])
    # scores = -clf.decision_function(data[['value']])  # IForest的异常得分,负数表示异常程度
    # # # 计算Z-score
    # z_scores = np.abs(stats.zscore(data['value']))
    # # 使用箱型图计算阈值
    # Q1 = data['value'].quantile(0.25)
    # Q3 = data['value'].quantile(0.75)
    # IQR = Q3 - Q1
    # threshold_box = Q1 - 1.5 * IQR  # 箱型图的异常值阈值
    # # 结合Z-score和箱型图阈值
    # threshold_combined = np.max([threshold_box, np.mean(z_scores) + 2 * np.std(z_scores)])  # 2是Z-score的标准差倍数阈值
    # # 识别异常数据
    # outliers_iforest = data[scores < threshold_combined]
    # # 打印结果
    # print("IForest identified outliers:")
    # print(outliers_iforest)


周期性数据突增突降主流程

前置

  • 判断是周期型数据,或者平稳性数据,或者既不是周期型也不是平稳型数据,周期型数据判断是根据fft频谱与自相关系数判断是否具有周期性,当然也训练时有一天以上数据, 平稳型数据根据ADF检验是否平稳
  • 自动判断周期型数据的周期根据ACF自相关系数判断

流程

主要分为两个阶段

  1. fit阶段: 每天获取两天前的三天前到两天前的数据进行训练

  2. 通过上下四分位数的差计算出四分位距,绝对下界为下四分位 - 四分位距 * 传入的常数, 绝对上界等于上四分位 加 四分位距 * * 传入的常数,这种绝对上下界在数据预处理异常数据等用重要应用,类似统计学的箱线图算法,随机森林异常值检测也用到四分位距

  3. predict阶段: 每分钟获取两天前到现在的数据进行预测,主要预测最近三十分钟数据是否有异常


参考文章

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容