问题描述:
什么是异常?
取决于你提供什么样的训练资料
异常检测的应用:
异常检测思路一——二分类思路?
难点:不平衡的数据集,异常难以定义(异常的种类很多,不能单独归为一类),异常的资料难以收集
异常检测的分类
有标签:可以将没有标签的那一类归为“unknown”,这类问题也叫open-set recognition
无标签:1)所有的数据都是正常数据 2)只有小部分数据为异常数据
Case1——有标签的异常检测
输入x,通过分类器,不仅输出标签,而且输出信心分数(表示对这个类别的信心为多少),通过信心分数与阈值的比较来决定是否为异常。
可以在训练神经网络时,直接输出信心分数。
异常检测的衡量指标:
取决于解决什么问题,误判的代价大,还是漏判的代价大。
Case2——无标签的异常检测
找到一个P(x),利用概率模型来进行异常检测
找到使得,产生如下概率分布的可能最大的参数
例如高斯分布:
其他方法:
如果无法通过编码解码得到原图,则为异常