本次异常监测背景条件为交通数据挖掘中的流量-时间占有率的分析
根据前辈们的经验积累,在交通方面,车辆在较低时速的时候会位置着一个比较恒定的车头时距,但是当车辆速度比较大的时候就不会维持这一距离了,往往会根据自己的个人喜好决定实际跟车距离,其实稍微一想,在现实中,这种描述确实很准确。做一个图的话就是一个倒V字形。
对于将要做的异常监测来说,这是一个非常重要的先验知识,。配合分箱异常检测方法(通过考虑邻居的值来平滑存储数据的值)。我们对f(x)分别进行缩小和放大得到fmin(x)和fmax(x)的值作为上界以及下界,使得交通流量-时间占有率尽量分布在max和min之间,而落在之外的即为异常数据。根据倒V理论,我们指导,在不同的时间占有率范围内,车流量的波动程度不同,所以我们对于f(x)进行放大和所辖应该一句时间占有率范围的不同而不同。
首先将时间占有率划分为101个等分区间,f(x)上面n个和下面n个,分别对这个2n个区域中分布的点求平均车流量和平均占有率就可以得到各个区域中心点:上界点(AvgFlowUpi,AvgAccuUpi)/下界点(AvgFlowDowni,AvgAccuDowni) [i=1,2,3,....n],对各个区域车流量求标准差得到:上界区域stdFlwoUpi/下界区域stdFlwoDowni[i=1,2,3,4...n],如果某一个区域没有数据那么不进行计算,这样在原你和曲线上方和下方均可以建立新的数据点:上界区域(NewUpFlowi,NewUpOccui)/下界区域(NewDownFlowi,NewDownOccui)[i=1,2,3,4...n];其中上下新数据点的计算公式为:
NewUpFlowi=AvgFlowUpi+σ*stdFlowUpi
NewUpOccui=AvgAccuUpi
NewDownFlowi=AvgFlowDowni+σ*stdFlowDowni
NewDownOccui=AvgAccuDowni
σ为放缩因子,使用三次多项式对上方和下方的心数据点以及(0,0),(100,0)点进行拟合就可以得到fmax(x),fmin(x)两个多项式,
做出图如图所示,只要不包含在边界之内的就是异常值