桥梁监测数据预处理内容介绍
1 桥梁监测数据预处理流程
桥梁监测原始数据采集并传输到数据中心后,这些数据伴有许多噪声与异常问题,首先要这些数据进行可信度评估、数据清洗工作,为了便于后面的数据分析,一般还要做数据统计分析、特征创建和数据降维,这些都是数据预处理要做的工作。
大致可以分为:
①传感器数据的可信度评估,也就是利用各种方法检测出有问题的数据序列和采集这些据序列的传感器,保证数据的正确性,确保可以用来进行数据分析。
②数据的清洗,也即,对监测数据进行异常数据剔除,然后进行插补
③监测数据的统计分析,也就是对具有连续性、时序性的桥梁监测数据统计或记录一些对后面数据分析有用的特征,如均值、方差、最大值和最小值等。有些监测系统还需要对监测数据进行数据概化和规范化。
④监测数据的特征创建,也就是用各种方法与模型对桥梁监测数据进行特征创建,代替原始的时序监测数据作为特征矢量,以便于后面的数据挖掘。
⑤数据降维,当数据维数或者构建的特征数量过多时,如果把这些参数值都作为算法的输入向量,会有可能会导致维灾难,也会影响算法的效率和准确度。这时就要做数据降维,减少输入向量的维数,可采用主成分分析、奇异值分解、特征子集选择等方法。
预处理的主要工作集中在前三个部分,后面两个部分一般根据数据分析的需求来确定是否需要。预处理的每个部分都是很重要的,但不是每个部分工作是孤立的,就像传感器数据的可信度评估,在可信度评估前要对数据做滤波去噪工作,做一些必要的数据处理工作,以便能准确的做传感器数据的可信度评估。还有在数据的特征创建的过程中,可能需要对监测数据进行统计分析,以便更科学的对监测数据做特征创建,本文主要研究前三个部分的工作:数据的可信度评估、数据清洗和监测数据的统计分析。
2桥梁监测数据预处理方法介绍
传感器数据可信度评估的评价方法如下。
①利用传感器返回的状态标志判断数据的可信度,因为每个传感器都有采集时的状态标志。
②对每个传感器的数据建立历史趋势模型,桥梁监测数据都是时序数据,可用时序序列分析技术建立历史趋势模型,建立模型的数据要用开始采集的正常的据。建立模型后,可根据模型来预测数据,只要是不在预测范围的都是不可信的数据。
③对同截面、同类型的传感器建立模型。可以对同一个截面的各类传感器建立相关模型,判定一个传感器数据时可以根据其他数据来确定是否可疑。也可以对同类型相的传感器数据进行关联度分析,确定关联度阈值,然后根据关联度分析计算得到的概率与阈值相比,若小于阈值,则关联性好,说明传感器工作正常;否则关联性不好,说明有传感器工作不正常。
数据清洗要对监测数据进行滤波去噪、去除异常值、数据插补。
1)滤波去噪的常见方法有平均值滤波、中值滤波、复合滤波等。近年来小波技
术也被常用于滤波去噪,并且展现了比较好的性能
2)异常值一般分为单点异常值和连续异常值,针对单点异常值剔除方法有固定
阈值法和基于样本阈值方法。对于连续异常值得剔除方法还没有比较好的方法,
也需要根据具体数据特性具体分析。
3)数据插补研究比较多所以方法也比较多,方法有均值插入法、时间序列移动
平均模型插值法、拉格朗日插值法、神经网络插补法等。
数据的统计分析就是利用数理统计的方法计算与记录监测数据的特征。
1)桥梁监测系统所采集的监测数据受到很多方面因素的影响,桥梁监测数据也
是一个连续、长时间的时序数据,统计桥梁监测数据一段时间内的的均值、方差、
绝对方差、最大值、最小值等特征,可以反映桥梁结构的变化。
2)数据概化,对监测数据进行时间序列分析,获得更有意义地结果,把数据采
集时间通过数理统计概化到天、周、月、季度和年份,可以更好观察监测数据的
规律性。或者对一个时间段的不同监测参数做关联性分析,将这几种监测数据的
数据融合存入一个数据表中
3)数据规范化,不同的桥梁监测参数取值范围是不同,如温度相对于挠度变化
的数值区间较大,把不同监测参数的取值区间规范到同一个区间
监测数据的特征创建的方法基本有 4 大类:基于统计方法的特征创建,基于模型的特征创建,基于变换的特征创建,基于分形维数的特征创建。
1)基于统计方法的特征创建,对时域数据统计方法有均值、极值、方差等特征,
对频域信息采用功率密度比、功率谱、平均功率频率等方法统计功率谱密度、熵
值、平均功率和中值频率等特征。用统计方法提取了特征向量后,可以采用构造
分类器对提取出的特征向量分类;也可以采用神经网络对从监测数据中提取的特
征向量进行分类此,这样可以达到比较好效果。它基于统计方法的特征创建比较
适合统计特征比较明显的时间序列数据。
2)基于模型的的特征创建的方法是用合适的模型刻画时序数据,然后计算提取
模型的系书作为特征向量。对于平稳的时间序列,常采用自回归模型(AR 模型)、
移动平均模型(MA 模型)、自回归移动平均模型(ARMA模型)等。对于非平稳时间
序列,常采用 ARIMA 模型(差分自回归移动平均模型)。
3)基于变换的特征创建一般分为基于时频变换的特征创建和基于线性变换的
特征创建。基于时频变换的特征创建是时域信息变换成频域信息,在这变换的过
程中提取出有用的特征向量。常采用的变换方法有傅里叶变换、小波变换和倒谱
系数等手段。桥梁监测数据一般来说都是时序数据,可能含有大量周期模式,并
且也很有可能存在大量噪声,在时域角度很难检测这些模式,通过对时序数据实
施傅里叶变换,将它转换成频率数据信息明显的表示,就能检测到这些模式了。
经过验证,对时间序列数据实施小波变换也非常有用。基于线性变化常采用的变
换手段有 PCA(主成分分析)、小波变换、神经网络等。
4)基于分形理论的特征创建,利用分形理论的自相似现象的特点,用局部特征
代替整体特征。分析理论的真正发展不到 20 年,但应用于时间序列数据的特征提
取已越来越广泛了。至于是否应用分析理论对时序数据进行特征创建,要看时间
序列数据的特征符合分析理论的自相似现象。
数据降维的目标就是降低输入向量的维数,并且维数降低后没有失去所需要的数据信息。常用的方法有主成分分析、奇异值分解和特征子集选择。主成分分析是一种用于连续属性的线性代数技术,它找出数据的新的属性(主成分),这些属性是原属性的线性组合,是相互正交的,并且捕获了数据的最大变差。奇异值分解,它与PCA有关,也适用于数据降维。
《经过本人整理总结成文,非本人原创,旨在交流技术,广交天下朋友!》