2019-10-24

基于Apriori算法的关联规则分析模型

基于Apriori算法的关联规则分析模型

5.3.1基于Apriori算法的关联规则分析

桥梁是一个复杂的结构系统,桥梁的监测参数受各方面的影响,与此同时,监测到的桥梁各参数也会发生变化,各参数代表的含义也不太一样,比如挠度是竖直方向位移的表示,倾斜角是竖直和水平方向位移的联合表示,索力是拉索拉力的表示。各属性之间既相互独立有相互关联。同时各参数都是在一定的条件下测量得到,如温度和湿度条件在测量时相对固定。

建立桥梁状态评估的Apriori模型,通过对监测的历史数据分析,形成桥梁数据各属性之间强的关联规则,同时对各属性之间潜在的关联规则挖掘,为桥梁状态的评估提供更多的有数据支撑的依据,适应在线评估系统的实时性和快速性要求。对采集频率较快的系统或属性提供更有效的方法,利用构造FP-tree方法,减少对数据库的访问,更快的实现规则的挖掘。

5.3.2 算法实现及分析

1)数据分箱

由于桥梁各属性通过传感器采集数据,数据类型一般为数值型数据,Apriori算法处理的数据一般为序列值或者符号型数据,需要对数据进行分箱化处理。通过对各属性做分箱化处理,减少由于各属性取值范围对模型的影响,根据数据值采取等间隔分箱,根据数据量的大小以及考虑算法的性能本文采用分箱数目为 4。通过分箱后,各种属性的值由连续值变为符号化的值,值的取值为 1、2、3、4。这样就构建了适合于模型处理的结构化数据。

对原始的数据做标准化后,并且按照等距离进行分箱后,得到形如 1、2、3、4 离散的变量,各属性分箱对应表如图 5.7-图 5.10 所示,根据分箱的对应性,可以得到对应的各属性的值域。

2) 支持度和置信度的计算

一旦由数据库D中的事务找出频繁项集,由它们产生强关联规则是直截了当的(强关联规则满足最小支持度和最小置信度)。对于置信度,可以用下式,其中条件概率用项集支持度计数表示。

由于规则由频繁项集产生,每个规则都自动满足最小支持度。频繁项集连同它们的支持度预先存放在散列表中,使得它们可以快速被访问。

最小支持度和最小置信度阈值的大小对生成规则有很大的影响,支持度为序列在总体数据库里所占的比率,置信度为在某个状态下另外属性相应状态的条件概率。当阈值设置得太大时,不容易得到规则,当阈值设置得太小时,生成的规则太多,难以提取有效的规则,同时由于Apriori每次增加项集时,需遍历数据库,影响算法的实现效率。为了减小模型的复杂度,设置最大的前项数目为5。

对桥梁监测数据进行关联挖掘根据统计学的特性,提取正常状态下桥梁的数据,根据各类属性之间的相互关联序列形成相关的规则,当各类属性序列出现的频率较高时,这判定此序列为正常状态下的一个模式,当实时或者最近的数据序列中,当序列的前几个属性对应规则中的数据值时,而序列的后几个属性偏离规则中的值时,则可能是桥梁的结构发生了变异,需及时的跟踪和查找桥梁的状态,将桥梁的危害发现在萌芽状态。

3)项集和关联规则

为了得到在桥梁正常营运过程中的常规数据模式,通过设置最小支持度和最小置信度来得到强关联规则,根据Apriori算法的性质,算法分为连接步和剪枝步,连接步通过查找各个属性子序列在数据库中的支持度,同时以子序列为前件,计算以另外属性为后件的置信度,

4)结果验证和意义的分析

Apriori提取的规则是在数据记录中,满足支持度和置信度大于设置的阈值时得到的频繁模式和强规则,并不一定符合所有正常状况记录的数据。因此对于这些规则的验证方法是判断验证数据集是否也具有相似的规则支持度和置信度,对于这些规则的应用同样也是用于判断给定的一段时间数据记录的强规则是否具有相似的支持度和置信度,相似时表明桥梁结构状况正常,否则可能有异常变化。可能是桥梁的结构发生了变异,这时需及时跟踪数据值的变化动向,以及查找与属性对应的桥梁的状态。

采用2011年6月所采集的120条数据对强关联规则进行验证:

通过验证可以看出,对应于样本集产生的强关联规则,根据强关联规则中的属性,验证集中属性落入强关联规则值域的记录数占验证集的比例基本与样本集一致,再以与样本集规则中同样属性作为前件的情况下,得到同样后件值域的置信度准确率平均为 98.87%。通过对样本集和验证集对比可看出,从样本数据得到的规则的具有较强的有效性。能有效地预测和归纳当前或以后的监测数据。

当桥梁的结构发生变异,影响桥梁的安全性时,此时结构的变异是不可逆过程,则桥梁的监测参数值将发生整体的偏移,对应于强关联规则中的属性,属性值也将发生整体的变化,当监测的数据或以后的数据集中,对于强关联规则中的属性,当支持度与置信度与正常数据样本集产生的规则的支持度和置信度发生较大的偏离时,则桥梁可能出现了异常。

此外,Apriori算法生成的规则可能会出现下述问题,因此对于规则的应用需要结合具体的桥梁专业知识进行具体分析。

①强关联规则不一定有意义,这时,通过挖掘出来的规则就可能起到误导的作用。这时,需提高对置信度阈值的设置,在一定的程度上减少这种规则的产生。同时,根据数据的统计特性,人工甄别这些规则。

②有意义的规则不一定是强关联规则。某些有意义的序列并不一定在总的事务中占大的比例,但是这些小比例事务可能蕴含了有价值的信息。判断规则的意义需从客观的因素和主观的因素去考虑,得到的规则需结合业务模型总体考虑,从客观的数据的角度得到的规则并不是全有意义,有意义的信息也不全包含在规则中,一些项目集的事务数在总事务数中占有的比例很少,但有可能隐含了一些有意义的规则。

基于数据的统计特性得到的关联规则提高分析效率,同时找到隐含的规律,对于支持度较小的可能有意义的规则,则通过本文中的Kohonen聚类算法或其它的方法,协助来寻找此类型规则,如根据聚类形成的簇,与其它的簇距离较大且簇中记录较少,对这些集中的记录进行重点的分析。

《来源科技文献,经本人分析整理,以技术会友,广交天下朋友》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容

  • 大数据预处理 数据预处理 由于所要进行分析的数据量的迅速膨胀(已达G或T数量级),同时由于各种原因导致了现实世界数...
    石显阅读 1,157评论 0 0
  • 对数据预处理方法的整体改进意见 对数据预处理方法的整体改进意见 通过对数据预处理方法的进一步学习和分析,得出对数据...
    石显阅读 428评论 0 0
  • 桥梁振动信号的预处理 桥梁振动信号是指布设在桥梁各处的传感器,将收集到各通道的信号经过放大器或变换器转化后,再由被...
    石显阅读 466评论 0 0
  • 明天就放假了,今天下午因为停电,所以没有上课。很期待明天呢,因为可以回家了。晚安!回家后还有很多事情要处理。
    青山外客阅读 92评论 0 0
  • 这是一篇我很久以前发表在博客园的文章,因为最近更新了机子的环境,又要重新设置一次环境,现在就体验到经常写文章的好处...
    梁睿坤阅读 3,207评论 0 0