摘要:
在过去的几年里,传感器的使用有了巨大的增长,成为许多不同领域的宝贵工具。在这种情况下,数据的质量成为一个极其重要的问题;然而,对这一特定主题的关注并不多,只有少数现有作品关注这一问题。在本文中,我们提出了一个建议,用于管理安装在病人家中的传感器的数据流,以监测他们的健康状况。它的重点是处理传感器的数据流,同时考虑到数据质量。为了实现这一目标,我们提出了这种数据流的数据质量模型和监测系统的架构。此外,我们的工作引入了一种机制,以避免由数据质量问题产生的错误警报。
1 Introduction
在过去几年中,传感器的使用有了巨大的增长,成为许多不同领域的宝贵工具,如天气预报、驾驶辅助、水位和质量监测、智能家居和健康监测。传感器产生的数据流,一般来说结构简单,但产生的速率非常高。在这种情况下,数据的质量成为一个极其重要的问题,特别是在必须根据所获得的数据做出关键决定的情况下。然而,对这一特定主题的关注并不多,只有少数现有作品关注这一问题。
通过使用传感器的健康监测有时被用于老年人的护理。不同种类的传感器被安装在他们的家里和病人身上,以监测他们的行为和生命体征(血压和体温)[7-10]。他们的行为很重要,例如,在阿尔茨海默病患者的情况下。传感器提供的数据直接传输到医院,这样就可以对病人进行监控,避免他从一个地方到另一个地方的移动。医院收到的数据通过监测系统进行持续评估,当检测到可疑数据时就会产生警报。
这项工作是在上一段所述的背景下进行的,重点是处理传感器的数据流,并考虑到数据质量(DQ)。本工作是在上段所述的背景下进行的,重点是处理传感器的数据流,同时考虑到数据质量(DQ)。为了实现这一目标,我们提出了健康传感器数据流的DQ模型、监测系统的架构以及健康警报和DQ警报生成机制。这项工作的主要贡献是提出了一个专门针对来自家庭和病人传感器的数据流的DQ模型。
根据参考文献[12],数据流是一个连续的、有序的元素序列,其中的元素 [12],数据流是一个连续有序的元素序列,其中元素是实时呈现的。对数据流进行动态查询的机制是通过数据窗口,它从数据流中获取某些部分的数据。窗口可以考虑元素的数量进行逻辑定义,也可以考虑持续时间进行物理定义,即在某个时间段内到达数据流的数据[13, 18]。数据流管理系统(DSMS)为管理动态数据流和连续查询提供了一个数据模型,即在数据到达时处理数据的查询[1, 2, 6, 11]。
2 Related Work
正如我们之前所说,在传感器数据流质量方面已经做了一些工作。在参考文献中。[14]中,作者指出,这种数据的质量限制不能被忽视,应该被仔细管理,以便进行详尽的评估。这在直接消耗传感器数据的应用中尤为重要,它们的质量成为一个关键问题。在其他一些应用中,来自传感器的数据被存储在数据库中,以便以后进行处理。在这些情况下,DQ对于由数据支持的决策仍然是至关重要的。在参考文献中。[15],提出了一个数据流元模型,以允许DQ信息向相应的商业应用传播。作者将他们的分析集中在准确性和完整性的质量维度上。后来,在参考文献中。16]中,提出了一个更完整的质量模型(管理五个DQ维度),并分析了数据流处理操作员对DQ的影响。
[5]作者提出了一个基于传感器数据完整性的直观概念的模型。他们测量到达消费点的数据量,并将其与该点的最大可能数据量进行比较。
在参考文献中。[20],提出了一些减少传感器网络能耗的机制。这些 机制保证了一定水平的DQ,因此它们在能源效率和总体数据质量之间提供了一个平衡。他们提出了一个指标,叫做相对误差指标,用来衡量准确答案和近似答案的接近程度。一个近似的答案是指一些传感器未能发送其当前读数或决定不发送。关于质量维度,我们注意到他们衡量的是聚合数据的准确性,他们也衡量响应时间的新鲜度。
参考文献中使用了一种概率方法。[17]用于评估传感器数据的质量--对传感器读数的不确定性进行建模。传感器读数中的不确定性。DQ在数据处理的不同层次上进行管理,从传感器数据值到高层情况检测。
最后,参考文献中提出了一个基于事件的解决方案,以改善卫生系统中的DQ。[4]. 提出了事件处理技术,用于监测卫生机构之间交换的数据流和检测质量问题。他们专注于两个质量方面:与统计数据有关的数据一致性,以及重复检测(实验室订单)。他们使用警报来通知检测到的问题。
我们的工作提出了一个针对健康监测背景的DQ模型。它管理着一套广泛的质量维度,也区分了不同的因素,这些特点使得对DQ的研究更加详细和完整。此外,除了定义DQ模型,这项工作还引入了一种机制,以避免由DQ问题产生的虚假健康警报。
3 Health Monitoring System
我们考虑一个有三个房间的智能家居,一个卧室、一个厨房和一个浴室,以及一个患有阿尔茨海默病的人。每个房间都配备了两个超声波距离传感器,测量一些物体与传感器的距离。当人在房间里时,传感器报告与该人的距离。我们还有两个身体上的传感器:一个用于血压监测,一个用于温度计。同时,有一个系统接收和管理来自传感器的数据,以检测 人的行为或生命体征是否有某些变化。这是一个实时和自动的系统,能够分析来自不同传感器的数据流并在预定的情况下发出警报。
3.1 Proposed Architecture

用户对系统的访问点是监测组件,他应该首先定义需求、质量参数和在他的特定环境中需要的警报。然后,中间件负责管理分布式和动态查询的执行。
数据质量管理器负责测量从查询中获得的数据的质量,并用质量值来丰富数据。该模块与中间件进行交互,这样中间件就能将富含质量值的数据窗口返回给监测组件。一个包含历史血压数据的数据库由数据质量管理组件维护和查询,以评估压力值的准确性,并由监测组件评估病人的情况。
监测组件负责对在家的人进行监测。它的一些功能是控制病人的温度和血压,并知道病人在家里的哪个房间。它包括一个警报系统,根据设定的参数和从传感器获得的信息启动警报。
数据处理组件的功能是管理从中间软件获得的信息,并将结果返回给监测组件。
4 DQ Model and Management
在拟议的方案中必须考虑几个DQ问题。
(i) 由于错误的传感器测量,在定位房子里的人时可能会出现错误。
(ii) 在一个预定的时间段内没有传感器测量:这个问题包括所有类型的传感器。
(iii) 血压传感器的测量值高于根据该人血压的历史数据所预期的正常值。这可能是由于病人的健康问题(应发出警报;见第3.1节)或由于DQ问题。
(iv) 对于血压传感器和温度传感器的数据,都有一个最大和最小的有效值,应该得到尊重。
(v) 适当的传感器测量速率。当增加传感器测量速率时,能源成本和网络流量会增加;因此,这个速率应该平衡所需的数据频率和系统支持的能源和流量。
考虑到前面描述的问题,为了管理这些问题,我们定义了一个DQ模型,指定了一套适用于相关数据的度量。表1显示了定义的DQ模型。对于应用于某种传感器的每个质量因素,都定义了一个度量;例如,对于应用于距离传感器数据的精度因素,定义了Dist-Rec度量。
每个距离传感器都有一个最小值,从这个值开始,它可以测量一个距离(其精度)。DistPrec验证一个数据窗口的传感器值是否满足这个最小值(问题1)。
Pres-Acc评估血压值是否超出了预期值,在这种情况下,可能存在DQ问题或值得特别注意的情况(问题3)。
Dist-Dens适用于距离传感器,因为计算一个人在房间里的位置时,需要最小数量的非空传感器值(问题1)。
每个传感器应该以系统中定义的最小频率发布数据;
货币因素的度量被用来验证这一要求的满足程度(问题2和5)。域完整性因子的指标控制传感器的值是否属于系统中定义的某些整数范围(问题4)
Dist-Cons适用于同时来自几个不同距离传感器的几个数据窗口。它的目标是测量两个不同房间的距离传感器的值是否一致,即它们不显示人同时出现在两个房间(问题1)。

定义的指标的粒度是数据窗口,但Dist-Cons的情况除外,该指标同时与几个传感器窗口相关。请注意,准确度和域完整性指标的计算结果考虑了满足所需条件的窗口值的数量。数据质量管理器组件将DQ信息附加到数据流中。图2显示了 与数据窗口和附加的DQ信息相对应的概念模式。这不适用于Dist-Cons指标,该指标由数据处理组件计算)。
例如:考虑到家里房间里的距离传感器。从中间件发送到数据处理组件的每个数据流具有表2中所示的格式。质量值的计算是使用建议的质量模型,在数据窗口上应用各自的质量指标。在数据窗口上的距离传感器。在这个例子中,在第二个数据窗口,有一个传感器精度的问题,因为它的一些值低于传感器的最小值,所以精度=0.3。平均-而在第三个窗口中,有一个空值,所以密度=0.7。数据处理组件整合了来自所有房间的距离传感器的数据,检测出人在家中的位置 人在家中的位置,并计算出相关的质量信息。表3显示了一个生成的数据流的例子。我们考虑到10分钟的范围和房子的房间:卧室(Be)、厨房(K)和浴室(B)。在表中,我们可以看到,系统使用大小为3的窗口返回病人的位置,以及相应的质量值。


5 Alarm Generation
该系统的主要功能是使用所安装的传感器监测家中的人。这是通过对数据流的分析来实现的,考虑到用户设置的参数以及数据的质量。根据这种分析,将获得不同的输出。如果检测到传感器错误,将产生某些警报,而如果检测到潜在的病人健康问题,将产生其他警报。在下文中,我们介绍两个可能产生警报的情况的例子。
情况1:为了检测人在房子里的位置,在每个房间都放置了两个距离传感器,以便系统能够获得人的位置。这样系统就能得到人的位置。
- 如果一个或两个传感器的信息缺失(度量Dist-Dens),那么系统就会返回一个DQ警报,表明遇到的DQ问题。
- 如果该人同时位于两个房间内(公制Dist-Cons),那么系统就会返回一个DQ警报,表明遇到了DQ问题。
- 否则,如果两个距离传感器将人定位在一个房间里,而在预先设定的时间段内,另外两个传感器检测到人在另一个房间里,并且这种行为在另一个预先设定的时间段内重复,那么可能会有人被激怒的风险,所以系统会返回一个健康警报。
图3显示了系统组件的动态,以及它们 如何在这个用例中互动以发送健康警报。如果病人在短于预定参数(变化周期)的时间内从一个房间移动到另一个房间,这被认为是一个潜在的问题;但是,如果这种行为重复了一些时间(时间段参数化的躁动周期),系统应该发送警报,表明病人正在遭受躁动。图4显示了该算法。

监测系统认为,当病人在短时间内被检测到出现在不同的房间时,他很可能是激动的。在很短的时间内被检测到在房子的不同房间里,就认为病人可能处于激动状态。系统用户设置了两个参数:变化周期和躁动周期。变化周期表示在两个不同的房间里检测到的人之间所经过的最大时间段。躁动期表示病人在屋内不断改变位置的时间段的最小值。图4显示了确定是否产生由人的躁动引起的健康警报的算法。
Situation 2:
为了检测病人的高血压或低血压,该系统使用了一个体外压力传感器。这个传感器定期测量病人的压力,系统另外使用历史压力数据来比较这些数值并检测健康问题。
- 如果在预定的时间段内没有来自传感器的信息(公制Pres-Curr),那么系统就会返回一个DQ警报,指出遇到的DQ问题。
- 如果从传感器测得的信息超出了系统指示的参数(公制Pres-Dom),那么系统就会返回一个DQ报警,表明遇到了DQ问题。
- 否则,如果测量值超过病人的最大历史压力值(从历史压力数据库中获得)或低于最小历史压力值,并且如果这种行为持续一定时间,那么这种情况表明病人的血压高/低,系统会返回一个健康警报。
图5显示了系统组件的动态,以及它们如何在这个用例中互动以发送健康警报。
监测系统认为,如果在确定的连续测量次数中,血压测量值超过了最大历史压力值,则病人有高血压。另外,如果在相同数量的预定测量中,测量值低于最低历史压力值,则系统认为是低血压。由系统用户设置的一个参数period_prec表示考虑血压问题的连续测量的数量。图6和图7介绍了确定是否产生由人的高/低血压引起的健康警报的算法

6 Conclusions
在本文中,我们提出了一个建议,用于管理安装在病人家中的传感器的数据流,以监测他们的健康状况。我们描述了传感器数据中可能存在的一系列问题,考虑到这些问题,我们提出了一个DQ模型。此外,还提出了一个负责处理传感器数据的系统架构。
最后,通过两个例子介绍了一种生成健康警报和DQ警报的方法。例子。我们强调了沟通DQ错误及其细节的重要性。DQ警报是应用DQ度量的结果,它抛出了关于错误种类和问题程度的信息。系统的用户将拥有识别数据错误的要素,并采取行动来纠正和防止错误。该信息作为DQ警报发送,区别于任何其他错误信息。除此以外,还有健康警报,其目的是通知病人可能出现的健康问题。
这项工作中提出的DQ模型是专门为特定环境和特定种类的传感器设计的。然而,这个建议可以被看作是朝着为传感器数据流定义一个通用的DQ模型迈出的一步。这项工作是正在进行的两篇研究生论文的一部分,其中正在对最适合传感器数据流的DQ维度和度量进行更深入的研究,同时也在探索利用DSMS的特性实现质量度量。在这种情况下,所提出的解决方案的实施正在进行中。