阅读笔记:Mining Human Activity Patterns From Smart Home Big Data for Health Care Applications

Abstract

在论文中提出了一个为健康医疗应用利用智能家居大数据作为学习和发现人类活动模式的方式的模型。我们提出了频繁模式挖掘聚类分析,和针对衡量和分析由居住着行为触发的能量使用变化的预测。人们的行为是跟人们的日常挂钩的,因此发生异常时可以对人们进行提示。本文强调了分析人们在器械上临时能量消耗的需要。
数据集:U.K. Domestic Appliance Level Electricity data set
结论:通过家电的使用判定人类活动模式,得到了短期和长期预测的准确率。


I. Introduction

使用智能仪表监测人类活动的原因:

智能仪表数据具有时间序列概念,通常包括在一段时间间隔内的组件设备的使用和消耗测量模式。

所面临的的问题:
  • 当操作重叠时,不容易检测设备间的依赖性;
  • 人类活动模式的准确预测受具有动态时间间隔的设备使用事件的概率关系的影响。
解决方案:
    1. 提出了频繁挖掘和预测模型来测定和分析能量使用变化(数据来源于在24小时的数据片上递归挖掘智能仪表的数据);
    1. 使用贝叶斯网络预测多电器的使用和家用能量的消耗情况;
主要贡献:
    1. 提出了在智能家居中基于电器使用变化的人类活动模式挖掘模型。使用FP-growth进行模式识别,使用K-means聚类算法得到appliance-to-appliance与appliance-to-time的关系。
    1. 基于个体和多电器的使用应用贝叶斯网络进行活动预测。

II.Related Work

前人工作:
    1. Detecting activities of daily living with smart meters:
      • 提出了两个分析和检测用户日常的方法: Semi-Markov-Model(SMM):数据训练和检测个人习惯;
      • 基于脉冲的方法来检测日常生活中的活动(ADL),其侧重于同时发生的活动的时间分析。
    1. The Elderly’s independent living in smart homes: A characterization of activities and sensing infrastructure survey to facilitate services development:
      通过对智能家居中跟主要活动有关的传感器进行分类检测上了年纪的人的健康状况。
    1. Detecting household activity patterns from smart meter data
      使用非侵入式电器负载检测(NALM)和Dempster-Shafer(D-S)证据理论来识别活动,通过两个步骤获取主要活动。
    1. Smart meter profiling for health applications:
      利用电器使用情况识别突然的行为改变,在最小化的入侵级上为Alzheimer和Parkinson患者提供时钟监控系统,采用分类技术检测个体能量使用模式的异常行为。
    1. A patient’s state recognition system for health care using speech and facial expression
      Cloud-assisted industrial Internet of Things (IIoT)—Enabled framework for health monitoring
      Mobile cloud based food calorie measurement
      An intelligent cloud-based data processing broker for mobile e-health multimedia applications:

      利用智慧城市的物联网架构开发出了检测和提供健康服务的应用。
    1. Smart-energy group anomaly based behavioral abnormality detection:
      远程健康监控,得到规律活动、独特的能量消耗时间段以及检测到的可发现的异常行为,这样就可以获取到一些用于更好维持健康医疗的关键点。
    1. Leveraging smart grid technology for home health care:
      针对上了年纪的病人提供了一个其日常起居的侧面刻画,数据同样用于急性健康状况的检测。
    1. 一个论文
      使用贝叶斯网络预测居住者的行为,提出了基于单个设备的服务。
    1. Appliance usage prediction using a time series based classification approach
      A prediction system for home appliance usage:
      时间序列的多标签分类器预测基于决策树相关性的设备使用,然而只取了最近24小时窗口的设备序列关系。
    1. Big data analytics for demand response: Clustering over space and time:
      使用聚类算法识别用户时间消耗模式的分布,但没有考虑多设备共同使用的情况和与时间的联系。
    1. Data mining techniques for detecting household characteristics based on smart meter data:
      使用分级和c-means聚类分析设备的开关来检测用户使用模式,但没有考虑使用时长和设备使用序列的变化。
    1. Forecasting multi-appliance usage for smart home energy management:
      提出了基于预测人类行为和设备依赖模式算法的图像模型,并且使用贝叶斯模型预测多设备使用情况。
综述

以上方法没有考虑设备级别使用模式,这是决定用户活动变化的关键。同时,我们的实验使用比现有研究更大的数据集。

III.Proposed Model

模型描述:

清洗、准备数据——>频繁模式挖掘得到appliance-to-appliance的联系——>聚类算法得到appliance-to-time的联系——>贝叶斯网络进行长短期活动的预测——>应用

A.Data Preparation

  • 生数据:4亿条记录,时间分辨率为6秒;
  • 处理后:2亿条记录;
  • 合成数据集:120万条记录,用于初步模型评估
  • 结果:智能电表时间序列原始数据,即高时间分辨率数据,被转换为1分钟的分辨率负载数据; 随后转换为30分钟的时间分辨率源数据,即每个设备每天24 * 2 =48读数,同时记录每个活动设备的开始时间和结束时间。

B. Extracting Frequent Patterns of Human Activities

  • 目标
    从智能仪表数据中发掘人类活动模式,以便有异常情况出现时进行提醒。
  • 算法简介
    深度优先分治技术(depth-first divide-and-conquer technique):适用于线下,不能满足应用的决策的及时反应。
    频繁模式的增量渐进挖掘( incremental progressive mining of frequent patterns):利用模式增长策略,以一个24小时的周期挖掘设备使用元组的数据。
  • 增量频繁模式挖掘(Incremental Frequent Pattern Mining)
1. 数据表示描述
  • 源数据事务分布的集合表示为大写伽马(见源数据表示)
    源数据
源数据的表示
  • 源数据的单例表示为“γ”
    属于
限定
  • 单个的设备表示为XY
    属于
2. 思路描述

如果X和Y同时出现在单例事务中的概率大于预设好的阈值,则为一个频繁模式。
在support-confidence框架中,
P(X∪Y) :Sx => y
P(Y|X) :Cx => y (条件概率)
新发现的模式跟已有的模式进行比较,若不存在于数据库中,则加入数据库,以此只吃比较就被正确的更新。

3. 算法细节

支持定义是在事务数据集的概率,设备与设备联系的边缘分布可以在全局级别上进行计算,计算出的边缘分布决定了设备同时使用的概率。

Algorithm1:Incremental Frequent Pattern Mining
Require:数据库事务(DB),频繁模式挖掘数据库(FP_DB)
Ensure:频繁模式增量挖掘,结果存储在FP_DB中
1:for all DB中的24小时量的数据片db24(数据已被处理为24小时一片的周期)do
2: 确定数据库的大小
对于db24的数据库Data_Sizedb24
挖掘在FP_DBdb24频繁模式,使用延伸的FP-growth方法
for all FP in FP_DBdb24 do
在FP_DB中寻找FP
if FP 已存在
更新FP_DB
else
将新FP添加到FP_DB中
end if
end for
对于数据库中的所有频繁模式,FP_DB按Database_Sizedb24增加数据库大小
end for

C.Clustering Analysis:Incremental K-Means

使用聚类分析算法去分析电气设备使用与时间的关系,包括一天24小时、一天中的早中晚夜、工作日、周末和月份。带时间戳的电气设备的使用数据可以用来聚集成设备同时工作的类。

The Defination of Clustering Analysis

定义:聚类分析是把相似元素创建为一个类别(非监督式分类)、组/段(自动分段)、和部分的过程,而跟不同簇中的元素不相似。
优点:具有非监督性。

聚类过程
  • 数据选择
    选择30分钟的时间片,创建了一天的最大48类的聚类,同理也可以以天、工作日、周末、月来进行自然分段。
  • 欧几里得距离(Euclidean
    distance)
    数据库中的点被划分为K个类别,分别是C1,C2,……,Ck,且这些类别中的点没有交集,并且它们的几何中心ci也不可能重叠,这里欧几里得距离用来度量数据点间的聚合性,反映了聚类算法的效率。
    欧几里得距离

    K-means算法的目标在于最小化目标函数——平方差和(SSE)
    SSE
  • 轮廓系数(silhouette score)
    轮廓系数结合了凝聚度和分离度,决定了聚类的最优数目。
  1. 对于第 i 个对象,计算它到所属簇中所有其他对象的平均距离,记 ai (体现凝聚度)
  2. 对于第 i 个对象和不包含该对象的任意簇,计算该对象到给定簇中所有对象的平均距离,记 bi (体现分离度)
  3. 第 i 个对象的轮廓系数为 si = (bi-ai)/max(ai, bi) //回头研究一下 wordpress 的公式插件去
    从上面可以看出,轮廓系数取值为[-1, 1],其值越大越好,且当值为负时,表明 ai<bi,样本被分配到错误的簇中,聚类结果不可接受。对于接近0的结果,则表明聚类结果有重叠的情况。
  • 渐进增量聚类(incremental progressive clustering)
    定义:将每个连续挖掘操作的现有和新发现的集群合并到数据库中。
    条件:所有相关的集群参数比如几何中心、SSE、轮廓系数、点集和与几何中心相关的距离都在数据库中。
    优点:提高了操作的效率和速度。

综述

电气设备随时间的变化和电气设备之间的关系为下文预测房间内的活动提供了信息。


D.Bayesian Networks for Activity Prediction

目标:整合了频繁模式与设备使用与实践的联系得到多设备的使用情况和建立活动预测模型。
特征:贝叶斯网络是一个非循环图,节点代表任意变量、连线代表概率性的依赖关系,一个主要特征是有因果关系的概念。
优点:减少丢失数据的可能性,利用事实的数据和观察到的事务来避免过度拟合数据。
定义:

贝叶斯网络

建立模型

建立基础:整合一天24小时、一天的时间(早中晚夜)、工作日、周末、月、季节与设备的联系和设备间的联系的概率。

后验概率或边缘分布

数据来源:聚类算法和频繁模式分析。
训练数据样例

任务:确定和预测同时工作的设备,设备预测结果是建立在人类活动与时间关系(一天24小时,周末,月等)的预测的基础上的。

IV. Evaluation and Results

实验环境

  • 数据:UK-Dale,5个house中的109个设备,将近1一条数据,来自能量消耗情况来自IAMs的采集。
  • 开发语言:Python。
  • 数据库:在ubantu 14.04 LTS 64位系统上的MySQL 和MongoDB数据库。
  • 主要任务:作为人类活动模式的一个指示检测设备的使用并且使用预测模型预测短长时房间中的活动。
  • 应用:主动监控,警报生成,健康概况。

Results Analysis and Discussion

设备使用与时间的关系

(表示结果的图片还是上传失败,我也是没办法)
在房间2:在下午2点30分到5点之间,电视,烤面包机,客厅灯在这个周末最高浓度的房子里一起使用。几乎所有工作日都使用洗衣机,周末不使用笔记本电脑……

设备间的使用关系

在房间1:喜欢在准备食物时放松……

房间活动预测

房间2:所提出的模型在每个阶段的组合准确度分别达到81.82(25%),85.90(50%),89.58(75%)。

各个房间活动预测

前提:使用了75%的训练集
房屋1,2,3,4和5的短时准确度分别为92.31%,100.00%,66.67%,100.00%和100.00%。房屋1,2,3,4和5的长时准确率分别为90.91%,90.00%,70.00%,70.00%和80.00%

Conclusion and Future Work

结果:提出了一个用于识别人类活动模式的模型。
展望:改进模型,以实时的方式引入多个房屋的大数据挖掘的分布式学习,以便可以健康应用可以迅速做出反应比如发送警报消息给病人或者监护提供人。
再展望:构建一个健康本体模型,以自动将发现的设备映射到潜在的活动。 这意味着我们可以有效地训练系统并提高检测人类活动的准确性。


Ending!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 个人自行阅读时候,翻译的文档。因为比较渣,如果有更合理或者错误的地方烦劳告知,我会做修改。Oracle Data ...
    窝窝的小黑屋阅读 1,222评论 0 3
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,928评论 2 89
  • 周老师外出三天了,今天回来,我欣慰的是布置的作业我都完成了。昨晚在妈妈的监督下,练字补上了,四篇作文也不上了,虽然...
    盛聿洺阅读 166评论 0 1
  • 小米智能家居套装里面最复杂、成本最高的是网关,用途是连接ZigBee设备,并把这些ZigBee设备连接到互联网,从...
    汪继志阅读 278评论 0 0
  • 用户体验是什么? 所谓用户体验,就是要让用户爽;用户的特点可以总结为三个字“笨”、“懒”、“急”,所以用户的心声相...
    熊大菲阅读 452评论 0 0