数据分析 | 案例们 Ⅰ

自《Python数据分析与挖掘实战》的两个章节

第10章:家用电器用户行为分析与事件识别

10.1 背景和目标

家电企业可以通过 研究 不同气候环境下、不同地区的、带有不同年龄性别属性的人 的不同使用习惯 ,来开发新的产品功能,开拓新市场。智能家电、物联网领域中,要想提供智能服务就得和大量人机交互数据打交道,所以物联网的数据挖掘也是一个非常值得探索的领域。

书中的案例是热水器用户行为分析,首先是想要通过热水器的时间序列数据,探索用户使用习惯,然后是划分每次完整的用水事件,并从中识别属于洗浴的事件。

把这类识别能力运用于对不同用户群体的分析,可以加深对用户的理解并制定相应营销策略。

易获取的热水器用水数据

10.2 数据预处理

抽取数据

智能热水器每2秒采集一条数据,数据来自大量用户,数据总量大,因此采用无放回随机抽样法抽取200个用户2014年的用水记录作为建模原始数据。属性包括热水器id,时间,热水器状态,有无水流,温度,水量等。

数据探索

① 统计了用水的停顿时间间隔(下一次用水开始-上一次用水结束)频数分布,发现停顿时间在0~0.3分钟的占比居多。

② 热水器编号对建模无用,删去;水流量反应有无水流,有无水流可删去;热水器为关且水流量为0,说明热水器不处于工作状态,可删去对应行。

数据变换

① 用水事件可以通过用水的停顿时间间隔水流量来判别,所以依靠阈值寻优模型,识别用水事件。

原数据:用水的时间点、水流量。

状态标记:比较相邻两次用水数据的时间间隔 (df.diff),如果这个间隔时间大于某一阈值,说明这两次用水分别属于两个用水事件,如果小于某个阈值,说明这两次用水属于同一次用水事件。同一个事件的用水数据有相同的事件编号。

问题在于:阈值取多少,才能不把两个属于相同用水事件的数据拆开,同时也不把分别属于不同用水事件的数据放到一块,即阈值寻优模型。

划分用水事件代码块

阈值寻优模型

尝试不同阈值设定下,被划分出来的时间个数。横轴为阈值,竖轴为事件个数,画折线图,看斜率最平稳的地方(每四个斜率做滚动平均视为斜率指标,用K表示),找K<1时的最小阈值。如果K太大,则用专家阈值4min。

(事件划分方法:用每两条相邻用水数据的发生时间做差分,如果大于阈值,前面的数据标记为用水终点,后面数据标记为用水始点,做完标记后统计有多少完整用水事件)

② 整理指标并分类

时长、频率、用水量化、用水波动

用水波动=\frac{(当前水流-平均水流)^2·持续时间 }{总的有水流的时间}

③ 筛选“候选洗浴事件”

用水量小于,单次用水时长小于,总用水时长小于 (大于呢?水温?)

10.3 模型

清洗后数据

构建3层神经网络

▲输出结果的判别和输出层的激活函数有关,如果用sigmoid,结果为-1~1之间,小于0则非洗浴,大于0则判别为洗浴

10.4 其他思考

关于识别洗浴事件,可能存在一些特殊情况,比如连续两个人洗浴,此时容易把两次事件合并成一次,因此需要特殊的识别(例如针对某些因素,such as 总时长、停顿次数、总用水量建立指标),提高模型精度。


第11章:应用系统负载分析和磁盘容量预测

11.1 背景和目标

信息化的大型企业需要许多信息管理系统,系统的负载过大则容易导致系统瘫痪,因此公司需要关注服务器、数据库、存储设备的运行状态,及时了解系统的负载情况,提前预防、确保系统安全稳定运行。

负载分析常常考虑当前的负载率和负载增长率,利用网格分析可以判断系统所处状态。

网格分析

11.2 分析和数据预处理

随着系统的运行,数据会持续写入存储。so 可以用时间序列分析。

数据抽取方式:选择性抽取历史数据进行分析,定时更新数据(如果数据增长方式变化,就需要实时数据用于更新模型)

时序图:探索数据的平稳性。

数据:磁盘容量+磁盘已使用大小随时间变化。

python代码学习

11.3 建模啦

① 平稳性检测:例如ADF(p值小于0.05),用于确定时间序列中没有随机趋势或确定趋势

② 白噪声检验(完全随机的序列,与时间无关):要验证序列中的信息是否已经被提取完毕,如果是白噪声,说明数据中只剩下随机扰动了

③ 模型识别:利用BIC信息(最小值)对模型定阶,识别ARIMA的p和q(尝试不同的p、q组合,看那个组合的BIC最小)

④ 模型检验:看模型残差是否为白噪声,如果不是,说明残差中还存在有用信息,要进一步提取啊

⑤ 模型预测:怎么能预测未来5个呢?用预测出来的数再预测??

⑥ 模型评价: 平均绝对误差<=均方根误差

⑦ 模型应用:定时抽取新数据(更新模型频率按业务需要)、设置预警等级(其他预警也可以借鉴该方法进行分析)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,284评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,115评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,614评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,671评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,699评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,562评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,309评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,223评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,668评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,859评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,981评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,705评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,310评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,904评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,023评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,146评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,933评论 2 355

推荐阅读更多精彩内容