数据分析 | 案例们 Ⅰ

自《Python数据分析与挖掘实战》的两个章节

第10章:家用电器用户行为分析与事件识别

10.1 背景和目标

家电企业可以通过 研究 不同气候环境下、不同地区的、带有不同年龄性别属性的人 的不同使用习惯 ,来开发新的产品功能,开拓新市场。智能家电、物联网领域中,要想提供智能服务就得和大量人机交互数据打交道,所以物联网的数据挖掘也是一个非常值得探索的领域。

书中的案例是热水器用户行为分析,首先是想要通过热水器的时间序列数据,探索用户使用习惯,然后是划分每次完整的用水事件,并从中识别属于洗浴的事件。

把这类识别能力运用于对不同用户群体的分析,可以加深对用户的理解并制定相应营销策略。

易获取的热水器用水数据

10.2 数据预处理

抽取数据

智能热水器每2秒采集一条数据,数据来自大量用户,数据总量大,因此采用无放回随机抽样法抽取200个用户2014年的用水记录作为建模原始数据。属性包括热水器id,时间,热水器状态,有无水流,温度,水量等。

数据探索

① 统计了用水的停顿时间间隔(下一次用水开始-上一次用水结束)频数分布,发现停顿时间在0~0.3分钟的占比居多。

② 热水器编号对建模无用,删去;水流量反应有无水流,有无水流可删去;热水器为关且水流量为0,说明热水器不处于工作状态,可删去对应行。

数据变换

① 用水事件可以通过用水的停顿时间间隔水流量来判别,所以依靠阈值寻优模型,识别用水事件。

原数据:用水的时间点、水流量。

状态标记:比较相邻两次用水数据的时间间隔 (df.diff),如果这个间隔时间大于某一阈值,说明这两次用水分别属于两个用水事件,如果小于某个阈值,说明这两次用水属于同一次用水事件。同一个事件的用水数据有相同的事件编号。

问题在于:阈值取多少,才能不把两个属于相同用水事件的数据拆开,同时也不把分别属于不同用水事件的数据放到一块,即阈值寻优模型。

划分用水事件代码块

阈值寻优模型

尝试不同阈值设定下,被划分出来的时间个数。横轴为阈值,竖轴为事件个数,画折线图,看斜率最平稳的地方(每四个斜率做滚动平均视为斜率指标,用K表示),找K<1时的最小阈值。如果K太大,则用专家阈值4min。

(事件划分方法:用每两条相邻用水数据的发生时间做差分,如果大于阈值,前面的数据标记为用水终点,后面数据标记为用水始点,做完标记后统计有多少完整用水事件)

② 整理指标并分类

时长、频率、用水量化、用水波动

用水波动=\frac{(当前水流-平均水流)^2·持续时间 }{总的有水流的时间}

③ 筛选“候选洗浴事件”

用水量小于,单次用水时长小于,总用水时长小于 (大于呢?水温?)

10.3 模型

清洗后数据

构建3层神经网络

▲输出结果的判别和输出层的激活函数有关,如果用sigmoid,结果为-1~1之间,小于0则非洗浴,大于0则判别为洗浴

10.4 其他思考

关于识别洗浴事件,可能存在一些特殊情况,比如连续两个人洗浴,此时容易把两次事件合并成一次,因此需要特殊的识别(例如针对某些因素,such as 总时长、停顿次数、总用水量建立指标),提高模型精度。


第11章:应用系统负载分析和磁盘容量预测

11.1 背景和目标

信息化的大型企业需要许多信息管理系统,系统的负载过大则容易导致系统瘫痪,因此公司需要关注服务器、数据库、存储设备的运行状态,及时了解系统的负载情况,提前预防、确保系统安全稳定运行。

负载分析常常考虑当前的负载率和负载增长率,利用网格分析可以判断系统所处状态。

网格分析

11.2 分析和数据预处理

随着系统的运行,数据会持续写入存储。so 可以用时间序列分析。

数据抽取方式:选择性抽取历史数据进行分析,定时更新数据(如果数据增长方式变化,就需要实时数据用于更新模型)

时序图:探索数据的平稳性。

数据:磁盘容量+磁盘已使用大小随时间变化。

python代码学习

11.3 建模啦

① 平稳性检测:例如ADF(p值小于0.05),用于确定时间序列中没有随机趋势或确定趋势

② 白噪声检验(完全随机的序列,与时间无关):要验证序列中的信息是否已经被提取完毕,如果是白噪声,说明数据中只剩下随机扰动了

③ 模型识别:利用BIC信息(最小值)对模型定阶,识别ARIMA的p和q(尝试不同的p、q组合,看那个组合的BIC最小)

④ 模型检验:看模型残差是否为白噪声,如果不是,说明残差中还存在有用信息,要进一步提取啊

⑤ 模型预测:怎么能预测未来5个呢?用预测出来的数再预测??

⑥ 模型评价: 平均绝对误差<=均方根误差

⑦ 模型应用:定时抽取新数据(更新模型频率按业务需要)、设置预警等级(其他预警也可以借鉴该方法进行分析)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容