《python数据分析与实践》第六章
窃漏电用户识别流程:
(1)数据抽取
- 分析数据来源,并完整抽取需要数据
(2)数据探索
数据探索分析是对数据进行初步研究,发现数据的内在规律特征,有助于选择合适的数据预处理和数据分析技术。本案例采取分布分析及周期性分析
- 分布分析,分析窃漏电用户分布
- 周期性分析,随机抽取一名正常用户及一名窃电用户,比较两者的电量趋势图是否有区别
发现窃漏电用户电量持续下降
(3)数据预处理
- 数据清洗
从业务及建模的相关需求考虑,筛选出需要的数据,过滤赘余的数据
- 缺失值处理:拉格朗日插值法
拉格朗日插值法是以法国十八世纪数学家约瑟夫•路易斯•拉格朗日命名的一种多项式插值方法。
- 数据变换
(4)构建专家样本
(5)模型构建及评价
- 数据划分为测试样本和训练样本,随机选取20%作为测试样本,剩下为训练样本。
- 分类预测模型选择:LM神经网络、CART决策树
- 模型评价:ROC曲线评价