特征使用方案
确定需要的数据
需要相关业务知识和领域知识,尽可能找出对因变量有影响的所有自变量
可用性评估
获取难度、覆盖率、准确率
特征获取方案
获取方式
系统或日志里的数据
需要网上爬取的数据
存储方式
文本格式、CSV格式、关系表、键值对
数据库的选择:关系数据库(MySql,Oracle),Nosql数据库(mongoDB,Redis)
特征处理
数据清洗
- 异常处理
- 数据采样
预处理
单个特征
- 归一化
- 离散化
- Dummy Coding
- 缺失值处理
- 数据变换
log
指数
Box-Cox
特征降维
特征抽取
PCA
LDA
LLE
拉普拉斯映射特征选择
Filter
Wapper
Embedded
特征组合
对特征进行加工,生成线性、非线性组合,提高模型表现
特征监控
特征有效性分析
特征重要性,权重
特征监控
防止特征质量下降,影响模型效果