特征预处理

梳理需要哪些数据
评估可用性

(获取难度、准确率、覆盖率)

特征清洗
  1. 清洗异常样本
  2. 采样,正负样本均衡
  3. 采样,样本权重
预处理
单个特征
  1. 归一化
  2. 离散化
  3. dummy coding
  4. 缺失值
  5. log
  6. 指数
  7. box-cox
多个特征

降维

  1. pca
  2. lda

特征选择

filter:自变量和目标变量之间的关联

  1. 相关系数
  2. 卡方检验
  3. 信息增益

wrapper:通过目标函数(AUC/MSE)来决定是否加入一个变量

  1. 通过迭代,产生迭代子集(完全搜索、启发式搜索、ga、sa)

embedded:学习器自身自动选择特征

  1. 正则化,l1-lasso
  2. 正则化,l2-ridge
  3. 决策树-信息增益、熵
  4. 深度学习
特征监控
  1. 监控重要特征
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容