特征工程

特征使用方案

确定需要的数据

需要相关业务知识和领域知识,尽可能找出对因变量有影响的所有自变量

可用性评估

获取难度、覆盖率、准确率

特征获取方案

获取方式

系统或日志里的数据
需要网上爬取的数据

存储方式

文本格式、CSV格式、关系表、键值对
数据库的选择:关系数据库(MySql,Oracle),Nosql数据库(mongoDB,Redis)

特征处理

数据清洗

  1. 异常处理
  2. 数据采样

预处理

单个特征

  1. 归一化
  2. 离散化
  3. Dummy Coding
  4. 缺失值处理
  5. 数据变换
    log
    指数
    Box-Cox

特征降维

  1. 特征抽取
    PCA
    LDA
    LLE
    拉普拉斯映射

  2. 特征选择
    Filter
    Wapper
    Embedded

特征组合

对特征进行加工,生成线性、非线性组合,提高模型表现

特征监控

特征有效性分析

特征重要性,权重

特征监控

防止特征质量下降,影响模型效果

Reference

使用sklearn做单机特征工程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容