特征工程是啥米

基本分类

1、One-Hot Encoding——转化n分类变量为n个二元特征稀疏结构

2、Hash Encoding——转化分类变量为固定长度的哈希向量

3、计数型Encoding——跟全局统计有线性关系

4、Embedding——高维向量投影到低维

5、缺失数据处理——平均值、中位值、模值、模型生成值

6、对数组做标准化——例如向量归一化

自然语言处理的特征工程

1、Bag of words——One-Hot encoding的一种表达

2、TF-IDF——过滤常见词,保留重要词

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容