基本分类
1、One-Hot Encoding——转化n分类变量为n个二元特征稀疏结构
2、Hash Encoding——转化分类变量为固定长度的哈希向量
3、计数型Encoding——跟全局统计有线性关系
4、Embedding——高维向量投影到低维
5、缺失数据处理——平均值、中位值、模值、模型生成值
6、对数组做标准化——例如向量归一化
自然语言处理的特征工程
1、Bag of words——One-Hot encoding的一种表达
2、TF-IDF——过滤常见词,保留重要词
1、One-Hot Encoding——转化n分类变量为n个二元特征稀疏结构
2、Hash Encoding——转化分类变量为固定长度的哈希向量
3、计数型Encoding——跟全局统计有线性关系
4、Embedding——高维向量投影到低维
5、缺失数据处理——平均值、中位值、模值、模型生成值
6、对数组做标准化——例如向量归一化
1、Bag of words——One-Hot encoding的一种表达
2、TF-IDF——过滤常见词,保留重要词