【特征工程】学习过程中的补充知识点

数据可视化的重要性：在构建模型时，使用可视化方法查看一下输入和输出之间以及各个输入特征之间的关系是一种非常好的做法。
概率图是一种非常简单的可视化方法，用以比较数据的实际分布与理论分布，它本质上是一种表示实测分位数和理论分位数的关系的散点图
不要“中心化”稀疏数据！在稀疏特征上执行 min-max 缩放和标准化时一定要慎重，它们都会从原始特征值中减去一个量。对于 min-max 缩放，这个平移量是当前特征所有值中的最小值;对于标准化，这个量是均值。如果平移量不是 0，那么这两种变换会将一个多数元素为 0 的稀疏特征向量变成密集特征向量。根据实现方式的不同，这种改变会给分类器带来巨大的计算负担。词袋就是一种稀疏的表示方式，大多数分类算法的实现都针对稀疏输入进行了优化。
当特征数大于数据量的时候，需要正则化

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。