特征工程——特征归一化

在现实生活中,我们需要处理的数据大部分的量纲都是不一样的,如果不做归一化的话就会会出现的问题是,不同量纲的数据在梯度下降过程中下降的速度是不一样的,\color{red}{这个过程需要多次迭代才能找到最优解} 但是如果数据都是同一量纲下的数据的话,找到最优解的迭代次数会少很多,容易更快找到最优解。

所以数据需要归一化

在实际应用过程中呢并不是所有的模型都需要归一化,比如需要梯度下架的模型是比较需要

  • 线性回归
  • 逻辑回归
  • 各种神经网络
  • 支持向量机

但是决策树却不需要,这是因为数据归一化,并不能改变数据信息增益比,对决策并没有帮助。

归一化的方法:

分为两种:

  • 通过线性函数的归一化

X_n = \frac{X-X_{min}}{X_{max}-X_{min}}

  • 零均值归一化

其实就是化为标准正太分布,感觉是一个意思反正 哈哈😀
假设原始特征值为\mu,标准差为\sigma

z = \frac{x-\mu}{\sigma}

大概就是这样了,再多的我也不知道了

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容