数据转换处理之规格化:零均值规格化算法

规格化就是将一个属性取值范围投射到一个特定范围之内,以消除数值型属 性因大小不一而造成挖掘结果的偏差。规划化处理常常用于神经网络、基于距离 计算的最近邻分类和聚类挖掘的数据预处理。对于神经网络,采用规格化后的数 据不仅有助于确保学习结果的正确性,而且也会帮助提高学习的速度。对于基于 距离计算的挖掘,规格化方法可以帮助消除因属性取值范围不同而影响挖掘结果 的公正性。介绍三种规格化方法

  • <a href="http://www.jianshu.com/p/f59c051551e1">最大最小规格化方法</a>
  • <a href="http://www.jianshu.com/p/92318a6c3a65">零均值规格化方法</a>
  • <a href="http://www.jianshu.com/p/890c36ff8f34">十基数变换规格化方法</a>

零均值规格化方法

  • 该方法是根据属性 的<b>均值和偏差</b>来对进行规格化。
    属性 的 值可以通过以下计算公式获得其映射值v'
零均值规格化方法.png

<b>其中的 和σ 分别为属性 的 均值 和 方差。
这种规格化方法常用于属性最大值与最小值未知;或使用最大最小规格化方法时会出现异常数据的情况。</b>

  • 示例
    假设属性income的均值与方差分别我饿54,000元和16,000元,使用零均值规格化方法将73,000元的属性income值映射为

( 73,000 − 54,000 ) / 16,000 = 1.225

  • 代码实现
    待续......
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容