归一化

    归一化其实就是把数据scale缩小到一定范围内,就像概率中相关系数是协方差的归一化结果。

    对定性型特征采用one-hot,对定量型特征采用归一化。最终结果使所有特征值均保持在-1~1或0~1间。

    归一化是为了消除特征间由于量纲不同而导致结果的偏差,使数据具有可比性。

归一化常用方法:

1. Min-Max Scaling            在0~1之间

y=(x-min)/(max-min)          类似均匀分布的累计分布函数

2. Z-Score Scaling            在-1~1之间

(x-mean)/std                      正态分布z值,服从正态分布


1. 通过sklearn.preprocessing.MinMaxScaler()实现

2. 可通过两种方法实现:

a. 通过sklearn.preprocessing.scale()

b. 通过sklearn.preprocessing.StandardScaler()

目前发现二者的区别是a是方法,b是类,b中包含了求均值和方差的方法。

b按列标准化,(x-列均值)/列方差,a可以根据行或列进行标准化,axis=0 按feature,即列,详见http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html

通常均用列,所以二者使用上没有什么本质区别。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 这篇关于归一化的文章是最近学习的一个总结,放在简书上,方便日后查阅。 一、前言 此篇博文首先说明了什么是归一化,接...
    就是杨宗阅读 13,076评论 4 5
  • 1. 数据标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比...
    泰狗汪汪阅读 5,737评论 0 0
  • 算是一点感悟吧 我是一名大一的学生 马上就要上大二 想说这一年就是我人生的转折点吧 无论多久以后我都会记得 分享最...
    草莓味仙女哥哥阅读 1,508评论 0 0
  • 6月18日,是绍宋画馆的最后一次课,八次大课,接近尾声。 从3月11日到6月18日,时间不短也不长,在这段时间里,...
    梅洛的听雨轩阅读 4,059评论 2 2
  • 分别总是在九月,回忆是思念的愁。在那座阴雨的小城里,我从未忘记你。喜欢《成都》这首歌,不仅仅是因为旋律,更因为歌词...
    五月的罂粟阅读 1,463评论 0 4

友情链接更多精彩内容