数据规范化的几种方法

在数据分析之前,我们都需要让数据满足一定的规律,达到规范性的要求,便于进行挖掘。

如果不进行变换的话,要不就是维数过多增加了计算成本,要不就是数据过于集中,很难找到数据之间的特征。

在数据变换中,重点是如何将数值进行规范化,有三种常用的规范方法,分别是Min-Max规范化、Z-Score规范化、小数定标规范化。

1.Min-max规范化:

将原始数据投射到指定的空间[min,max]。可用公式表示为:

新数值 = (原数值-极小值)/ (极大值 - 极小值) 。

SciKit-Learn中的MinMaxScaler可以完成这个功能。

2.Z-Score规范化:

将原始数据转换为正态分布的形式,使结果易于比较。可用公式表示为:

新数值 = (原数值 - 均值)/ 标准差

在SciKit-Learn中的preprocessing.scale()可以直接将给定数据进行Z-Score规范化。

3.小数定标规范化:

通过移动小数点的位置来进行规范化。小数点移动的位数取决于该属性数据取值的最大绝对值。

例如:属性A的取值范围是-800到70,那么就可以将数据的小数点整体向左移三位即[-0.8,0.07]

利用numpy对数据进行小数定标规范化的方法如下:

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 人生中最美的珍藏,正是那些往日时光。 那些格外珍贵却又失去了的,谁都想要拾回来,回来的又变了质。
    LOVEABIGALEYUE阅读 446评论 0 0
  • 诗|孙牧之 狗啊狗,你为什么在狂叫 你知不知道, 这样会有人投来石头 会对你怒骂、对你狂啸 因为你打扰了别人的睡觉...
    絳三阅读 211评论 1 3
  • 玉楼春·尊前拟把归期说 宋·欧阳修 尊前拟把归期说。未语春容先惨咽。人生自是有情痴,此恨不关风与月。 离歌且莫翻新...
    姜姀赟阅读 251评论 0 5
  • 一周又过完了回顾这一周,检视一下自己这周完成情况: 1.早睡早起依然坚持很好。 2.运动这周没有完成,每周三次每次...
    刘艳888阅读 182评论 1 2