13. 数据变换:考试成绩要求正态分布合理吗?

正态分布

正态分布也叫作常态分布,就是正常状态下,呈现分布的情况。正态分布曲线反映了随机变量的分布规律。理论上的正态分布曲线是一条中间高,两端逐渐下降且完全对称的钟形曲线

image.png

数据变换在数据分析中的角色

数据挖掘前的准备工作:


image.png

数据变换是数据准备的重要环节,常用的变换方法有:

  1. 数据平滑: 去除数据的噪声,将连续数据离散化。可采用分箱,聚类和回归的方法。
  2. 数据聚集: 对数据进行汇总,在SQL中有些聚集函数可以供我们操作,如Max,Sum等。
  3. 数据概化: 将数据由低的概念抽象成较高的概念,减少数据复杂度。比如上海,杭州,深圳,北京可以概化为中国。
  4. 数据规范化: 使属性数据按比例缩放,将原来的数值映射到一个新的特定区域,常用Min-Max规范化,Z-core规范化,按小数定标规范化。
  5. 属性构造: 构造出新的属性成为新的属性集中。

数据规范的几种方法

  • Min-Max规范化
    将原始数据变换到[0,1]空间,用公式表示就是:新数值 = (原数值 - 极小值)/(极大值 - 极小值)
  • Z-Score规范化
    将数据规范到0均值,1方差的标准正态分布上,减少百分制80和500分制80的数据值差异问题
    新数值 = (原数值 - 均值)/ 标准差
  • 小数定标规范化
    将数据转化为[-1,1]区间中,小数定标规范化通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。
    新数值 = 原数值 / 最大绝对值位数

Python 的 SciKit-Learn 库使用

  • Min-Max规范化
# coding:utf-8
from sklearn import preprocessing
import numpy as np
# 初始化数据,每一行表示一个样本,每一列表示一个特征
x = np.array([[ 0., -3.,  1.],
              [ 3.,  1.,  2.],
              [ 0.,  1., -1.]])
# **将数据进行 [0,1] 规范化**
min_max_scaler = preprocessing.MinMaxScaler()
minmax_x = min_max_scaler.fit_transform(x)
print (minmax_x)

运行结果:

[[0.         0.         0.66666667]
 [1.         1.         1.        ]
 [0.         1.         0.        ]]

  • Z-Score规范化
# coding:utf-8
from sklearn import preprocessing
import numpy as np
# 初始化数据,每一行表示一个样本,每一列表示一个特征
x = np.array([[ 0., -3.,  1.],
              [ 3.,  1.,  2.],
              [ 0.,  1., -1.]])

# 将数据进行 Z-Score 规范化
scaled_x = preprocessing.scale(x)
print (scaled_x)

运行结果:

[[-0.70710678 -1.41421356  0.26726124]
 [ 1.41421356  0.70710678  1.06904497]
 [-0.70710678  0.70710678 -1.33630621]]
  • 小数定标规范化
# coding:utf-8
from sklearn import preprocessing
import numpy as np
# 初始化数据
x = np.array([[ 0., -3.,  1.],
              [ 3.,  1.,  2.],
              [ 0.,  1., -1.]])
# 小数定标规范化
j = np.ceil(np.log10(np.max(abs(x))))
scaled_x = x/(10**j)
print (scaled_x)

运行结果:

[[ 0.  -0.3  0.1]
 [ 0.3  0.1  0.2]
 [ 0.   0.1 -0.1]]

数据挖掘中数据变换比算法选择更重要

我们要让数据满足一定的规律,达到规范性的要求,便于进行挖掘,这是数据变换的作用。


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Author: 杜七 一、前言 数据挖掘过程中,不同变量数据单位不一,比如,我们想知道一个人身体健康状况,其身高是...
    杜七阅读 31,122评论 0 12
  • 前提 在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执...
    神奇的考拉阅读 6,130评论 0 3
  • 定点小数运算 来自:http://www.eepw.com.cn/article/17893.htm 在DSP世界...
    郝宇峰阅读 13,154评论 0 2
  • 23年前的今天,我和我先生在长城大厦宴会厅举行了婚礼。是的,我们结婚23周年了,今天是我和先生的结婚纪念日。...
    肖瑞艳阅读 4,260评论 0 3
  • 走过千山, 曾经是一个人的浩浩荡荡, 当生命的路口遇上了你的笑脸, 岁月中有了两个人的地老天荒。 …… 有人说:爱...
    王相成阅读 3,038评论 0 1