机器学习之归一化/标准化

这篇关于归一化的文章是最近学习的一个总结,放在简书上,方便日后查阅。

一、前言

此篇博文首先说明了什么是归一化,接着介绍了两种常用的归一化方法,然后说明了为什么需要归一化,这样做有什么好处,最后给出一个例子。

二、归一化是什么

数据归一化/标准化(二者还是有所区别的,见评论区@谢小胖的评论)是机器学习/数据挖掘的一项基础工作,是数据预处理的重要一步。样本各个特征往往具有不同的分布/取值范围,通过归一化将各个维度的特征值映射到相同区间,使得各特征值具有相同量纲,处于同一数量级。

三、有哪些归一化的方法[1]

1、min-max归一化(Min-Max Normalization)

对各维特征值分别进行线性变换,使得各维特征值被映射到[0, 1]之间(区间缩放),转换函数如下:

min-max归一化转换函数[1]

其中max为某一维特征值的最大值,min为某一列特征值的最小值。这种方法有个缺陷,就是当有新样本加入时,max和min可能会变化,需要重新定义,然后需要重新计算各特征值。

2、z-score标准化

这种方法用各维的均值和标准差来标准化各维特征值,它的转换函数为:

z-score归一化转换函数[1]

经过处理后,各维特征值相当于从标准正态分布采样得到,即各维特征服从标准正态分布。

此外,标准化的本质就是表示原始值与均值之间差了多少个标准差,是一个相对值,所以有去除量纲的功效。(引用自评论区@谢小胖的评论)


四、为什么需要归一化,什么时候需要归一化,有什么好处

这主要看机器学习算法是否具有伸缩不变性[2]。

有些机器学习算法在将样本各个维度特征值进行不均匀伸缩后(例如各维特征值乘以不同系数),训练得到的模型与原来不等价,例如SVM,这样的算法我们说它不具有伸缩不变性。对于这一类算法,除非本来各维特征的分布范围就比较接近,否则必须进行归一化。

现在通过画图的方式直观地说明一下未归一化可能导致的后果[3]。以分类为例,假设有一些样本,样本只有两个特征,X1范围是100000到200000,X2范围是1到2,然后每一个样本都有一个标签,对应着样本所属类别。

现在在样本空间(其实就是平面坐标轴)上画出这些点,显然会发现,这些点几乎处于同一直线上。这个时候很难找到一条划分线将不同类别样本分开,这会导致模型正确率降低,并且X2几乎可以被忽略掉(X2相对于X1而言几乎没有变化,分类结果几乎只由X1决定,而只靠X1是不能将所有样本都分类正确的),仅仅因为所谓量纲的问题。

以下图为例,设纵坐标为X2,将X2压缩,使得样本点几乎处于同一直线上,再来思考X2为什么会被忽略掉。

分类示意图

这里以预测房价的例子来说明为什么归一化可以加快模型训练速度[3]。假设有一些样本,样本只有两个特征,分别是面积(设为x1,x1的范围为0~1000)和房间数(设为x2,x2的范围为0~10),然后每一个样本都有一个标签,对应着房价。

显然这是一个线性回归问题,可以得到线性模型:

线性模型

其中y是房价,theta1表示面积变量前的系数,theta2表示房间数变量前的系数。

大部分机器学习都是一个最优化问题,所谓寻找模型最优解就是,调整模型参数使得损失函数最小,此时的模型参数即为最优解。最优化一般采用梯度下降,首先画出损失函数的等高线,横纵坐标轴分别为theta1和theta2。

1、未归一化时

此时样本可能为((面积: 600,房间数: 3), ycorrect),则损失函数为:

未归一化的损失函数[3]

于是损失函数的等高线类似椭圆形状,最优解的寻优过程如下图所示,可以发现梯度下降方向只要不在椭圆对称轴上,这一步损失函数几乎就不会减小,这会导致震荡,使得收敛很慢,甚至不收敛。

未归一化的梯度下降[3]

2、归一化后

此时样本可能为((面积: 0.5,房间数: 0.55), XXXX),则损失函数为:

归一化的损失函数[3]

此时损失函数等高线类似圆形形状,最优解的寻优过程如下图所示,可以发现归一化后,寻优过程变得平滑,收敛速度得到提高,加快模型训练速度。

归一化的梯度下降[3]

另外,各维分别做归一化会丢失各维方差这一信息,但各维之间的相关系数可以保留[4]。

如果本来各维的量纲是相同的,最好不要做归一化,以尽可能多地保留信息。

如果本来各维的量纲是不同的,就需要先对各维分别归一化。

五、小结

归一化是机器学习中必不可少的一步,只要样本各维量纲不一致,我们就需要对数据集进行归一化,不管训练什么机器学习模型,最好都先对数据集进行归一化,这是因为,归一化不仅可以提高模型正确率(针对不具有伸缩不变性的机器学习算法),还可以加快模型收敛,提升训练速度。


六、举个例子[5]

例如用SVM做手写数字识别,如果直接用未归一化的原始数据集训练模型,则预测时所有输出都为同一类别,全部对应数字1,正确率也只有10%左右。

可以用libsvm中提供的归一化工具——svm-scale,将符合SVM格式要求的原始数据集归一化到指定的范围内,具体命令为:

svm-scale –l 0–u 1 train.txt > train-to-one.txt

这可以把原始数据集train.txt归一化到[0, 1],并将结果存入train-to-one.txt。

用归一化后的数据集训练模型并预测,可以发现,准确率和模型训练速度都明显提高。


引用

[1] 博客园. 数据归一化和两种常用的归一化方法[EB/OL]. http://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html, 2017-8-6.

[2] 知乎. 在进行数据分析的时候,什么情况下需要对数据进行标准化处理?[EB/OL]. https://www.zhihu.com/question/30038463/answer/50491149, 2017-8-7.

[3] 知乎. 处理数据时不进行归一化会有什么影响?归一化的作用是什么?什么时候需要归一化?有哪些归一化的方法?[EB/OL]. https://www.zhihu.com/question/20455227, 2017-8-7.

[4] 知乎. 数据特征的归一化,是对整个矩阵还是对每一维特征?[EB/OL]. https://www.zhihu.com/question/31186681/answer/50929278, 2017-8-7.

[5] CSDN. libsvm中数据归一化的重要性[EB/OL]. http://blog.csdn.net/jeryjeryjery/article/details/72649320, 2017-8-6.

转载请注明如下内容:

文章来自简书,作者:就是杨宗

原文链接:http://www.jianshu.com/p/f9bde6a37d75

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容