数据标准化、归一化、正则化概念厘定

网上较为混乱,书上看过又忘了,查找不便,特地总结于此。

首先吐槽一点,我记不住,当然有个人记性不好的原因,但更重要的是,本身概念就是混乱的,如身边的同事、网上各类业余的文章(很多文章是有误导性的),甚至某些论文里的定义都不太一样。

进行数据尺度变化的目的,在于更好的训练模型,详见参考资料3。在聚类算法中,不进行尺度变化,会导致错误的结果(量纲不同,取值较小的特征会被取值较大的特征淹没),至于决策树类的算法倒是无此问题(计算信息增益比,是否尺度变化并不影响)。

1、标准化,standardization

scaling,是将数据按比例缩放,使之落入一个小的特定区间。

零均值标准化(z-score standardization),x = \frac{x-\mu }{\sigma } ,分布转换为正态分布,均值为0,方差为1,取值[-1,1]。该方法对异常值、噪声不敏感,应用最为广泛,一般在涉及距离度量计算相似性(如KNN、Kmeans聚类)或PCA(核心是计算方差、协方差)时使用。

线性归一化(min-max normalization),该方法在sklearn中被称为另一种形式的standardization。通过对原始数据的线性变换x= \frac{x-min}{max-min} ,使结果落到[0,1]区间。该方法对原始数据进行线性变化,可保持原始数据之间的联系,缺陷是当有新数据加入时,最大最小值可能改变,需重新计算转换函数。

有朋友可能会问,那在PCA时使用最大最小标准化代替零均值标准化可以么?参考资料3中给出了清晰的证明,有兴趣的朋友可以阅读,大意就是,最大最小标准化使得协方差产生了倍数值缩放,无法消除量纲的影响。

因此,如果需要每个特征值都对整体归一化产生一定影响的话(和分布相关的话),选择零均值标准化。

2、归一化,normalization

在sklearn中定义为, 缩放单个样本使其具有单位范数的过程,计算方式是计算每个样本的p范数,然后对该样本中的每个元素除以该范数,使得处理后样本的p范数等于1,把数变为(0-1)之间的小数,消除量纲。

l1范数,||x||_{1}  = |x_{1} |  + |x_{2} |  +…… +|x_{n} |

l2范数,||x||_{2}  = \sqrt[2]{|x_{1} |^2   +|x_{2} |^2  +…… +|x_{n} |^2  }

\propto 范数,||x||_{1}  = max(|x_{1} |, |x_{2} |,…… ,|x_{n} | )

该方法主要应用于文本分类和聚类,例如对于TF-IDF向量的l2-norm点积,即得到这两个向量的余弦相似度。

3、正则化,regularization

机器学习中对损失函数的操作,非数据特征集进行的尺度变化。

4、其他

映射到其他分布,如指定区间、均匀分布、高斯分布、np.log1p等,特别是对于较多异常值的数据集时,采用robust_scaleRobustScaler是更好的选择。

阅读sklearn文档是学习机器学习最好的方式。

附,参考资料:

1、sklearn文档,4.3. 预处理数据,https://www.studyai.cn/modules/preprocessing.html

2、几种数据预处理方法综述,https://www.pythonf.cn/read/152530

3、特征归一化特性及其数学原理推导,http://www.bewindoweb.com/216.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容