数据预处理之特征归一化

    请大家关注本人公众号AI Engine(I是大写的i)

    今天我们来谈谈数据处理,毕竟这是个数据为王的时代,再牛的算法如果脱离了数据的支撑,恐怕就是一个空架子毫无用处。我们的数据可以分成好多种,比如结构化数据、非结构化数据、文本数据等等,而在部分机器学习或传统算法中需要的训练或者测试数据存在特征与特征之间量纲的影响(这句话是有点绕,一会举个栗子),我们需要对特征进行归一化处理,使得不同指标之间具有可比性。

    栗子来啦~分析一个人的身高和体重对健康的影响,如果使用米( m)和千克( kg)作为单位,那么身高特征会在1.6~1.8m的数值范围内,体重特征会在50~100kg的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。也就是说体重的预测能力会比身高的预测能力高出很多,但是这并不符合事实,想要得到更为准确的结果,就需要进行特征归一化( Normalization)处理,使各指标处于同一数值量级,以便进行分析。我们先上个图,这是数据处理初步总结的思维导图,还要不断完善。


    我们今天主要讲讲特征预处理的其中常用的两种方法:线性函数归一化、0均值归一化。

    线性函数归一化:将原始数据进行线性的变换,并确保新的数据均映射到[0,1]区间内,实现对原始数据的等比缩放。


    0均值归一化:将原始数据均映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,那么归一化公式定义为:


数据特征归一化的优势是什么呢?我们借助下随机梯度下降的实例来说明归一化的重要性。假设有两种数值型特征,x1的取值范围为[0,10], x2的取值范围为[0,3],于是可以构造一个目标函数等值图。左图的梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)


在python的sklearn库中我们可以直接使用StandardScaler 、MinMaxScaler来实现特征归一化,作为数据的预处理。下面是一个简单的实例:

# coding=utf-8

importsys

reload(sys)

sys.setdefaultencoding('utf8')

fromsklearn.datasetsimportload_breast_cancer

fromsklearn.model_selectionimporttrain_test_split

fromxgboostimportXGBClassifier

fromsklearn.preprocessingimportMinMaxScaler,StandardScaler

cancer = load_breast_cancer()

x_train,x_test,y_train,y_test = train_test_split(cancer.data,cancer.target,test_size=0.2,random_state=10)

scaler = StandardScaler()

scaler.fit(x_train)

x_train_scaler = scaler.transform(x_train)#在 scikit-learn 中,每当模型返回数据的一种新表示时,都可以使用 transform 方法

xgb_clf = XGBClassifier(n_estimators=6,max_depth=5,colsample_bytree=0.7,learning_rate=0.3,reg_lambda=1,seed=10,n_jobs=-1)

xgb_clf.fit(x_train,y_train)

print(xgb_clf.score(x_test,y_test))

xgb_clf.fit(x_train_scaler,y_train)

x_test_scaler = scaler.fit_transform(x_test)

print(xgb_clf.score(x_test_scaler,y_test))

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351