特征归一化方法

线性归一方法

该方法将输入数据进行等比缩放,将其转换到 [0,1] 的范围,公式为:

Xnorm = (X - Xmin) / (Xmax - Xmin)

  • 优点:消除原始数据的纲量和数量级影响
  • 缺点:依赖最大值与最小值两个极值,而与其他值无关,使得在改变各变量权重时过分依赖极值。

零均值归一方法

该方法将原始数据集归一化为均值为0,方差为1的数据集,公式为:

Xnorm = ( x - u ) / σ

  • 优点:去量纲化
  • 缺点:该方法要求原始数据集满足近似高斯分布,否则归一化效果不好。

使用sklearn.preprocessing.PolynomialFeatures进行特征构造

该方法用多项式的方法来进行,如有a,b两个特征,那么二次多项式为(1,a,b,a2,ab,b2)。

PloynomialFeatures有三个参数:

  • degree:控制多项式的度
  • interaction_only:默认为False,如为Ture,则不会有自己与自己结合的特征项。
  • include_bias:默认为Ture,如为false,则不会有最前面的1。
X = np.arange(6).reshape(3, 2)

array([[0, 1],
[2, 3],
[4, 5]])

poly = PolynomialFeatures()
poly.fit_transform(X)

array([[ 1., 0., 1., 0., 0., 1.],
[ 1., 2., 3., 4., 6., 9.],
[ 1., 4., 5., 16., 20., 25.]])

poly = PolynomialFeatures(interaction:ture)
poly.fit_transform(X)

array([[ 1., 0., 1., 0.],
[ 1., 2., 3., 6.],
[ 1., 4., 5., 20.]])

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 11,248评论 6 13
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,955评论 1 10
  • 买了一张车票 背着行囊 来到了你的城市 脚踩着这水泥地 有一些硬 以后就要待在这了 吸了一口味道不太一样的空气 这...
    吾小帮阅读 163评论 0 0
  • 最近一段时间,满世界都是匆匆过往的人儿,进来,离开,一脸或灿烂或忧伤的脸儿。 本就是这个四面楚歌没有人情味的世界,...
    兮子酱er阅读 1,321评论 0 0
  • 九月结束,这几日放假,朋友圈上演着摄影大赛,大家除了逛吃外,也在写复盘,话说,无复盘不成长,我是不是也该写写咧? ...
    少校了悟阅读 350评论 3 2