特征缩放和交叉验证法随笔

特征缩放和交叉验证法

x_1 = 1000000 cm^2 - 2000000 cm^2 \tag{area}
x_2 = 1 - 5 \tag{room count}
因为特征间数据取值范围相差过大,就会造成梯度下降会走的很远。这样优化时间比较长而且可能造成错误路径。

数据归一化

  • 就是把数据的取值范围处理为 0 - 1 或者 -1 1 之间
    • 任意数据转化为 0 - 1 之间 ( newValue = \frac{oldValue - min}{max - min})
    • 任意数据转化为 -1 - 1 之间 ( newValue = \frac{oldValue - min}{((max - min) - 0.5) * 2} )

均值标准化

  • x 为特征数据,u 为数据的平均值,s 为数据的方差
    newValue = \frac{oldValue - u}{s}
  • 取值范围从 -0.5 - 0.5

交叉验证法

  • 通常我们会将数据集按一定比例进行切分为训练数据集和测试数据集
  • 对于较小数据集时候我们就会用到交叉验证法

交叉验证法做法

  • 把所有的数据切分为 10 份,如果有 100 样本切分每个数据集有 10 个样本
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • sklearn、XGBoost、LightGBM的文档阅读小记 文章导航 目录 1.sklearn集成方法 1.1...
    nightwish夜愿阅读 12,969评论 1 49
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,940评论 0 5
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 4,160评论 1 10
  • 4.6-4.17反思注意力 4.6-4.17反思 反思日记4.6-4.617 反思日记 检视反思 检视反思 检视(...
    浪飘飘阅读 334评论 0 4
  • 雨后弥漫着湿润的空气。洒满了整个天空,里面还差掺杂着些许新鲜。在风的吹拂下走过那个神圣的地方。她就是我的家。他就是...
    天天向上s阅读 136评论 0 1

友情链接更多精彩内容