3.房价预测Baseline

房价预测Baseline

  • 暴力填充
  • 训练模型
  • 评估结果

制作训练集、评测集

交叉验证

  1. 数据有限,发挥数据本来的效率
  2. 数据的训练集合评测集的矛盾
    a. 如果用更多的数据去训练,那么就会有更少的数据来评测
    b. 如果用更少的数据来训练,很大可能造成欠拟合,在评测集上表现一定不好

解决方法

  1. 将数据集拆成k份 -> (首先进行shuffle洗牌,防止不均、局限性)
  2. 规定k-1份进行训练,剩下1份进行评测,总共训练k次,轮流每个子数据集作为评测集
    a. 数据集被分成k份,1……k
    b. 第一次训练使用第1份数据集作为评测集,剩下的k-1份作为训练集
    c. 第i次训练使用第i次数据集作为评测集,剩下的k-1份作为训练集
    d. 做k次训练
  3. k次训练之后,评测的分值=k次评测的平均(k折)
  4. 不同的模型会提供不同的子模型的合并方法,会将所有的k个子模型进行合并


SVM 是否容忍控制NAV?

基于数值计算/数值回归→ 一定要将所有内容数字化→ 不支持

DecisionTree 是否容忍控制NAV?

决策树的学习,实际是对控件的划分。
把空值当成空间的一部分,不要求连续
→ CART,ID3,C4.5
水果忍者,黎、水果,切成丁
超市找东西,容易找到相应的商品的位置

DNN 是否容忍控制NAV?

不容忍,基于数值计算

参考资料

洛杉矶房价预测-代码
洛杉矶房价预测-数据快查表
Some examples of using (LaTeX) in R Markdown documents

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 内容简介(摘选)本书是大学计算机专业的基础课教材,涉及计算机科学的各个方面.本书着重讲解基本概念而不是数学模型和技...
    oldSix_Zhu阅读 9,089评论 2 6
  • 3 我今年四十岁,四十岁的我改变了自己的生活轨道,离开了自己已经习惯了紧张的工作,开始有了相对多的时间。我以为拥有...
    紫苏_阅读 2,817评论 0 6
  • CopyOnWrite容器类 CopyOnWrite(COW)容器类适用于读多写少的场合,器如其名,多线程可以并发...
    senninha阅读 2,662评论 0 0
  • 这一段时间里没有写感赏也没有说教孩子,而是自己在静静地反思。思索自己想要的是什么?想过什么样的生活?想要什么的孩子...
    旦子阅读 2,593评论 6 6

友情链接更多精彩内容