房价预测Baseline
- 暴力填充
- 训练模型
- 评估结果
制作训练集、评测集
交叉验证
- 数据有限,发挥数据本来的效率
- 数据的训练集合评测集的矛盾
a. 如果用更多的数据去训练,那么就会有更少的数据来评测
b. 如果用更少的数据来训练,很大可能造成欠拟合,在评测集上表现一定不好
解决方法
- 将数据集拆成k份 -> (首先进行shuffle洗牌,防止不均、局限性)
- 规定k-1份进行训练,剩下1份进行评测,总共训练k次,轮流每个子数据集作为评测集
a. 数据集被分成k份,1……k
b. 第一次训练使用第1份数据集作为评测集,剩下的k-1份作为训练集
c. 第i次训练使用第i次数据集作为评测集,剩下的k-1份作为训练集
d. 做k次训练 - k次训练之后,评测的分值=k次评测的平均(k折)
- 不同的模型会提供不同的子模型的合并方法,会将所有的k个子模型进行合并
SVM 是否容忍控制NAV?
基于数值计算/数值回归→ 一定要将所有内容数字化→ 不支持
DecisionTree 是否容忍控制NAV?
决策树的学习,实际是对控件的划分。
把空值当成空间的一部分,不要求连续
→ CART,ID3,C4.5
水果忍者,黎、水果,切成丁
超市找东西,容易找到相应的商品的位置
DNN 是否容忍控制NAV?
不容忍,基于数值计算
参考资料
洛杉矶房价预测-代码
洛杉矶房价预测-数据快查表
Some examples of using (LaTeX) in R Markdown documents