本章学习如何检查数据并准备创建线性回归任务。
本教程分为两部分:
- 检查数据
- 测试模型
上章使用Boston数据集来估算房屋的中位数价格。 波士顿数据集的规模很小,只有506个观测值。 此数据集为尝试新线性回归算法的基准。
变量 | 描述 |
---|---|
zn | 占地面积超过25,000平方尺的住宅用地比例 |
indus | 每个城镇非零售业务占的比例。 |
nox | 一氧化氮浓度 |
rm | 每栋住宅的平均房间数量 |
age | 1940年以前建造的自住单位比例 |
dis | 到波士顿五个就业中心的加权距离 |
tax | 每10,000美元全价物业税率 |
ptratio | 城镇的师生比例 |
medv | 自住房屋的中位数, 单位为千美元 |
CRIM | 城镇人均犯罪率 |
CHAS | Charles River虚拟变量(如果是河流,则为1;否则为0) |
B | 镇上黑人的比例 |
在本教程中,我们将使用线性回归器估算中位数价格,但重点是机器学习的特定过程:“数据准备”。
模型概括了数据中的模式。 要捕获这样的模式,您需要先找到它。 好的做法是在运行任何机器学习算法之前执行数据分析。
选择正确的特征会使模型取得成功。 想象一下,你试图估计工资,如果你不把性别作为自变量,估计结果很差。
改进模型的另一种方法是查看自变量之间的相关性。可以认为教育是预测工资和职业的最佳人选。 可以说,职业取决于教育水平,即高等教育往往会带来更好的职业。 如果我们概括这个想法,我们可以说因变量和解释变量之间的相关性可以放大另一个解释变量。
为了捕捉教育对职业的有限影响,我们可以使用互动术语。