2.1 模型表示
描述回归问题中用到的符号定义:
代表训练集中实例的数量
代表特征/输入变量
代表目标变量/输出变量
代表训练集中的实例
代表第i 个观察实例
代表学习算法的解决方案或函数也称为假设(hypothesis)
hypothesis
这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格 我们把它喂给我们的学习算法,学习算法输出一个函数,通常表示为小写表示。
我们的第一个学习算法是线性回归算法
例子:这个例子是预测住房价格的,我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。
4.png
对于我们的房价预测问题,我们该如何表达 ?
一种可能的表达方式为:,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。
2.2 代价函数
在线性回归中我们有一个像这样的训练集,m 代表了训练样本的数量。
我们现在要做的便是根据训练集为我们的模型选择合适的参数(parameters)和
。
我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)
在房价问题这个例子中便是直线的斜率和在 轴上的截距。
我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。
因此我们可以得到代价函数
通过求解代价函数的最小值 -> 得到目标拟合函数的最逼近值
2.3 代价函数的直观理解I
通过一元一次方程
和其对应的代价函数
的图示,增强理解
只有一个参数的代价函数为2维图像
图中可看到代价函数存在最低点,最低点对应的即为我们的目标解。
2.4 代价函数的直观理解II
通过一元一次方程
和其对应的代价函数
的图示,增强理解
有2个参数的代价函数为3维图像
通过上图可以看出在三维空间中存在一个使得最小的点。
使用等高线图表示函数
这里的等高线图是为了后面的梯度下降算法做准备。