机器学习笔记（4）：单变量线性回归(Linear Regression with One Variable)

1. 模型表示

我们的第一个学习算法是线性回归算法。

让我们通过一个例子来开始：这个例子是预测住房价格的，我们要使用一个包含俄勒冈州波特兰市的住房价格数据集（也叫训练集）。在这里，我要根据不同房屋尺寸所售出的价格，获得房屋的预测值。比方说，如果你朋友的房子是1250平方尺大小，你要告诉他们这房子能卖多少钱。那么，你可以做的一件事就是构建一个模型，也许是条直线，从这个数据模型上来看，也许你可以告诉你的朋友，他能以大约220000(美元)左右的价格卖掉这个房子。这就是监督学习算法的一个例子。

它被称作监督学习是因为对于每个数据来说，我们给出了“正确的答案”，即告诉我们：根据我们的数据来说，房子实际的价格是多少，而且，更具体来说，这是一个回归问题。回归一词指的是，我们根据之前的数据预测出一个准确的输出值，对于这个例子就是价格。
以之前的房屋交易问题为例，假使我们回归问题的训练集（Training Set）如下表所示：

我们将要用来描述这个回归问题的标记如下:

$m$ 代表训练集中实例的数量
$x$ 代表特征/输入变量
$y$ 代表目标变量/输出变量
$(x,y)$ 代表训练集中的实例
$(x^{(i)},y^{(i)})$ 代表第 $i$ 个观察实例
$h$ 代表学习算法的解决方案或函数也称为假设（hypothesis）

这就是一个监督学习算法的工作方式，我们可以看到这里有我们的训练集里房屋价格我们把它喂给我们的学习算法，学习算法的工作了，然后输出一个函数，通常表示为小写 $h$ 表示。 $h$ 代表hypothesis(假设)，表示一个函数，输入是房屋尺寸大小，就像你朋友想出售的房屋，因此 $h$ 根据输入的 $x$ 值来得出 $y$ 值， $y$ 值对应房子的价格因此， $h$ 是一个从 $x$ 到 $y$ 的函数映射。

我将选择最初的使用规则代表hypothesis，因而，要解决房价预测问题，我们实际上是要将训练集“喂”给我们的学习算法，进而学习得到一个假设，然后将我们要预测的房屋的尺寸作为输入变量输入给，预测出该房屋的交易价格作为输出变量输出为结果。那么，对于我们的房价预测问题，我们该如何表达？

一种可能的表达方式为： $h_\theta(x) = \theta_0+\theta_1x$ ，因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

2. 代价函数（cost function）

接下来，我们将定义代价函数的概念，这有助于我们弄清楚如何把最有可能的直线与我们的数据相拟合。如图

在线性回归中我们有一个像这样的训练集，

m

代表了训练样本的数量，比如

m=47

。而我们的假设函数，也就是用来进行预测的函数，是这样的线性函数形式：

h_\theta(x) = \theta_0+\theta_1x

。

我们现在要做的便是为我们的模型参数（parameters） $\theta_0$ 和 $\theta_1$ 选择合适的值，使直线与我们的数据尽量拟合。在房价问题这个例子中便是直线的斜率和在轴上的截距。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距就是建模误差（modeling error）：

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数： $J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$ 最小。

3. 梯度下降

梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数的最小值。

梯度下降背后的思想是：开始时我们随机选择一个参数的组合，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。

批量梯度下降（batch gradient descent）算法的公式为：

其中

a

是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

梯度下降算法中，还有一个更微妙的问题，梯度下降中，我们要更新 $\theta_0$ 和 $\theta_1$ ，当 $j=0$ 和 $j=1$ 时，会产生更新，所以你将更新 $J(\theta_0)$ 和 $J(\theta_1)$ 。实现梯度下降算法的微妙之处是，在这个表达式中，如果你要更新这个等式，你需要同时更新 $\theta_0$ 和 $\theta_1$ 。

4. 梯度下降实现线性回归

梯度下降算法和线性回归算法如图：

对我们之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数，即：

则算法改写成：

我们刚刚使用的算法，有时也称为批量梯度下降。实际上，在机器学习中，通常不太会给算法起名字，但这个名字”批量梯度下降”，指的是在梯度下降的每一步中，我们都用到了所有的训练样本，在梯度下降中，在计算微分求导项时，我们需要进行求和运算，所以，在每一个单独的梯度下降中，我们最终都要计算这样一个东西，这个项需要对所有个训练样本求和。因此，批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本，而事实上，有时也有其他类型的梯度下降法，不是这种"批量"型的，不考虑整个的训练集，而是每次只关注训练集中的一些小的子集。在后面的课程中，我们也将介绍这些方法。

但就目前而言，应用刚刚学到的算法，你应该已经掌握了批量梯度算法，并且能把它应用到线性回归中了，这就是用于线性回归的梯度下降法。

如果你之前学过线性代数，有些同学之前可能已经学过高等线性代数，你应该知道有一种计算代价函数最小值的数值解法，不需要梯度下降这种迭代算法。在后面的课程中，我们也会谈到这个方法，它可以在不需要多步梯度下降的情况下，也能解出代价函数的最小值，这是另一种称为正规方程(normal equations)的方法。实际上在数据量较大的情况下，梯度下降法比正规方程要更适用一些。

现在我们已经掌握了梯度下降，我们可以在不同的环境中使用梯度下降法，我们还将在不同的机器学习问题中大量地使用它。所以，祝贺大家成功学会你的第一个机器学习算法。

机器学习笔记（4）：单变量线性回归(Linear Regression with One Variable)