从 0 开始机器学习 - 线性回归 & 代价函数 & 梯度下降

一、基本概念

1.1 机器学习的定义

一个年代近一点的定义，由来自卡内基梅隆大学的 Tom Mitchell 提出，一个好的学习问题定义如下：

一个程序被认为能从经验 E 中学习，解决任务 T，达到性能度量值 P，当且仅当，有了经验 E 后，经过 P 评判，程序在处理 T 时的性能有所提升。

比如以下棋的机器学习算法为例：经验 E 就是程序上万次的自我练习的经验，任务 T 是下棋，性能度量值 P 是它在与一些新的对手比赛时，赢得比赛的概率。

1.2 分类问题和回归问题

分类问题：预测离散的数据点。比如下面的二分类问题：

红×和蓝圈代表两种不同类型，中间的直线是我们算法预测的分类边界函数，当函数参数确定好了，我们给定一个输入，那么输出就是在直线上部或者下部的一个离散的点，表示该输入数据是最可能是哪一种类型，对于多个特征的分类问题，原理是一样的。

回归问题：预测连续的输出（拟合函数曲线），比如用最小二乘回归一个连续的输出曲线：

拟合的曲线可能有多条，通过不断的优化函数模型和参数，可以看出蓝色的曲线比紫色的直线拟合（回归）效果好。

再来练习下：

你有一大批同样的货物，想象一下，你有上千件一模一样的货物等待出售，这时你想预测接下来的三个月能卖多少件？ - 回归问题
你有许多客户，这时你想写一个软件来检验每一个用户的账户。对于每一个账户，你要判断它们是否曾经被盗过？ - 分类问题

1.3 监督学习

监督学习可以理解为：算法使用的数据集中已经人为设置了正确的属性。

比如用监督学习来根据房屋面积预测房价，那么在训练数据集中每个房屋面积都对应一个确定的价格（750, 200），这个确定的价格 200 就是我们人为给定的，用来训练算法模型（预测函数参数）。

1.3 无监督学习

无监督学习：算法使用的数据集不做任何人为处理，即没有加上任何属性。

上面是监督学习，已经人为设置了属性（红叉，蓝圈）

这是无监督学习，所有的数据没有进行处理，表面上看起来都差不多。

在无监督学习中，常用的是聚类算法，即把距离相近的数据点划分为同一个簇，比如 Google 新闻从互联网上收集很多条新闻，然后将类型相近的文章划分为同一个类别：科技，情感，政治等等。

二、单变量线性回归算法

这个线性回归算法就是高中学的最小二乘拟合曲线数据点，通过下面这个例子来复习下机器学习算法工作流程，根据房屋面积预测出售价格（监督学习）：

训练数据集如下（训练就是用给定的数据来计算最优的函数曲线参数，使得拟合效果最好）：

m 代表训练集中实例的数量
x 代表输入变量（特征 Feature）
y 代表输出变量（目标变量）
(x, y) 代表训练集中的实例
(Xi, Yi) 代表第 i 个观察实例
h 代表学习算法的解决方案或函数，也称为假设函数（hypothesis）

一个经典监督学习算法工作流程如下图：

使用训练数据集和选择的训练算法，来计算假设函数 $h$ 的参数，使得给定一个输入，假设函数给出一个预测的输出。比如预测房屋价格：

训练集：人为标记的房屋面积和对应房价的一组数据点
学习算法：比如梯度下降法
假设函数 $h$ ：比如 $h_\theta \left( x \right)=\theta_{0}+\theta_{1}x$ ，线性函数拟合
输入和输出：房屋的预测价格 $y = h$ (房屋面积 x)

机器学习算法的训练就是计算最优的参数 a 和 b，这里的函数只有一个输入特征面积，所以叫单变量线性回归模型。

三、代价函数（Cost Function）

我的理解：代价函数（cost function，loss function）在机器学习中的作用是确定最优的函数参数，使得拟合数据点的误差达到最小，即拟合效果最好。

因为我们训练函数参数，最终还是要选择一个最优的，那么代价函数就给我们一个最优参数的度量方式，使得我们可以根据数学理论选择训练参数。

3.1 预测房价的代价函数

还是用预测房价的例子来介绍下代价函数的原理，这是预测房价的数据集：

我们使用线性回归算法来预测，所以取假设函数 Hypothesis 的表达式为 2 个参数（ $\theta_0$ ， $\theta_1$ ）线性函数，那么这个机器学习的问题就可以转换为如何选择最优的参数来使得预测的误差（代价）最小？

可问题是用什么方式来度量预测的误差呢？这时代价函数就派上用场了，我们可以用代价函数来计算不同参数所对应的误差，取误差最小的那组参数作为训练的最终结果，代价函数有挺多种形式，线性回归常用误差的平方和计算代价：

上面的代价函数 Cost Function 的求和公式其实就是高中学习的最小二乘法的平方误差的计算，最终的求和结果就是预测值与真实值误差的平方和，再除以训练集实例数量，不过要注意这里的乘以 1/2，只是为了尽量把最后的求和结果变小一点，不含有其他逻辑。

可以将 Cost Function 的求和值理解就是下图中三条蓝色线段的长度平方之和再除以 1/ 2m，表示当前预测的函数值与实际的函数值之间的总的误差：

可以直观的理解，蓝色的线段总长度越小（误差越小，代价越小），则预测的函数直线就越接近（1，1）（2，2）（3，3）这 3 个点，且当代价函数的值为 0 时，预测的函数直线就是 y = x（浅蓝色直线），直接拟合了这 3 个训练的数据点，这时误差达到最小，对应的函数参数为 $\theta_0$ = 0， $\theta_1$ = 1，这就是训练的最终结果了。

所以机器学习的训练就是找到使得代价函数取最小值得那组参数，就这么简单，听起来挺高大上的，上图中右边的代价函数 $J(\theta_0)$ = 0，但如果不把 $\theta_0$ 设置为 0，又如何理解带有 2 个参数的代价函数呢？继续往下看。

3.2 理解 2 个参数的代价函数

上面一个参数 $\theta_1$ 的代价函数容易理解，如果是两个参数的 $J(\theta_0, \theta_1)$ 的代价函数，函数图形稍微复杂些，不过也不是很难理解，我们目前只需要理解 2 个参数成本函数的求最小值的过程就行了，其他的暂时不需要深究。

来看下这个 2 参数的代价函数，其实就是在参数 $\theta_1$ 的基础上，纵向扩展了一个 $\theta_0$ 维度，最后的曲线变成了一个像渔网一样的图像，我们称这样的函数为凸函数，不必追究它的概念，只需要知道凸函数只有一个局部最优解 - 即渔网的最底部。

但这个渔网一样的曲线也不是很直观，为了在二维坐标系中显示这个曲线，我们使用等高线来表示这 2 个参数，可以把上面的渔网从下往上看，像个小山头，下面右图就相当于山头的等高线，每个等高线上函数的代价都相同。

当代价函数达到最小时：

渔网图像中（ $\theta_0$ ， $\theta_1$ ）在渔网的最底部取得，使得代价函数达到最小值；
$h_\theta \left( x \right)$ 图像中预测的函数曲线对训练数据的拟合效果达到最优；

四、梯度下降算法（Gradient Descent）

如何在程序中求代价函数的最小值呢？可以使用经典的梯度下降算法，迭代求代价函数 $J(\theta_0, \theta_1)$ 的最小值。

4.1 算法思想

梯度下降基本思想：开始时随机选择一个参数的组合 $\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}} \right)$ ，计算代价函数，然后寻找下一个能让代价函数值下降最多的参数组合，持续这么迭代直到求出一个局部最小值（local minimum）。

但是因为没有尝试完所有的参数组合，所以不能确定得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值（下图中的 2 个谷底就是不同的局部最小值）。

可以拿下山的例子来形象地理解梯度下降：想象一下你正站立在山顶的某一点上，我们要做的就是原地旋转 360 度，看看我们的周围，并问自己如果要在某个方向上用小碎步尽快下山，那么这些小碎步需要朝什么方向？如果我们发现最佳的下山方向，就迈出一步，然后再看看周围，想想我应该从什么方向下山？依此类推，直到你接近局部最低点的位置。

你也可以把这个算法记成梯度下山算法，帮助你更好的理解算法的执行逻辑，但还是要记住原名。

4.2 算法数学理解

在实际算法中，常用批量梯度下降算法（Batch Gradient Descent）来同时更新多个参数 $\theta_i$ ：

解释下这个更新公式：

$\theta_j$ 是待更新的参数（ $\theta_0$ ， $\theta_1$ ）
$\alpha$ 是学习率（learning rate），决定了代价函数在下降方向每次更新的步长（其实就是每次下山的小碎步）
$\alpha \frac{\partial }{\partial {\theta_j}}J(\theta_0,\theta_1)$ 是代价函数对（ $\theta_0$ ， $\theta_1$ ）的偏导数
因为是求偏导，所以（ $\theta_0$ ， $\theta_1$ ）必须同步更新

可以用一句话总结这个公式：在批量梯度下降中，每一次同时让所有参数减去学习率 $alpha$ 乘以代价函数的偏导数。

4.3 算法的直观理解

下面用实际的预测房价的代价函数曲线来直观理解梯度下降寻找最优解的执行过程： ${\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta \right)$

为了方便理解，上面的代价函数假设 $\theta_0$ = 0，红色的直线线表示 $\theta_1$ 点的切线，切线斜率即右端的红框中的对 $\theta_1$ 的偏导数，且切线的斜率大于 0，所以一次更新过程为：新的 $\theta_1$ = 旧的 $\theta_1$ - $\alpha$ * 正数。

影响梯度下降算法的一个重要变量是 $\alpha$ ，它对更新会产生如下作用：

如果 $\alpha$ 太小，每次更新的步长很小，导致要很多步才能才能到达最优点；
如果 $\alpha$ 太大，每次更新步长很大，在快接近最优点时，容易应为步长过大错过最优点，最终导致算法无法收敛，甚至发散；

虽然 $\alpha$ 会对更新步长产生影响，但是实际设计算法时，并不需要对 $\alpha$ 进行特殊处理，为什么呢？来看下面这个例子：

我们知道一点的切线越陡则斜率（ $\alpha$ ）越大，越缓则斜率（ $\alpha$ ）越小（这里只强调斜率大于 0，斜率小于 0 完全类似，只不过变了符号而已），在上图中随着算法不断迭代，更新的数据点越来越接近曲线底部，相对应的切线也越来越缓，即学习率 $\alpha$ 会自动变小，随着学习率变小，那么下一步更新的步长也就随之变小，因为下一步更新的步长使用的 $\alpha$ 在上一步中已经自动变小了，所以直到下降到最低点（该点导数为 0）时：新的 $\theta_1$ = 旧的 $\theta_1$ - $\alpha$ * 0 = 旧的 $\theta$ ，此时不再进行迭代，算法找到最优解！

可以看出，梯度下降算法在执行过程中会自动更新 $\alpha$ ，所以没必须另外再减小 $\alpha$ ，这点一定要注意了！那么既然学习了梯度下降算法，下面来看看如何用它来找到预测房价的代价函数最优解！

五、梯度下降的线性回归

我们用梯度下降算法来求平方误差代价函数的最小值，以此来拟合房价预测的函数直线，两个部分的公式如下：

当你理解了梯度下降算法的公式后，便可以看出求解的关键点就在于求出代价函数关于参数 $\theta_i$ 的偏导数，求偏导是高数中很基础的方法，这里就不介绍了，直接看下求出的 2 个偏导数：

当我们在程序中求出了所有参数的偏导数后，接着就可以按照算法的逻辑来同步更新参数 $\theta_i$ ，再一步步迭代下去直到找到最优解。

要注意一点，因为这里代价函数求出的偏导，在计算时需要使用到所有的训练集，因为它含有求和公式，需要累加所有训练数据的误差，所以这里的梯度下降算法也称为批量梯度下降，其中批量的意思就是每次梯度下降时都会用到所有的训练样本。

实际上也有其他不是批量型的梯度下降法，每次迭代值关注训练集中的一个子集，以后我学到了再跟你分享吧，记得持续关注我哈哈哈哈。

最后编辑于：2020.04.02 22:35:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,616评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,020评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,078评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,040评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,154评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,265评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,298评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,072评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,491评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,795评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,970评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,654评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,272评论 3赞 318
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,985评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,223评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,815评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,852评论 2赞 351