tf2.0学习(六)——过拟合

前边介绍了TensorFlow的基本操作和Keras的高层接口:
tf2.0学习(一)——基础知识
tf2.0学习(二)——进z阶知识
tf2.0学习(三)——神经网络
tf2.0学习(四)——反向传播算法
tf2.0学习(五)——Keras高层接口

下面我们接好一下在训练过程中经常要面对的一个问题,过拟合,以及在TensorFlow这个框架中如何更好的处理这个问题。

6.0 简介

机器学习的主要目的,是通过训练集学习到数据的真实模型,从而在未见过的测试集上能有良好的表现,这种能力叫做模型的泛化能力。通常来说,训练集和测试集都采样自某个相同的数据分布p(x)。采样到的样本是相互独立的,但又来自同一个分布,我们把这种假设叫做独立同分布假设(简称:i.i.d)。
模型的表达能力,也叫做模型的容量。当模型的表达能力偏弱时,会导致无法充分学习到数据的特征,从而导致模型性能很差,这时候模型在训练集和测试集上的表现都很差。当模型的表达能力过强时,又会导致模型学习过于充分,甚至学到了训练集中的噪声,这时候模型在训练集上表现很好,但在测试集上的表现很差。

6.1 模型的容量

通俗的讲,模型的容量或表达能力,就是模型拟合复杂函数的能力。一种体现模型容量的指标叫做模型的假设空间,即模型可以表示的函数集的大小。假设空间越大越完备,就越有可能从假设空间中搜索到能够拟合真实数据的函数,相反,如果假设空间很小,就很难找到拟合真实数据的函数。
假设一数据集采样自如下分布:
p_{data} = \left\{ (x, y) | y = sin(x), x \in [-5, 5] \right\}
该数据集引入了一些观测误差,如下图小圆点所示。如果只搜索1次多项式的模型空间,那么最多能拟合出一条直线来,效果很差。如果搜索空间增加到3次多项式函数,此时假设空间明显大于1次多项式的情况,此时能拟合出一条曲线,效果能有些提升。如果继续增加多项式的幂次,那么假设空间越来越大,搜索的范围也越来越大,就约有可能找到拟合效果更好的模型。
但是过大的搜索空间,无疑会增加模型的搜索难度和计算代价。实际上在有限的计算资源下,较大的搜索空间并不一定能找出更好的函数模型。相反,随着假设空间中可能存在表达能力过强的模型,学习到了训练集中的噪声数据,从而伤害了模型的泛化能力。因此在实际情况中,往往根据具体任务,选择合适的假设空间的模型。

模型容量示意图

6.2 过拟合与欠拟合

由于真实数据的分布往往是未知又复杂的,而且无法推断出其分布函数的类型和参数,因此人们在学习模型时,往往根据根据经验选择较大的模型容量。
但模型容量过大时,搜索到的模型,可能由于表达能力过强,不仅学到了数据本省的模态,还学到了数据中的观测误差,这就会导致模型在训练集上的表现很好,但在未见的新样本上表现不佳,泛化能力弱,这种现象叫做模型的过拟合。当模型容量过小时,模型可能不能很好的学习到数据的模态,就会导致模型在训练集上表现不佳,在未见过的新样本上表现也很差,这种现象叫做欠拟合。
那么如何选择合适的模型容量呢?统计学习理论给我们提供了一些思路,VC维是机器学习领域,一个比较通用的度量模型容量的方法。尽管这些方法给机器学习提供了一些理论保证,但在深度学习领域却很难应用,一部分原因是神经网络的机构复杂,很难确定网络背后的数学模型的VC维度。
但是,我们可以根据奥卡姆剃刀原则,指导神经网络的设计和训练。“切勿浪费较多东西,去做‘用较少的东西,同样可以做好的事 情’”。也就是说,如果两层的神经网络结构能够很好的表达真实模型,那么三层的神经 网络也能够很好的表达,但是我们应该优先选择使用更简单的两层神经网络,因为它的参 数量更少,更容易训练,也更容易通过较少的训练样本获得不错的泛化误差。

6.2.1 欠拟合

欠拟合的原因,往往是模型容量不足,导致在假设空间内找不到一个合适的函数很好的拟合数据。表现是在训练集上误差很好,在测试集上的表现也很差。遇到这种情况,我们一般考虑增加模型的复杂度,增加数据维度等办法处理。但由于以深度学习为代表的很多模型,可以轻易达到很深的维度,模型复杂度往往很高,所以欠拟合的问题一般不如过拟合的问题常见。

6.2.2 过拟合

现在说一下过拟合。当模型容量很大,可供搜索的假设空间也就会很大,这时候模型的表达能力过于强大,很可能会学习到训练数据中的观测误差,导致在训练集上的表现很好,但在测试集上的表现却很差。这时候往往就是过拟合了。本章接下来的内容更多用于介绍如何避免过拟合。

6.3 数据集划分

我们在做机器学习任务过程中,数据集要划分为训练集和测试集,但为了选择模型超参数和检测过拟合现象,往往再将训练集划分为训练集和验证集。也就是一个数据集会被划分成训练集、验证集、测试集三部分。

6.3.1 验证集与超参数

前边已经介绍了训练集和测试集,训练集主要用来训练模型,测试集主要用来验证模型的泛化能力。测试集的样本不能出现在训练集中,防止模型学到测试集的信息,导致测试集不能真正反应模型的泛化能力,是一种有损模型泛化的行为。训练集和测试集一般都采样自同一分布的数据,对应比例可以根据情况调节。
但只将数据分为训练集和测试集是不够的,由于测试集不参与到模型训练中,所以测试集不能用来作为模型训练的实时反馈,而模型训练过程中,我们需要挑选合适的参数模型,需要有个数据集对模型性能进行实时反馈,判断模式是否过拟合。因此一般再将训练集划分为训练集和验证集。划分后的训练集主要用来训练模型,验证集主要用来进行超参数的选择。
验证集和测试集的主要区别在于,开发人员可以根据验证集的反馈结果进行模型参数的调整,而训练集一般只是用来验证模型整体泛化能力。

6.3.2 提前停止(early stopping)

一般来说,把训练集的一个Batch运算更新一次叫做一个step,对训练集的所有样本循环迭代一次叫做一个Epoch,整个训练过程可能会进行多个Epoch。验证集一般可以在间隔数次Step或数次Epoch之后,对模型进行验证。如果验证过于频繁,虽然能清楚的记录模型性能,但会带来额外的计算消耗,所以一般建议间隔几个Epoch进行一次验证。
在训练过程中,我们会同时关心训练集和验证集的误差、准确率等指标。如果模型的训练误差 较低,训练准确率较高,但是验证误差较高,验证准确率较低,那么可能出现了过拟合现 象。如果训练集和验证集上面的误差都较高,准确率较低,那么可能出现了欠拟合现象。
当发现模型过拟合时,可以通过重新设计模型容量,如减少网络层数,添加正则化项等方式。
实际上,由于模型是随着训练不断变化的,因此同一个模型可能会出现不同的过拟合、欠拟合。可以看到在训练的前期,训练集和测试集准确率都在不断提升,没有出现过拟合现象。但随着训练的持续,在某个Epoch出,会出现过拟合现象,具体表现如下图所示,训练集准确率不断升高,而测试集准确率却在不断下降。

模型训练

那么可不可以,在模型训练到合适的Epoch时,就停止训练,从而只过拟合现象的发生呢。我们可以通过观察验证集的准确率,找到合适的Epoch,当验证集在连续几个Epoch都没有准确率的提升时,我们可以认为已经到了最合适的Epoch附近,从而提前挺尸训练,避免训练过度,发生过拟合。

6.4 模型设计

通过验证集可以判断网络模型是否过拟合或欠拟合,从而为调整网络模型的容量提供依据。对于神经网络来说,网络的层数和参数量时衡量网络容量的重要参考指标。当网络过拟合时,可以适当减少网络层数或减少网络层的参数量,从而降低网络容量。反之如果发现模型欠拟合,择可以加大模型容量。

6.5 正则化

通过不同层数和参数的网络模型,可为优化算法提供初始的函数假设空间,但函数的假设空间时随着训练而不断变化的。我们以多项式模型为例。
y = \beta_0 + \beta_1 x + \beta_2 x^2 +... + \beta_n x^n + \epsilon
上述模型的容量,可以简单的用n来衡量,但如果我们限制了 \beta_{k+1} ... \beta_n都为0的话,那么该模型的容量就变为k。因此可以通过限制网络参数的稀疏性,限制网络容量。
这种约束一般是在损失函数上添加额外的惩罚项。添加惩罚项之前的优化目标是:
min L(f_{\theta}(x), y), (x, y) \in \mathbb{D}^{train}
添加惩罚项之后的优化目标是:
min L(f_{\theta}(x), y) + \lambda \Omega(\theta), (x, y) \in \mathbb{D}^{train}
其中,惩罚项约束一般通过参数的范数来量化:
\Omega(\theta) = \sum_{\theta_i} ||\theta_i||_l
||\theta_i||_l叫做参数\theta_i的l范数。
常用的正则化项有L0、L1、L2正则化。

6.5.1 L0正则化

\Omega(\theta) = \sum_{\theta_i} ||\theta_i||_0
对于L0正则化项,定义是所有\theta中,非零元素的个数。但由于L0范数不可导,因此在神经网络中使用的并不多。

6.5.2 L1正则化

\Omega(\theta) = \sum_{\theta_i} ||\theta_i||_1
L1 正则化也叫 Lasso Regularization。它是连续可导的,在神经网络中使用广泛。

w1 = tf.random.uniform([4, 3])
w2 = tf.random.uniform([4, 3])
loss_reg = tf.reduce_sum(tf.math.abs(w1) + tf.math.abs(w2))

6.5.3 L2正则化

\Omega(\theta) = \sum_{\theta_i} ||\theta_i||_2
L2 正则化也叫 Ridge Regularization,它和 L1 正则化一样,也是连续可导的,在神经网络中使用广泛。

w1 = tf.random.uniform([4, 3])
w2 = tf.random.uniform([4, 3])
loss_reg = tf.reduce_sum(tf.square(w1) + tf.square(w2))

6.6 Dropout

Dropout是一种在神经网络里经常用到的防止过拟合的方法。在训练阶段随机断开一部分神经网络的连接,减少每次训练时实际参与计算的参数量(如下图右所示);但在测试阶段,会恢复所有链接。

Dropout

在TensorFlow中,可以通过增加dropout操作和添加dropout层来实现dropout。

# 增加dropout操作
x = tf.nn.dropout(x, rage=0.5)
# 增加dropout层
model.add(tf.keras.layers.Dropout(0.5))

6.7 数据增强

还有一种简单直接的防止过拟合的方式,就是增加训练数据。但实际上收集数据成本高昂,我们可以在已有的数据集上,通过数据增强,获取更多的训练数据。数据增强(Data Augmentation)是指在维持样本标签不变的前提下,根据先验知识,改变样本的特征,使得新生成的样本也符合或近似符合数据的真实分布。

6.7.1 图像

在图像领域,可以通过对图片进行旋转、翻转、裁剪等方式,将一张图片衍生出多张图片。

6.7.2 生成数据

如GAN网络等,将在后边章节介绍。

6.7.3 其他

可以对数据增加少量噪声,同义词替换,多次翻译等方式。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容