2.19第二次课

欠拟合是模型在训练集没有学习到很好的特征，在训练集测试集表现都很差

其中原因可能是

1.数据集的特征表示过于简单，不能表示复杂的对应关系；

2.模型的复杂性也过于简单，没有较强的学习能力

3.为了避免过拟合，正则项系统过大，从而产生欠拟合

普通卷积前后尺寸计算公式

OutputSize = ( InputSize - ConvSize + 2 x Padding ) / Stride + 1

2 卷积神经网络基础

2.1 卷积层

二维互相关运算的输入是一个二维输入数组和一个二维核数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。

.2 填充和步幅

我们介绍卷积层的两个超参数，即填充和步幅，它们可以对给定形状的输入和卷积核改变输出形状。

填充（padding） 是指在输入高和宽的两侧填充元素（通常是0元素）。

步幅指在互相关运算中，卷积核在输入数组上滑动，每次滑动的行数与列数即是步幅（stride）。

2.4 卷积层与全连接层的对比

二维卷积层经常用于处理图像，与此前的全连接层相比，它主要有两个优势：

一是全连接层把图像展平成一个向量，在输入图像上相邻的元素可能因为展平操作不再相邻，网络难以捕捉局部信息。而卷积层的设计，天然地具有提取局部信息的能力。

二是卷积层的参数量更少。

2.6 池化

池化层主要用于缓解卷积层对位置的过度敏感性。

3 机器翻译及相关技术

机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。

主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

NLP注意力机制

常用的有点积注意力和MLP注意力