欠拟合是模型在训练集没有学习到很好的特征,在训练集测试集表现都很差
其中原因可能是
1.数据集的特征表示过于简单,不能表示复杂的对应关系;
2.模型的复杂性也过于简单,没有较强的学习能力
3.为了避免过拟合,正则项系统过大,从而产生欠拟合
普通卷积前后尺寸计算公式
OutputSize = ( InputSize - ConvSize + 2 x Padding ) / Stride + 1
2 卷积神经网络基础
2.1 卷积层
二维互相关运算的输入是一个二维输入数组和一个二维核数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。
.2 填充和步幅
我们介绍卷积层的两个超参数,即填充和步幅,它们可以对给定形状的输入和卷积核改变输出形状。
填充(padding) 是指在输入高和宽的两侧填充元素(通常是0元素)。
步幅 指在互相关运算中,卷积核在输入数组上滑动,每次滑动的行数与列数即是步幅(stride)。
2.4 卷积层与全连接层的对比
二维卷积层经常用于处理图像,与此前的全连接层相比,它主要有两个优势:
一是全连接层把图像展平成一个向量,在输入图像上相邻的元素可能因为展平操作不再相邻,网络难以捕捉局部信息。而卷积层的设计,天然地具有提取局部信息的能力。
二是卷积层的参数量更少。
2.6 池化
池化层主要用于缓解卷积层对位置的过度敏感性。
3 机器翻译及相关技术
机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。
主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。
NLP注意力机制
常用的有点积注意力和MLP注意力