2.19第二次课

欠拟合是模型在训练集没有学习到很好的特征,在训练集测试集表现都很差

其中原因可能是

1.数据集的特征表示过于简单,不能表示复杂的对应关系;

2.模型的复杂性也过于简单,没有较强的学习能力

3.为了避免过拟合,正则项系统过大,从而产生欠拟合

普通卷积前后尺寸计算公式

OutputSize = ( InputSize - ConvSize + 2 x Padding ) / Stride + 1

2 卷积神经网络基础

2.1 卷积层

二维互相关运算的输入是一个二维输入数组和一个二维核数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。

.2 填充和步幅

我们介绍卷积层的两个超参数,即填充步幅,它们可以对给定形状的输入和卷积核改变输出形状。

填充(padding) 是指在输入高和宽的两侧填充元素(通常是0元素)。

步幅 指在互相关运算中,卷积核在输入数组上滑动,每次滑动的行数与列数即是步幅(stride)。

2.4 卷积层与全连接层的对比

二维卷积层经常用于处理图像,与此前的全连接层相比,它主要有两个优势:

一是全连接层把图像展平成一个向量,在输入图像上相邻的元素可能因为展平操作不再相邻,网络难以捕捉局部信息。而卷积层的设计,天然地具有提取局部信息的能力。

二是卷积层的参数量更少。

2.6 池化

池化层主要用于缓解卷积层对位置的过度敏感性。

3 机器翻译及相关技术

机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。

主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。

NLP注意力机制

常用的有点积注意力和MLP注意力  

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容