主要问题
作者提出了一种叫做Highway networks的架构,用来解决基于梯度的学习模型在拥有较多层数时,难以训练的问题。
模型描述
对于一个朴素的包含层的前馈神经网络,第层对输入进行非线性转化(参数为),得到输入。简化下标和偏移量之后,形式如下:
对于Highway networks,额外增加两个非线性转化和,新形式如下:
其中称作转换门,称作携带门,它们决定了输出由非线性变化和原始输入组成的比例。
可以将假设来得到更加简单的形式:
模型优点
增加了门结构的形式在计算过程中会比原本的形式更加灵活:
可以发现会学习当前状态下是否应该使用原始输入,或者使用转换后的结果作为输出。
对于梯度也有类似的结果:
注意事项
根据Highway networks的公式,要求的维度一致,如果需要修改形状,可以通过子采样或者填充零的方式,也可以增加一层神经网络(不包含Highway),进行维度转换。
未理解知识
- 段落2.1中改变向量维度的操作sub-sampling具体是指?关于权重矩阵的weight-sharing和local receptive fields意思是?
- 段落2.2关于门偏移量为负的说明是想说什么?
- 段落3.1中提到的variance-preserving初始化技巧是指?模型训练中提到的momentum概念的含义是?
- 表格1中提到的Fitnets以及maxout networks是指?
- 段落5中credit assignment是指?