resnet的提出是为了解决深层网络优化的问题,如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。残差结构的输出表示为F(x) + x,相比于用多个堆叠的非线性层直接去学习恒等映射F(x) = x,残差结构直接学习F(x) = 0使得训练更容易些。
在网络层的深度过大之后反向传播对网络的权重的影响下降得非常厉害。
为了解决梯度消失:
改进版的结构:
256维压缩到64维然后3*3卷积后恢复到256维
resnet的提出是为了解决深层网络优化的问题,如果深层网络的后面那些层是恒等映射,那么模型就退化为一个浅层网络。残差结构的输出表示为F(x) + x,相比于用多个堆叠的非线性层直接去学习恒等映射F(x) = x,残差结构直接学习F(x) = 0使得训练更容易些。
256维压缩到64维然后3*3卷积后恢复到256维