c_4_2

经典网络

Lenet-5

VGG

简化了nn结构高宽逐渐减小，通道数增加

残差网络

深的神经网络很难训练因为梯度消失和梯度爆炸未加残差的是plain nn:

如果使用l2正则（权重衰减），前面的w会不断缩小，假设缩小到0,则最后还是 $a^{[L]}$ ,这不影响网络的学习效率，因为他是一个恒等式。

注意： $z^{[l + 2]}$ 和 $a^{[l]}$ 需要同一个维度，而Resnet中用了很多相同的卷积，所以维度相同。如果不相同，也可以用一个 $W_{s}$ 矩阵，中间的虚线是有pooling,维度不同skip时用 $W_{s}$ 矩阵。（他解决的一个问题就是当时深度学习网络随着网络层数加深而产生的退化问题。
解决方法就是恒等映射，该恒等映射保证了相比于浅层网络钱，深层网络至少可以得到一个不差于浅层网络的结果。我在直观上认为，层数越多的网络他的解空间就会越多，加上这个恒等映射可能就是对网络在探索解空间时的一个约束，这个约束保证网络参数不会朝着一个奇怪的方向前进）（残差的思想都是去掉相同的主体部分，从而突出微小的变化，看到残差网络我第一反应就是差分放大器…）