全0初始化。 随机初始化(高斯随机化、均匀随机化)。 稀疏随机化(将权重全部初始化为0,然后为了打破对称性在里面随机挑选一些参数附上一些随机值)。 初始化偏置(bias)(通常初始化为0,因为权重已经打破了对称性,所以使用0来初始化是最简单的)。 批标准化(Batch Normalization) 核心想法就是标准化这个过程是可微的。 可以将标准化过程应用到神经网络的每一层中做向前传播和反向传播,通常批标准化应用在全连接层后面、非线性层前面。 可以理解为在网络的每一层前面都会做数据的预处理。