参数初始化

为避免隐层神经元的作用完全一样,我们可以随机初始化参数,例如:把𝑊[1] 设为np.random.randn(2,2)(生成高斯分布),通常再乘上一个小的数,比如 0.01,这样把它初始化为很小的随机数。之所以乘以0.01,是为了避免wx+b落在tanh/sigmoid函数两端的平坦位置,导致梯度下降很慢。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容