240 发简信
IP属地:浙江
  • [译]在训练过程中loss出现NaN的原因以及可以采取的方法。

    1.梯度爆炸 原因:在学习过程中,梯度变得非常大,使得学习的过程偏离了正常的轨迹。 症状:观察输出日志(runtime log)中每次迭代的lo...