这个最常见于GradientDescentOptimizer优化中。 原因是loss过大,导致训练困难。 image.png 如图,这里batch_size是1000,reduce_sum则是reduce_mean的1000倍。 导致nan