用sigmoid做激活函数有缺点,输出在0到1之间。
训练很多层网络时,相乘导致接近0,前面几层训练不到
ReLU解决vanishing问题
但是某些节点等于0是不是问题呢,有些weight会训练不到?
节点等于0的前提是输出都等于0,这个实际上很少出现
用sigmoid做激活函数有缺点,输出在0到1之间。
训练很多层网络时,相乘导致接近0,前面几层训练不到
ReLU解决vanishing问题
但是某些节点等于0是不是问题呢,有些weight会训练不到?
节点等于0的前提是输出都等于0,这个实际上很少出现