1. 有哪些激活函数,有什么用?
ReLU、Sigmoid、Tanh。作用:非线性变换。
2. ReLU、Sigmoid、Tanh函数和导数。
ReLU:
=> 导数
Sigmoid:
=> 导数
Tanh:
=> 导数
3. Sigmoid和ReLU的区别,ReLU解决了什么问题?
Sigmoid和Tanh激活函数会导致梯度消失问题。
ReLU优点:
- Sigmoid和Tanh均需要
计算指数
,复杂度高。ReLU只需要一个阈值即可得到激活值。 - ReLU的非饱和性可以有效地
解决梯度消失
问题。 - ReLU的单侧抑制提供了网络的
稀疏表达
能力。
1. 有哪些损失函数?
均方差损失(MSE)、交叉熵损失(CrossEntropy)
2. 交叉熵、相对熵、
相对熵又名KL散度:
交叉熵:
3. 交叉熵损失函数公式。
4. 为什么使用交叉熵,不用平方差?
平方差损失函数更适合输出为连续
,并且最后一层不含sigmoid
或softmax
激活函数的神经网络;
原因是:平方差损失函数相对于输出层的导数:,如果的绝对值较大,函数的梯度会趋于饱和,导致的取值非常小,梯度学习
非常缓慢。
交叉熵损失函数相对输出层的导数: 此时导数是线性的
,因此不会存在学习速度过慢的问题。