1. 写出常用的激活函数及其导数
- sigmoid
- tanh
- ReLU
- Leaky ReLU
- Softplus
2. 神经网络训练时是否可以将参数全部初始化为0?
不可以,如果将参数全初始化为0,那同一隐层每个节点的值都相同,反向传播权值更新也相同,这样每层隐层的神经元都相同,学习失败。
3. 多层感知机表示异或逻辑时最少需要几个隐层?
一层,详见西瓜书
4. 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?
因为权值是通过BP更新的,sigmoid的导数最大值是0.25,tanh的导数最大值是1,也就是说这两个函数的梯度都是<=1的,根据链式法则,梯度会衰减,以至梯度消失。
5. 写出多层感知机的平方误差和交叉熵损失函数。
6. 解释卷积操作中的稀疏交互和参数共享及其作用。
7. ReLU系列的激活函数的优点是什么?他们有什么局限性以及如何改进?
优点:
- 方便计算
- 收敛速度快
- 对于线性函数,表达能力更强
- 在非负区间的导数是1,不存在梯度消失
8. 平方误差损失函数和交叉熵损失函数分别适合什么场景?
9. 常用的池化操作有哪些?池化的作用是什么?
- 最大池化
- 平均池化
- 随机池化
池化的作用:
在保留更多细节特征的前提下减少冗余,也就是降维,可以减少计算量,防止过拟合,提高模型的泛化能力