前馈 = 正向 上一层的输出作为下一层的输入 并且相邻层之间全连接 (全连接=矩阵相乘)
浅胖
微软验证 深瘦学习效果好
权重 矩阵相乘 a的行 b的列
全连接一般不超过7层
(上一层输入个数 * 神经元的个数)= 权重的shape
(1,2) (2,3) (1,3)
(1,3)(3,2) (1,2)
(1,2) (2,2) (1,2)
激活函数:ReLU x>0 x
x<=0 0
线性转非线性输出 增加表征能力
如果一个网络的激活函数为连续函数的话 叫神经网络
否则为“多层感知机“
阶跃函数:
逻辑函数:sigmoid 映射到 0-1 做二分类
优点:平滑 容易求导
缺点:求导很容易出现梯度消失 无法完成深层网络的训练
tanh
leakyrelu 小于0的时候 会有一个很小的值 避免梯度消失
分类模型中,有几个类别 输出层就有几个神经元
中间层是relu 通过softmax输出转为相对概率 每一层的激活函数一样
在分类模型最后的输出层 激活函数一般都为softmax
交叉熵是评估概率之间的差异的
独热编码将真实值转换成概率
计算梯度需要反向传播算法
mse :均方误差