1 卷积网络流程图

卷积网络网络图解.png

一个简单的卷积神经网络对于给定的输入图片，经过卷积池化过后得到feature map 然后再拉成一列，经过若干个隐含层得到FC，然后得到输出Z，Z的神经元个数取决于分类类别的个数，然后再经过softmax层得到每个类别的概率，最后经过交叉熵损失函数进行梯度回传。
关于卷积神经网络网上有很多优秀的文章，暂不细讲。图中只给出了网络中最后的一部分，即跟本文内容有关的部分，也就是softmax层和交叉熵。

2 softmax 和交叉熵

关于softmax和交叉熵的历史，百度会有一堆文章，这里暂且不提，本文着重探讨公式的推导过程和代码验证。

softmax公式如下：
$y_i=\frac{e^{z_i}}{\sum{e^{z_j}}},\qquad\sum{y_i} = 1,\qquad i,j = 1,2,3,...,n$
式中， $z_i$ 表示第 $i$ 个输出, $y_i$ 表示 $z_i$ 对应的softmax值， $n$ 为类别数。
交叉熵损失函数公式如下：
$L=\sum{-\hat{y_i}\cdot{\log y_i}},\qquad i=1,2,3,...,n$
式中， $\hat{y_i}$ 表示第 $i$ 个类的标签或者说真实值。

3 求导

在一个网络中，参数 $W$ 需要损失函数对 $W$ 求负梯度来更新,也就是 $W = W - \eta\frac{\partial{L}}{\partial{W}}$ ，根据链式求导法则 $\frac{\partial{L}}{\partial{W}}=\frac{\partial{L}}{\partial{z}}\cdot\frac{\partial{z}}{\partial{W}}$ ,因此，需要先求 $\frac{\partial{L}}{\partial{z}}$ 。同理， $\frac{\partial{L}}{\partial{z}}=\frac{\partial{L}}{\partial{y}}\cdot{\frac{\partial{y}}{\partial{z}}}$ .
在求导中，需要分成两步,下面式中的 $\frac{\partial{L}}{\partial{z_j}}$ 表示损失函数 $L$ 对第 $j$ 个输出求导。

$i = j$ ,也就是对应 $L$ 中的 $-\hat{y_j}\cdot\log{y_j}$ :
$\frac{\partial{L}}{\partial{z_j}}=\frac{\partial{L}}{\partial{y_j}}\cdot{\frac{\partial{y_j}}{\partial{z_j}}}=-\hat{y_j}\cdot{\frac{1}{y_j}}\cdot{\frac{\sum{\cdot{e^{z_j}}-e^{z_j}\cdot{e^{z_j}}}}{\sum^2}}$
$\qquad \qquad\qquad=-\hat{y_j}\cdot{\frac{1}{y_j}}\cdot{\frac{e^{z_j}}{\sum}}\cdot{\frac{\sum-e^{z_j}}{\sum}}$
$\qquad=-\hat{y_j}\cdot(1-y_j)$
$i\neq j$ ,也就是对应 $L$ 中下标不等于 $j$ 的部分
$\frac{\partial{L}}{\partial{z_j}}=\frac{\partial{L}}{\partial{y_i}}\cdot{\frac{\partial{y_i}}{\partial{z_j}}}=-\sum_{i\neq j}{\hat{y_i}\cdot{\frac{1}{y_i}}\cdot{\frac{0-e^{z_i}\cdot{e^{z_j}}}{\sum^2}}}$
$\quad=\sum_{i\neq j}\hat{y_i}\cdot{y_j}$
综上：
$\frac{\partial{L}}{\partial{z_j}}=-\hat{y_j}\cdot(1-y_j)+\sum_{i\neq j}\hat{y_i}\cdot{y_j}$
$\qquad\qquad\qquad\qquad\qquad\quad=-\hat{y_j}+\hat{y_j}\cdot{y_j}+\sum_{i\neq j}\hat{y_i}\cdot{y_j}$
$\qquad\qquad\qquad\qquad\qquad\quad=-\hat{y_j}+\sum\hat{y_i}\cdot{y_j}$
由于在一般的分类任务中，标签 $\hat{y}$ 一般使用one-hot编码，例如：[0,0,0,1,0,0]表示分类为第4类的编码，因此 $\sum\hat{y}=1$ (此处 $\hat{y}$ 除了是one-hot编码外也可以是一个概率分布，满足和为1即可),所以，
$\frac{\partial{L}}{\partial{z_j}}=y_j-\hat{y_j}$
这个公式的意义就是，损失函数 $L$ 对输出 $z_j$ 的导数就等于经过softmax后的输出 $y_j$ 减去标签 $\hat{y_j}$ 。

4 在pytorch中的代码验证

import torch.nn as nn
import torch
import torch.nn.functional as F
import numpy as np
x = torch.randn(1,5,requires_grad = True)#随机生成一个size为(1,5)的数据
y = torch.tensor([3]).long()#目标是属于第三类，若是one-hot编码应为[0,0,0,1,0,]
prob = F.softmax(x.float(),dim=1)
loss = nn.CrossEntropyLoss()(x,y)#注意，pytorch中的CrossEntropyLoss函数输入为类别下标和实际输出，该函数会自动进行one-hot编码和softmax计算
print("单样本输出为："+ str(x))
print("#"*20+"pytorch中的结果"+"#"*20)
print("softmax："+str(prob.data.numpy()))
print("loss："+str(loss.data.numpy()))
loss.backward()#求导
print("grad："+str(x.grad.data.numpy()))
print("\n")
softmax_=np.exp(x.data.numpy().squeeze())/np.sum(np.exp(x.data.numpy()))
loss_ = -np.log(softmax_[3])#因为one-hot编码中标签除了目标类为1，其他的标签都为0，因此loss_= -np.log(softmax_[3])
grad = [item-(i==3) for i,item in enumerate(softmax_)]#根据公式可知，梯度只需要对第三类的softmax输出减去标签1即可,因为其他类的标签为0,就只是softmax的输出值
print("#"*20+"自己的结果"+"#"*20)
print("softmax："+ str(softmax_))
print("loss："+str(loss_))
print("grad："+str(grad))
'''
单样本输出为：tensor([[-2.0777,  0.3450,  0.7605,  0.2708, -0.3969]], requires_grad=True)
####################pytorch中的结果####################
softmax：[[0.02212428 0.24947256 0.3779738  0.2316277  0.11880173]]
loss：1.462624
grad：[[ 0.02212428  0.24947257  0.3779738  -0.7683723   0.11880173]]


####################自己的结果####################
softmax：[0.02212428 0.24947256 0.37797377 0.2316277  0.11880171]
loss：1.462624
grad：[0.022124277, 0.24947256, 0.37797377, -0.7683723, 0.11880171]
'''

最后提一句，在得到 $\frac{\partial{L}}{\partial{z}}$ 之后,根据 $\frac{\partial{L}}{\partial{W}}=\frac{\partial{L}}{\partial{z}}\cdot\frac{\partial{z}}{\partial{W}}$ 便可对参数进行求导，从而更新参数，后续有时间再写一篇文章讨论。
如有错误，欢迎指正！

softmax 交叉熵推导以及pytorch代码验证

softmax 交叉熵推导以及pytorch代码验证

1 卷积网络流程图

2 softmax 和交叉熵

3 求导

4 在pytorch中的代码验证

softmax 交叉熵推导以及pytorch代码验证

1 卷积网络流程图

2 softmax 和 交叉熵

3 求导

4 在pytorch中的代码验证

2 softmax 和交叉熵