输出层的神经元个数
输出层的神经元数量应根据实际需要解决的问题来决定。
对于分类问题,输出层的神经元个数一般会与类别的数量保持一致。
比如,我们以MNIST(手写数字识别)为例,需要预测类别的数字从0到9(相当于是一个10分类的问题),因此我们将输出层的神经元个数设定为10个(输出层的每个神经元对应每一个数字)。
MNIST数据集的前向传播
MNIST数据集怎样实现神经网络的前向传播处理。
神经网络的输入层共有784个神经元,输出层共有10个神经元。
输入层的784这个数字来源于图像大小的乘积,即28*28=784,输出层10这个数字来源于10类别分类(数字0到9,共10类别)的数量。
此外,这个神经网络包含2个隐藏层,第1个隐藏层包含50个神经元,第2个隐藏层包含100个神经元;
这个50和100可以设置为任何值。
完成MNIST数据集的前向传播的主要函数:MNIST的数据读取、ReLU激活函数、初始化网络init_network函数以及前向传播函数forward。
其中,ReLU函数的实现在之前的篇幅中已经给出了实现方法,这里就不再赘述了。
我们先来看一下如何读取MNIST数据集,对于这个数据集,之前我们在讲解KNN算法的时候就已经给出了代码,在这里,我们使用train_dataset和test_dataset作为数据源。完整实现代码具体如下:
# MNIST dataset
train_dataset = dsets.MNIST(root = '/ml/pymnist', #选择数据的根目录
train = True, #选择训练集
transform = transforms.ToTensor(), #转换成tensor变量
download = False)
#不从网络上下载图片
test_dataset = dsets.MNIST(root = '/ml/pymnist', #选择数据的根目录
train = False, #选择测试集
transform = transforms.ToTensor(), #转换成tensor变量
download = False) #不从网络上下载图片
接着,我们来看下如何实现初始化网络init_network这个函数,在这里我们设置了
weight_scale变量用于控制随机权重不要过大,我们将bias统一设置为1。
实现代码具体如下:
def init_network():
network={}
weight_scale = 1e-3
network['W1']=np.random.randn(784,50) * weight_scale
network['b1']=np.ones(50)
network['W2']=np.random.randn(50,100) * weight_scale
network['b2']=np.ones(100)
network['W3']=np.random.randn(100,10) * weight_scale
network['b3']=np.ones(10)
return network
接着我们再来实现forward函数,我们将之前一直使用的Sigmoid激活函数改为ReLU激活函数(ReLU函数计算更快,是目前主流的激活函数)。完整代码具体如下:
def forward(network,x):
w1,w2,w3 = network['W1'],network['W2'],network['W3']
b1,b2,b3 = network['b1'],network['b2'],network['b3']
a1 = x.dot(w1) + b1
z1 = _relu(a1)
a2 = z1.dot(w2) + b2
z2 = _relu(a2)
a3 = z2.dot(w3) + b3
y = a3
return y
最后,我们测试下在测试集下使用神经网络(仅包含前向传播)的准确度能达到多少。函数以Numpy数组的形式输出与各个标签对应的概率。
比如输出[0.1,0.5,0.3,...,0.04]的数组,该数组表示“0”的概率为0.1,“1”的概率为0.5等。
之后,我们取出这个概率列表中的最大值的索引(第几个元素的概率最高)作为预测结果(使用np.argmax(x)函数取出数组中的最大值的索引)。
最后通过比较神经网络所预测的分类答案和正确标签,输出回答正确的概率。完整代码具体如下:
network = init_network()
accuracy_cnt = 0
x = test_dataset.test_data.numpy().reshape(-1,28*28)
labels = test_dataset.test_labels.numpy() #tensor转numpy
for i in range(len(x)):
y = forward(network, x[i])
p = np.argmax(y) #获取概率最高的元素的索引
if p == labels[i]:
accuracy_cnt += 1
print("Accuracy:" + str(float(accuracy_cnt) / len(x) * 100) + "%")
cy约为10%左右(对于这个结果,我们其实是可以接受的,因为是10分类,哪怕我们随便猜,猜对的概率也在10%左右),并且因为我们只做了前向传播,没有做反向传播,所以我们的权重以及bias都不是最优的。