EX4主要是针对神经网络反向传播的实战,是非常重要的一课,所以花了我两天3夜地研究这道习题,还真是值得,收获满满。
跟着ex4.pdf文档的脚步一步一步来:
1.首先1-3页都在表达初始化数据,和数据模型。
2.到了第五页,开始摩拳擦掌,实现第一段代码:神经网络代价函数
首先他给到这样的一个公式:
吼!不要被这个公式吓到了。先不考虑lambda项,后面再慢慢深入。
第一个∑
首先把∑就当成是一次for循环,去掉一个∑就等于把for循环套在外面,中间弄个sumTemp作为临时累加项,直到end结束,sumTemp就是这个求和项了,
比如去掉第一个∑就等于
for i = 1:m
sumTemp = sumTemp + xx
end
之前我们说过只要有∑项的就可以直接用矩阵相乘来考虑不用for循环,但在这个公式稍微复杂一些,分解步骤逐个求解有利于理解。
yk的转换
首先要知道这里的y(i)不能直接采用样本的y,你要想想一次神经网络的输出有10维,但y为什么只有一个值呢?那是因为中间做过处理,输出的10维向量,[0 0 0 0 0 0 0 0 1 0],你没理由把这个给人家看,转成人看得懂的语言它就是9,所以直接的值就为单值。所以y(i)还要做一次神经网络算法看得懂的数据,一个十维向量,好在有个很方便的办法就是用==号:
numTemp = 1:numlabel; % 创造一个1:10的向量[1 ,2 ,3,4,5,6,7,8,9,10]
yk = (y(i) = =numTemp); %这个就会在numTemp里面逐个元素跟y对比,不对的打0,对的打1
这就得出y = 9时候,yk = [0,0,0,0,0,0,0,0,1,0];
第二个∑(K)
你的假设函数得出的结果Hypthesis (10dimen) 有一个是对的,其他是错的,无论对错都按照公式和yk逐个逐个算了再说,当对的时候yk = 1的时候,左边项自然不等于0,右边=0,反之亦然,算到最后的结果求和,就是单个样本对应的代价。
所以乎
J1row = -yk* log(Hypothesis(i,:))' - (1 - yk) * log(1 - Hypothesis(i,:))';
sumTemp = sumTemp + J1row;
Hypothesis(i,:)
这个不用说了,最好是看看教学视频,
X_1 = [ones(m, 1),X];
A_layer1_bias = X_1;
A_2 = sigmoid(X_1 * Theta1'); %5000*401 * 401 * 25 --> 5000*25
A_21 = [ones(m, 1),A_2]; % 5000 * 26
A_layer2_bias = A_21; %
Z_layer2 = A_layer2_bias * Theta2';
Hypothesis = sigmoid(Z_layer2); %5000X10
A_layer3 = Hypothesis;
Z_layer3 = A_layer3;
命名有点奇怪,下次不这样命名了,简洁为主
我这里的Hypothesis虽然没有算错,但有个地方命名跟教程上有点儿出入,导致后面计算梯度的时候会出错,这里看你能找到没?
全套代码如下
X_1 = [ones(m, 1),X];
A_layer1_bias = X_1;
A_2 = sigmoid(X_1 * Theta1'); %5000*401 * 401 * 25 --> 5000*25
A_21 = [ones(m, 1),A_2]; % 5000 * 26
A_layer2_bias = A_21; %
Z_layer2 = A_layer2_bias * Theta2';
Hypothesis = sigmoid(Z_layer2); %5000X10
A_layer3 = Hypothesis;
Z_layer3 = A_layer3;
numTemp = 1:num_labels;
sumTemp = 0;
for i = 1:m
yk= (numTemp == y(i)); %1x10
% Hypothesis 5000X10
J1row = -yk* log(Hypothesis(i,:))' - (1 - yk) * log(1 - Hypothesis(i,:))'; %this is one of example,1row
sumTemp = sumTemp + J1row;
end
J_noreg = sumTemp /m;
有人说这不是扯淡吗,Theta的初始化时随机的,Hypothesis算出来也就是一堆错误的值,那得出的代价有什么参考意义呢?诶,这里的意义就大了,这也是神经网络算法的魅力所在——就算拿个代价相差太大的J他都可以慢慢调整到对为止,直到代价越来越少,接近“真相”这也是下半部分要说的计算ThetaGrad值。