1.基本概念
人工神经网络(Artificial Neutral Network,ANN)是由大量简单的基本元件——神经元,相互连接,通过模拟人的大脑神经处理信息的方式,进行信息并行处理以及自学习能力。前向反馈网络(Back Propagation,BP)和径向基网络(Radical Basis Function,RBF)是目前技术较为成熟、应用较为广泛的两种网络。
2.常用激活函数
3.BP网络
BP网络是一种多层前馈神经网络,它的名字源于在网络训练中,调整网络权值的训练算法是反向传播算法(即BP学习算法)。
下图的BP网络包括输入层、中间层(隐藏层)、输出层,每一层之间实现全连接,而同一层的神经元之间无连接。
输入层神经元和隐含层神经元之间的是网络的权值,即两个神经元之间的连接强度。
隐含层或输出层任一神经元将前一层所有神经元传来的信息进行整合,通常还会添加阈值,这主要是模仿生物学中神经元必须达到一定的阈值才会触发的原理,然后将整合过的信息作为该层神经元输入。
误差反向传播算法(BP算法):当一对学习样本提供给输入神经元后,该层神经元的输出值经过各隐含层向输出层传播,而输出层的神经元会接收到这些输入,同时,为了减少网络输出与预期输出值之间的误差,该网络会从输出层反向经过各隐藏层回到输入层,从而逐步修正各连接权值。随着这种误差逆向传播修正的反复进行,网络对输入模式响应的正确率也不断上升。
BP网络求解过程
①原始数据的输入
②数据归一化
③网络训练
④对原始数据进行仿真
⑤将原始数据仿真的结果与已知样本进行对比
⑥对新数据进行仿真
4.BP网络应用实例
function main()
clc % 清屏
clear all; % 清除内存以便加快运算速度
close all; % 关闭当前所有figure图像
SamNum=20; % 输入样本数量为20
TestSamNum=20; % 测试样本数量也是20
ForcastSamNum=2; % 预测样本数量为2
HiddenUnitNum=8; % 中间层隐节点数量取8,比工具箱程序多了1个
InDim=3; % 网络输入维度为3
OutDim=2; % 网络输出维度为2
% 原始数据
% 人数(单位:万人)
sqrs=[20.55 22.44 25.37 27.13 29.45 30.10 30.96 34.06 36.42 38.09 39.13 39.99 41.93 44.59 47.30 52.89 55.73 56.76 59.17 60.63];
% 机动车数(单位:万辆)
sqjdcs=[0.6 0.75 0.85 0.9 1.05 1.35 1.45 1.6 1.7 1.85 2.15 2.2 2.25 2.35 2.5 2.6 2.7 2.85 2.95 3.1];
% 公路面积(单位:万平方公里)
sqglmj=[0.09 0.11 0.11 0.14 0.20 0.23 0.23 0.32 0.32 0.34 0.36 0.36 0.38 0.49 0.56 0.59 0.59 0.67 0.69 0.79];
% 公路客运量(单位:万人)
glkyl=[5126 6217 7730 9145 10460 11387 12353 15750 18304 19836 21024 19490 20433 22598 25107 33442 36836 40548 42927 43462];
% 公路货运量(单位:万吨)
glhyl=[1237 1379 1385 1399 1663 1714 1834 4322 8132 8936 11099 11203 10524 11115 13320 16762 18673 20724 20803 21804];
p=[sqrs;sqjdcs;sqglmj]; % 输入数据矩阵(3 x 20)
t=[glkyl;glhyl]; % 目标数据矩阵(2 x 20)
% 原始数据归一化处理,可能提高模型精度,也可能让模型更快收敛(如果使用梯度下降法求解最优解)
% mapminmax可将数据归一化,将数据映射到[-1,1]的范围中
[SamIn,ps1]=mapminmax(p);
minp=ps1.xmin;
maxp=ps1.xmax;
[tn,ps2]=mapminmax(t);
mint=ps2.xmin; % ps2是结构体,蕴含原始数据中的最小值和最大值
maxt=ps2.xmax;
rng('shuffle','twister') % 依据系统时钟种子产生随机数
NoiseVar=0.01; % 噪声强度为0.01(添加噪声的目的是为了防止网络过度拟合)
Noise=NoiseVar*randn(2,SamNum); % 生成噪声
SamOut=tn + Noise; % 将噪声添加到输出样本上
TestSamIn=SamIn; % 这里取输入样本与测试样本相同因为样本容量偏少
TestSamOut=SamOut; % 也取输出样本与测试样本相同
MaxEpochs=50000; %最多训练次数为50000
lr=0.035; %学习速率为0.035
E0=0.65*10^(-3); %目标误差为0.65*10^(-3)
W1=0.5*rand(HiddenUnitNum,InDim)-0.1; %初始化输入层与隐含层之间的权值,返回一个8x3随机数矩阵
B1=0.5*rand(HiddenUnitNum,1)-0.1; %初始化输入层与隐含层之间的阈值,返回一个8x1随机数矩阵
W2=0.5*rand(OutDim,HiddenUnitNum)-0.1; %初始化输出层与隐含层之间的权值,返回一个2x8随机数矩阵
B2=0.5*rand(OutDim,1)-0.1; %初始化输出层与隐含层之间的阈值,返回一个2x1随机数矩阵
ErrHistory=[]; %给中间变量预先占据内存
for i=1:MaxEpochs
HiddenOut=logsig(W1*SamIn+repmat(B1,1,SamNum)); % 隐含层网络输出,logsig表示Sigmoid激活函数
NetworkOut=W2*HiddenOut+repmat(B2,1,SamNum); % 输出层网络输出
Error=SamOut-NetworkOut; % 实际输出与网络输出之差
SSE = sumsqr(Error); % 能量函数(误差平方和)
ErrHistory=[ErrHistory SSE];
if SSE<E0, break, end %如果达到误差要求则跳出学习循环
% 以下六行是BP网络最核心的程序
% 他们是权值(阈值)依据能量函数负梯度下降原理所作的每一步动态调整量
Delta2=Error;
Delta1=W2'*Delta2.*HiddenOut.*(1-HiddenOut);
dW2=Delta2*HiddenOut';
dB2=Delta2*ones(SamNum,1);
dW1=Delta1*SamIn';
dB1=Delta1*ones(SamNum,1);
%对输出层与隐含层之间的权值和阈值进行修正
W2=W2+lr*dW2;
B2=B2+lr*dB2;
%对输入层与隐含层之间的权值和阈值进行修正
W1=W1+lr*dW1;
B1=B1+lr*dB1;
end
HiddenOut=logsig(W1*SamIn+repmat(B1,1,TestSamNum)); % 隐含层输出最终结果
NetworkOut=W2*HiddenOut+repmat(B2,1,TestSamNum); % 输出层输出最终结果
a=postmnmx(NetworkOut,mint,maxt); % 还原网络输出层的结果
x=1990:2009; % 时间轴刻度
newk=a(1,:); % 网络输出客运量
newh=a(2,:); % 网络输出货运量
figure ;
subplot(2,1,1);plot(x,newk,'r-o',x,glkyl,'b--+') %绘值公路客运量对比图;
legend('网络输出客运量','实际客运量');
xlabel('年份');ylabel('客运量/万人');
subplot(2,1,2);plot(x,newh,'r-o',x,glhyl,'b--+') %绘制公路货运量对比图;
legend('网络输出货运量','实际货运量');
xlabel('年份');ylabel('货运量/万吨');
% 利用训练好的网络进行预测
% 当用训练好的网络对新数据pnew进行预测时,也应作相应的处理
pnew=[73.39 75.55
3.9635 4.0975
0.9880 1.0268]; %2010年和2011年的相关数据
pnewn=mapminmax('apply',pnew,ps1); %利用原始输入数据的归一化参数对新数据进行归一化
HiddenOut=logsig(W1*pnewn+repmat(B1,1,ForcastSamNum)); % 隐含层输出预测结果
anewn=W2*HiddenOut+repmat(B2,1,ForcastSamNum); % 输出层输出预测结果
%把网络预测得到的数据还原为原始的数量级;
anew=postmnmx(anewn,mint,maxt)