前面所说到监督学习涉及到的是一些线性模型,当特征量增加及特征之间的相关性增加时,多项式的表达计算形式会十分复杂,尤其当对图片进行处理时,其特征空间将会变得很大,故其所能解决的问题有限。由此引出神经网络这样的结构,其灵感来源于模仿人类大脑中的神经元结构,其组织而形成非线性的假设模型,一个最简单的神经网络结构能够模拟任何一个函数。
下面将首先说明神经网络的结构,然后对其中的相关细节进行拓展说明。
注:神经网络的基本组成结构为:输入层-隐含层[1/n]-输出层;输入层是最原始的特征向量,隐含层相当于是对原始特征量的逐层加工以自适应提取想要的特征量作为最后输出层的输入特征量来完成所需任务。
我们还是以“三要素”为理解思路来进行展开:)
【假设模型】
1、最简单的神经网络结构<单一神经元>如图1
注:单层的神经网络可用来实现简单的逻辑与、或、非功能,但不能表示逻辑中的异或问题。
2、含有一个中间层的神经网络,如图2
上图中说明的是单个神经元的输出,其相当于之前二分类问题中的逻辑回归,但在神经网络中,其相当于对于最原始的特征输入(输入层)进行加工以得到想要的特征表示,即在隐含层中神经元的输出值,最后输入至输出层得到分类结果。
多层的网络结构(如含有一层隐含层)的结构便可以表示异或问题。即隐含层中的两个神经元一个表示(x1ANDx2),另一个表示(NOTx1 AND NOTx2)最后输出层表示或即可。
由此可以看出,这样的神经网络结构远比之前的基于输入原始特征的多项式提取特征要好,其能基于原始输入特征提取更多的所需特征,以此来表示更复杂的模型。
通过增加神经网络的深度及每层的单元数(神经元个数)可构造出更复杂的函数即提取出更丰富的特征值。
3、多类分类
上面说到的神经网络我们假设是单个神经元输出,现在当有多个神经元输出时,可以用作多分类问题。如下图3所示。
每个输出层的神经单元表示一个类别,在所属类别处输出值为1,其他单元输出值为0。由此便可直接实现多种类别的分类任务,相比于采用N个逻辑回归模型来进行N 分类任务,此种方法更高效。
【目标函数】
【迭代优化】
在神经网络中利用反向传播的方式来得到各个参数的梯度值,来最优化目标函数(损失函数)