以下内容参考《机器学习》周志华(西瓜书)以及《机器学习公式详解》datawhale(南瓜书)
神经元模型
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
M-P神经元模型:接受来自n个其他神经元的输出(作为输入),通过带权重的连接进行传递、总输入值与神经元阈值做对比,然后通过激活函数处理输出。

激活函数
激活函数:模拟神经元兴奋抑制状态(10)。同时,非线性的激活函数使得深层神经网络理论上能够逼近任意函数。(否则只是线性函数的组合)。
常见的激活函数有:sigmoid,relu,tanh。(其他参考)。

感知机与多层网络
感知机
两层神经元组成,可以实现或、与、非运算

可以证明,如果两类模式是线性可分的,那么感知机的学习过程一定会收敛,否则感知机的学习过程将发生振荡,无法求出合适解。(如异或问题,非线性可分)
多层网络
层数更多,包括输入层,输出层与隐含层(隐层),输出层与隐含层都拥有激活函数。
一种常见的多层网络:多层前馈神经网络(与下一层网络全连接,无层内连接以及跨层连接)

误差逆传播算法
BP算法(BackPropagation):适用于多层前馈神经网络、递归神经网络等。是一个迭代学习算法,基于梯度下降策略,以目标的负梯度方向对参数进行调整。算法流程如下:

一个单隐层示例:

是以网络有个参数需要确认(输入层-隐层的权值,隐层到输出层的权值,隐层、输出层的神经元阈值),根据梯度下降法,有
由于BP神经网路表示能力强大,只需要一个包含足够多神经元的隐层,多层前馈神经网络能够以任意精度逼近任意复杂度的连续函数,所以经常遭遇过拟合,缓解策略有:
1 早停early stop:通过验证集估计误差,误差升高(或者持续升高)则停止。
2 正则化:目标函数中增加描述网络复杂度的部分,常见L1,L2正则化。
全局最小与局部极小
基于梯度的搜索实际指向的是局部极小,有一些方法来试图跳出局部极小,接近全局最小(多启发式):
1 多组参数初始化,从中选择更接近全局最小的结果。
2 模拟退火:有一定概率接受次优解。
3 随机梯度下降:有随机因素,局部极小梯度可能不为0。
其他常见神经网络
RBF网络
径向基函数网络:单隐层,使用径向基函数作为隐层激活函数,输出层为隐层的线性组合。
通常采用两步训练过程训练:随机采样、聚类等方法确定神经元中心,BP算法确定参数
ART网络
自适应谐振理论网络(竞争型学习的重要代表),由比较层,识别层、识别阈值与重置模块构成,比较层负责接收输入样本,并传递给识别层,识别层每一个对应一个模式类,神经元数目可以动态增长。
竞争型学习:常用的无监督学习策略,网络的输出神经元相互竞争,每一时刻仅有一个神经元被激活,其他神经元抑制(胜者通吃原则)
竞争方式:最简单的是计算输入向量与每个识别神经元对应的模式类代表向量的距离,越近越好。如果相似度大于识别阈值,则归入此类,网络更新。否则新增神经元。
优点:可以进行增量学习或在线学习(因为保持旧知识记忆)。
SOM网络
自组织映射网络:竞争学习型网络,能将高维数据映射到低位空间,保持拓扑结构。
输出神经元:以矩阵方式排列在二维空间中,拥有权向量。网络接收输入向量后,会确定输出层获胜神经元。

训练过程:接收样本,每个输出神经元计算样本与自身权向量距离,最佳匹配单元与临近单元的权向量将调整。不断迭代。
级联相关网络
结构自适应网络的代表,两个主要成分:级联(建立层次连接的层级结构)与相关(通过最大化新神经元的输出与网络误差之间的相关性来训练参数)

优点:无须控制网络层数、隐藏层神经元数目,训练较快。
缺点:数据较小时容易陷入过拟合。
Elman网络
递归神经网络之一。隐层的输出作为下一时刻输入的一部分。

Boltzmann机
基于能量的模型,神经元分为显层(数据输入输出)与隐层(数据内在表达)。神经元都为布尔型。
基于能量的模型:为网络状态定义一个能量,能量最小化时网络达到理想状态,网络的训练即最小化能量函数。

深度学习
计算能力提升、数据增长背景下的发展。
如深度信念网络(DBN),每一层为受限Boltzmann机,无监督逐层训练手段(预训练+微调节省训练开销)。
如卷积神经网络(CNN),权共享策略节省训练开销。