神经元

其是ANN的基本单元，经典模型为：“M-P神经元模型”
其由输入值，再由权重组合，变为一个总值，与设定的阈值比较，再通过激活函数处理。
激活函数一般为sigmoid函数。

感知器

其由两层神经元组成——输入层和输出层（M-P神经元），也成为阈值逻辑单元。实现时，采用逻辑“与、或、非运算”

多层感知器(ANN-MLP)

最常见ANN为多层感知器
其包含输入层，隐藏层，输出层三个结构组成，需要设定的参数： nodes和layers数。并且每个nodes与前一层的所有nodes都有联系。
输入层：每个nodes代表一个输入变量；输出层:代表输出结果；隐藏层：介于上述两层之间
并且前两个结构，都需要一个格外nodes来估计截距。
隐藏层与输出层都具有阈值（即有激活函数存在）
所以结构参数具有：
（1）隐藏层个数
（2）nodes 个数
（3）Transfer 功能
（4） combination 功能

所有的变量值都需要santardized or normalized.

mean = 0, SD = 1,

最终，其最后一个隐含层的所有notes，需要合并（组合与转变），来预测一个值
组合函数，需要使用每个notes的值和其对应的weighs
转变函数，将组合函数得到的值，进行一个转变的得到最终输出值
eg: sigmoid or logistic (线性近交0，非线性为极值)
g（x） = 1/(1+exp(-x))

可以进行分类和预测

算法必须对权重进行估计
误差梯度的逆向传播算法：是最老的算法，需要估计最小误差实现，并通过迭代优化估计：
首先：给所有权重赋予初始值，进行一次预测，得到误差； #要注意在初始值设定时，最好加入set.seed()来固定函数
根据误差，对权重值修改，再次计算误差
误差越大，权重的值改变的越大
这与学习率有关，一般初始可以设定在0.7-0.9，随后逐渐降低
第二个参数：moment
•保留权重估计的演变趋势
•该factrur整合了以前实现的调整
•限制振荡
为避免估计值过高，我们可以使用正则化（L2，Ridge penalty），
在解误差函数时，会有局部极小和全局最小，前者可以具有多个，后者只有一个，并且求解过程陷入局部极小。

1. 可以使用多组不同参值来初始化多个神经网络。
2. 模拟退火
3. 随机梯度下降
4. 遗传算法

以上四种都是启发式，尚无理论论证保证。
其他算法：

        Levenberg-Marquadt
        Quasi-Newton
        Conjugated gradient
        Fast propagation
        Genetic algorithms

实现过程

需要进行以下步骤进行

    1） 识别输入和输出变量
    2） 对数据进行标准化
    3） 开发适当的架构
    4） 网络进行学习
    5） 使用独立数据进行测试
    6） 应用
对于原始数据进行转变的数值（如log）需要返回求出原始数据

其主要是学习得到连接权重和阈值
对于ANN：是由学习率决定的，如果nodes与layers不断增加， R2也会增加，所以有可能过拟合。
每个点/权重需要5-10观察值估计，如16个权重，需要至少80-160个数据来估计

优化

其需要优化的参数：
    1） nodes数（每个隐含层内）
    2） 隐含层数（经常就一个）
    3） 惩罚（decay）
    4) 迭代数
交叉验证测试模型
第一次运行时需要设定高一点的迭代数使用Grid,测定最佳nodes和decay值

ANN-RBF(其他ANN)

Radial basis function（RBF）也是现在使用较为广泛的一类ANN，其激活/transfer功能是Gaussian radial function.

image.png

其与多层感知机最大的不同是使用径向基函数作为隐层神经元激活函数，而输出层则是对隐层神经元输出的线性组合。

特点

1. 只有一个隐含层
2. 会计算每个点到数据中心点的距离
3. 中心点在迭代中不变 （再次查看）
4. nodes接近独立
5. 可以很快收敛，在学习过程

注意：

          1） 确定node中心
            （1） 随机选择
            （2） 移动中心点
            （3） Kohonen网络将空间划分为几类，以便与数据分布保持一致： 中心处一般数据密度较高
     2） radius = Gaussian分布的宽
     3） nodes数往往多于多层感知机

radius设定：

      所有点到中心点的平均值的2倍
    如果设定的太小，则低的收敛度， 太大，又容过度
    如果密度太大，则需要选择小的redius： 中心到k个最近点的距离的平均值

image.png

RBF:需要优化吗Centre和迭代数。

总结

ANN对计算力有求高：需要批量处理数据；有限的nodes和layer
需要优化多个参数：使用交叉验证进行优化，同时还要使用至少一个独立数据进行验证
可能的程序：
固定size和decay，使用多次迭代与交叉验证

R code 实现ANN

R 包准备

library("pander")
library("caret") ###参数设定
library("FactoMineR")
library("RSNNS")

数据分组

set.seed(1001)
index <- createDataPartition(irisdata$Species, p=0.75, list=F,times = 1)
traindata <- irisdata[index, ]
testdata <- irisdata[-index, ]
pander(table(traindata$Species))

ANN建

set.seed(1001)
ctrl_nnet <- trainControl(
            method = "repeatedcv",
                repeats = 3,
            classProbs = TRUE,
            number = 10 )

grid <- expand.grid(size = c(1:5),decay = c(0,0.0001,0.001,0.01,0.1,0.2,0.3,0.4,0.5))# decay:##惩罚系数  size : ##隐藏层的nodes 数
set.seed(1001)
nne1 <- train(traindata[,-5],train$Species,####模型运行
                method = "nnet",
                trControl = ctrl_nnet,
                preProc = c("center", "scale"),
                maxit = 100, ##最大迭代数 
                tuneGrid = grid, 
                trace=TRUE, # to check the iterations
                linout=0    # the results should be a class value
)
nne1
ggplot(nne1)

pander(nne1$results)

预测

nne1_pre <- predict(nne1, testdata[,1:4])
connne1 <-  confusionMatrix(nne1_pre,testdata$Species)