5 - ANN


title: 5 - ANN
tags: 数据挖掘与机器学习


ANN - Artificial neural network (人工神经网络)

神经元

其是ANN的基本单元,经典模型为:“M-P神经元模型”
其由输入值,再由权重组合,变为一个总值,与设定的阈值比较,再通过激活函数处理。
激活函数一般为sigmoid函数。

感知器

其由两层神经元组成——输入层和输出层(M-P神经元), 也成为阈值逻辑单元。 实现时,采用逻辑“与、或、非运算”

多层感知器(ANN-MLP)

最常见ANN为多层感知器
其包含输入层, 隐藏层, 输出层三个结构组成, 需要设定的参数: nodes和layers数。 并且每个nodes与前一层的所有nodes都有联系。
输入层: 每个nodes代表一个输入变量; 输出层:代表输出结果; 隐藏层: 介于上述两层之间
并且前两个结构,都需要一个格外nodes来估计截距。
隐藏层与输出层都具有阈值(即有激活函数存在)
所以结构参数具有:
(1)隐藏层个数
(2)nodes 个数
(3)Transfer 功能
(4) combination 功能

所有的变量值都需要santardized or normalized.

mean = 0, SD = 1,

最终,其最后一个隐含层的所有notes,需要合并(组合与转变),来预测一个值
组合函数,需要使用每个notes的值和其对应的weighs
转变函数,将组合函数得到的值,进行一个转变的得到最终输出值
eg: sigmoid or logistic (线性近交0, 非线性为极值)
g(x) = 1/(1+exp(-x))

可以进行分类和预测

算法必须对权重进行估计
误差梯度的逆向传播算法:是最老的算法,需要估计最小误差实现, 并通过迭代优化估计:
首先:给所有权重赋予初始值,进行一次预测,得到误差; #要注意在初始值设定时,最好加入set.seed()来固定函数
根据误差,对权重值修改,再次计算误差
误差越大,权重的值改变的越大
这与学习率有关,一般初始可以设定在0.7-0.9,随后逐渐降低
第二个参数:moment
•保留权重估计的演变趋势
•该factrur整合了以前实现的调整
•限制振荡
为避免估计值过高,我们可以使用正则化(L2,Ridge penalty),
在解误差函数时,会有局部极小和全局最小,前者可以具有多个,后者只有一个,并且求解过程陷入局部极小。

1. 可以使用多组不同参值来初始化多个神经网络。
2. 模拟退火
3. 随机梯度下降
4. 遗传算法

以上四种都是启发式,尚无理论论证保证。
其他算法:

        Levenberg-Marquadt
        Quasi-Newton
        Conjugated gradient
        Fast propagation
        Genetic algorithms

实现过程

需要进行以下步骤进行

    1) 识别输入和输出变量
    2) 对数据进行标准化
    3) 开发适当的架构
    4) 网络进行学习
    5) 使用独立数据进行测试
    6) 应用
对于原始数据进行转变的数值(如log)需要返回求出原始数据

其主要是学习得到连接权重和阈值
对于ANN: 是由学习率决定的, 如果nodes与layers不断增加, R2也会增加,所以有可能过拟合。
每个点/权重需要5-10观察值估计,如16个权重,需要至少80-160个数据来估计

优化

其需要优化的参数:
    1) nodes数(每个隐含层内)
    2) 隐含层数(经常就一个)
    3) 惩罚(decay)
    4) 迭代数
交叉验证测试模型
第一次运行时需要设定高一点的迭代数使用Grid,测定最佳nodes和decay值

ANN-RBF(其他ANN)

Radial basis function(RBF)也是现在使用较为广泛的一类ANN, 其激活/transfer功能是Gaussian radial function.


image.png

其与多层感知机最大的不同是使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输 出的线性组合。

特点

1. 只有一个隐含层
2. 会计算每个点到数据中心点的距离
3. 中心点在迭代中不变 (再次查看)
4. nodes接近独立
5. 可以很快收敛,在学习过程

注意:

          1) 确定node中心
            (1) 随机选择
            (2) 移动中心点
            (3) Kohonen网络将空间划分为几类,以便与数据分布保持一致: 中心处一般数据密度较高
     2) radius = Gaussian分布的宽
     3) nodes数往往多于多层感知机

radius设定:

      所有点到中心点的平均值的2倍
    如果设定的太小,则低的收敛度, 太大,又容过度
    如果密度太大,则需要选择小的redius: 中心到k个最近点的距离的平均值
image.png

RBF:需要优化吗Centre和迭代数。

总结

ANN对计算力有求高: 需要批量处理数据; 有限的nodes和layer
需要优化多个参数: 使用交叉验证进行优化,同时还要使用至少一个独立数据进行验证
可能的程序:
固定size和decay,使用多次迭代与交叉验证

R code 实现ANN

R 包准备

library("pander")
library("caret") ###参数设定
library("FactoMineR")
library("RSNNS")

数据分组

set.seed(1001)
index <- createDataPartition(irisdata$Species, p=0.75, list=F,times = 1)
traindata <- irisdata[index, ]
testdata <- irisdata[-index, ]
pander(table(traindata$Species))

ANN建

set.seed(1001)
ctrl_nnet <- trainControl(
            method = "repeatedcv",
                repeats = 3,
            classProbs = TRUE,
            number = 10 )
grid <- expand.grid(size = c(1:5),decay = c(0,0.0001,0.001,0.01,0.1,0.2,0.3,0.4,0.5))# decay:##惩罚系数  size : ##隐藏层的nodes 数
set.seed(1001)
nne1 <- train(traindata[,-5],train$Species,####模型运行
                method = "nnet",
                trControl = ctrl_nnet,
                preProc = c("center", "scale"),
                maxit = 100, ##最大迭代数 
                tuneGrid = grid, 
                trace=TRUE, # to check the iterations
                linout=0    # the results should be a class value
)
nne1
ggplot(nne1)

pander(nne1$results)

预测

nne1_pre <- predict(nne1, testdata[,1:4])
connne1 <-  confusionMatrix(nne1_pre,testdata$Species)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352