Chapter 7:Neural Network

神经网络是一种生物启发式的模型，在时间序列上和视觉上已经有了很重要的工程应用。

①The Multi-layer Perceptron

对于上诉的公式证明，在理论上可以使用一些方法来类比计算，也就是说任何的一个在紧密集合上的连续函数都可以使用单步函数进行任意近似。单步函数可以说是最简单的函数，感知机perceptron好就是一种比较简单的step function。
在上诉的神经网络里面，输入层是不可以被看成是一层。而隐藏层是使用sign(.)作为输出。然而，问题是这些使用sign(.)的方法困难部分是在于他不是平滑的，一个平滑的近似函数是完全不同于sign(.)，平滑的近似函数可以允许我们使用数学分析的方法来寻找最优权值。

②Notation and Forward Propagation

Notation:层数使用l = 1,2,3...L来表示，输入层将不能被看做是一个层，每一层会有 $d^l + 1$ 个节点，因为还要加上一个偏置项。输入层没有进来的权值，但是有输出的权值，输出层相反。

前向传播完成后，那么我们需要做的就是求

E_{in}

：

E_{in}(w) = \frac{1}{N}\sum^{N}_{n=1}(h(x_n;w)-y_n)^2 = \frac{1}{N}\sum^{N}_{n=1}(x_n^L-y_n)^2

③The Simple Perceptron Revisited

tanh(x): $f(x) = \frac{e^x - e^{-x}}{e^x+e^{-x}}$
Nearly linear for x = 0 and nearly +/-1 for |x| large.
tan(.)近似函数抓住了整体的趋势，如果我们最小化tanh-insample error，我们可以基本等同于是优化in-sample error了。
优化in-sample error的方法自然就是梯度下降了，首先初始化权值，然后再每一步的时候更新所有权值即可。但是对于一个神经网络来说就没有这么简单了，因为神经网络这么多层的叠加已经不再是一种简单的凸优化函数了，而是很复杂的函数叠加。如果初始权值初始化的太大了，那么 $E_{in} = 0$ 。因此，我们需要选择比较小的权值使得一开始 $tanh^2(w_n^Tx_n) = 0$ 。
一个比较好的选择就是使用高斯函数初始化。
终止点：
一个比较好的选择是当边缘error很小，而且迭代一定的次数之后就可以停止了。

④BackPropagation

主要就是使用链式法则。

需要注意的是，有时候我们会发现误差平面可能会看起来很平，也就是遇到了梯度消失，这是因为tanh已经饱和了，对于这种情况，可以使用一个不容易饱和的函数来修复，比如square error function。

⑤Approximation VS Generalization

A 3-layer neural network: $h(x) = \theta(w_0 + \sum^m_{j=1}w_j\theta(v_j^Tw))$
神经网络相对于非线性转化来说，能力会更强，在线性模型里面，非线性转化函数是先前就确定了的，也就是再没看到数据之前就确定了，而神经网络是在参数里面的，我们可以在看到数据的情况下继续调整参数。
如果我们假设数据是由一个目标函数生成的，而这个目标函数最高复杂度是C。如果用一个只有一层隐藏层，而隐藏层含有m个核的神经网络来学习：
$E_{in}(h) = \frac{1}{N}(h(x_n)-y_n)^2 <= \frac{(2RC)^2}{m}$ ，而R = max(x)， $E_(in) <= E_{out}^* + O(C/m)$
所以如果神经元越多，那么可以得到越小的错误。
既然优化样本内错误的问题解决了，那么就是泛华的问题了。
对于两层的MLP，也就是一层隐藏层的神经网络：
$d_{vc} <= (const)mdlog(md)$
现在就来证明一下：

假设每一个Hi的VC维是

d_i

，那么每一个神经元对于一个数据点的二分最高次数是

N^{d_i}

，一共这么多种组合方法，所以一共有

N^{\sum_{i=1}^md_i}

,再加上后面最后一个输出函数：

N^{{\sum_{i=1}^md_i}+d_c}

根据之前的VC分析，我们可以得到

m(N) < 2^N

，可以得到

N > 2Dlog_2^D

，如果m不是很大，我们可以用很好的泛化，而m大又容易过拟合。

⑥Regularization and Validation

首先是权值衰减，

还有另外一种衰减方式：

对于比较大的权值，惩罚项是近似常数，对于比较小的权值会衰减的更加快。
这是一种叫权重衰减的方法，还有一种是early stop，这种方法比较好理解，神经网络不是一次性就开发出所有的假设，是不断的在调整迭代的过程中才会慢慢的开放出新的权值，所以每一次迭代之后，他的假设集就会大一点，当迭代次数不多的时候，就假设集就会小，那么VC维也就不高了。

⑧Networks with many layers

神经网络的第一层会建立起比较低级别的特征，第二层会在第一层的基础上再建立一层更高级的特征，以此类推，所以神经网络可以发现很多机器学习发现不了的特征，这种自动选择特征是神经网络的一大特点。
对于神经网络的训练，一下方法比较常用：

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,294评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,493评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,790评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,595评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,718评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,906评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,053评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,797评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,250评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,570评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,711评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,388评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,018评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,796评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,023评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,461评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,595评论 2赞 350