1. 为什么要Chainer?
大多数现有的深度学习框架都是基于”Define-and-Run“的方案。也就是说,首先要有一个预先被定义的网络结构,然后用户才能给这个网络去喂数据。因为所有的网络都是在前向/后向传播计算完成之前就定义好的了,所以所有的逻辑必须以数据的形式嵌入到网络结构中去。
然而,Chainer采纳了“Define-by-Run”的方案,比如网络是通过实际的前向计算在运行中定义的。更确切地说,Chainer存储计算的历史而不是编程逻辑。这个策略使我们能够充分利用Python中编程逻辑的力量。例如,Chainer不需要任何魔法来将条件和循环引入网络定义。定义方案是Chainer的核心概念。
总而言之,Define-and-Run“的方案是结构领着数据走,有了结构才能够通过喂数据来训练网络。而Define-by-Run”的方案是数据领着结构走,有了数据参数的定义才有网络的概念,数据走到哪,网络延伸到哪。
2. 一个简单的网络搭建
2.1 前向传播/反向传播的计算
x=Variable(np.array([[1,2,3],[4,5,6]],dtype=np.float32))
y=x**2-2*x+1
y.grad=np.ones((2,3),dtype=np.float32)
y.backward()
x.grad
在这个例子中就可以看出来,并没有先预先定义一个结构。而是有了x,y的变量,通过调用y.backward()来实现反向传播的计算。
2.2 Links
为了写神经网络,我们不得不用一些参数去把不同的函数结合起来并且优化这些参数。所以,就需要用Links来做这件事情。Link只是一个能容纳参数的对象。
一个最经常使用的links就是linear link。它代表了数学表达式f(x) = Wx + b.
f=L.Linear(3,2)
这个代表的是一个输入为三维,输出为二维的线性方程。此外,大部分的方程和links都只接受mini-batch的输入,也就是说,第一维被默认为batch的维度,所以,在上面的例子中,输入必须是有着(N,3)的形状。
所有的参数都以属性的形式存放。在上面的例子中,W和b存放在f的属性中,可以通过:
>>>f.W.data
array([[ 1.01847613, 0.23103087, 0.56507462],[ 1.29378033, 1.07823515, -0.56423163]], dtype=float32)
>>>f.b.data
array([ 0., 0.], dtype=float32)
默认的,W和b都是随机初始化。
所以,合起来,一个完整的例子如下:
>>>x=Variable(np.array([[1,2,3],[4,5,6]],dtype=np.float32))
>>>y=f(x)
>>>y.data
array([[ 3.1757617 , 1.75755572],[ 8.61950684, 7.18090773]], dtype=float32)
梯度这个参数通过调用backward()方法来实现。注意的是,这个梯度是被累加起来的。所以每次调用之前,需要对梯度进行清零操作。
>>>f.cleargrads()
所以完整的例子是:
>>>y.grad=np.ones((2,2),dtype=np.float32)
>>>y.backward()
>>>f.W.gradarray([[ 5., 7., 9.],[ 5., 7., 9.]], dtype=float32)
>>>f.b.gradarray([ 2., 2.], dtype=float32)
2.3 用chain来写一个模块
大部分的神经网络都包含许多个links。比如,一个多层感知起由多个线性层组成。接下来就写一个这个的例子:
>>>classMyChain(Chain):
...def__init__(self):
...super(MyChain,self).__init__(
...l1=L.Linear(4,3),
...l2=L.Linear(3,2),
...)
.....def__call__(self,x):
...h=self.l1(x)
...returnself.l2(h)
2.4 优化器
>>>model=MyChain()
>>>optimizer=optimizers.SGD()
>>>optimizer.use_cleargrads()
>>>optimizer.setup(model)
setup()方法只是为优化器提供一个link。需要改梯度衰减值之类的需要调用:
>>>optimizer.add_hook(chainer.optimizer.WeightDecay(0.0005))
使用优化器
方法1:
>>>x=np.random.uniform(-1,1,(2,4)).astype('f')
>>>model.cleargrads()
>>># compute gradient here...
>>>loss=F.sum(model(chainer.Variable(x)))
>>>loss.backward()
>>>optimizer.update()
方法2:
>>>deflossfun(arg1,arg2):
...# calculate loss
...loss=F.sum(model(arg1-arg2))
...return loss
>>>arg1=np.random.uniform(-1,1,(2,4)).astype('f')
>>>arg2=np.random.uniform(-1,1,(2,4)).astype('f')