BigDL Programming Guide

本文为官方文档译文

Tensor

Tensor（张量）本质是多维数组，可以储存Int,Float,Double等类型的数据。可以在scala shell中输入scala -cp bigdl_0.1-0.1.0-SNAPSHOT-jar-with-dependencies.jar引入jar包，简单的使用一下Tensor。

scala> import com.intel.analytics.bigdl.tensor.Tensor
import com.intel.analytics.bigdl.tensor.Tensor

scala> val tensor = Tensor[Float](2, 3)
tensor: com.intel.analytics.bigdl.tensor.Tensor[Float] =
0.0     0.0     0.0
0.0     0.0     0.0
[com.intel.analytics.bigdl.tensor.DenseTensor of size 2x3]

Table

Tensor和Table在BigDL应用非常广泛，可以作为网络的输入和输出。Table可以看做是一个key-value的map，在BigDL中通过T()创建。

scala> import com.intel.analytics.bigdl.utils.T
import com.intel.analytics.bigdl.utils.T

scala> T(Tensor[Float](2,2), Tensor[Float](2,2))
res2: com.intel.analytics.bigdl.utils.Table =
 {
        2: 0.0  0.0
           0.0  0.0
           [com.intel.analytics.bigdl.tensor.DenseTensor of size 2x2]
        1: 0.0  0.0
           0.0  0.0
           [com.intel.analytics.bigdl.tensor.DenseTensor of size 2x2]
 }

Module

在BigDL中Module类代表网络中的单独的层，比如，ReLU, Linear, SpatialConvolution, Sequential

创建层

以Linear为例

scala> import com.intel.analytics.bigdl.numeric.NumericFloat // import global float tensor numeric type
import com.intel.analytics.bigdl.numeric.NumericFloat

scala> import com.intel.analytics.bigdl.nn._
import com.intel.analytics.bigdl.nn._

scala> val f = Linear(3,4) // create the module
mlp: com.intel.analytics.bigdl.nn.Linear[Float] = nn.Linear(3 -> 4)

// let's see what f's parameters were initialized to. ('nn' always inits to something reasonable)
scala> f.weight
res5: com.intel.analytics.bigdl.tensor.Tensor[Float] =
-0.008662592    0.543819        -0.028795477
-0.30469555     -0.3909278      -0.10871882
0.114964925     0.1411745       0.35646403
-0.16590376     -0.19962183     -0.18782845
[com.intel.analytics.bigdl.tensor.DenseTensor of size 4x3]

构建复杂的网络

可以使用已有的Sequential, Concat, ConcatTable等modle去构建复杂的网络。

scala> val g = Sum()
g: com.intel.analytics.bigdl.nn.Sum[Float] = nn.Sum

scala> val mlp = Sequential().add(f).add(g)
mlp: com.intel.analytics.bigdl.nn.Sequential[Float] =
nn.Sequential {
  [input -> (1) -> (2) -> output]
  (1): nn.Linear(3 -> 4)
  (2): nn.Sum
}

构建复杂的神经网络模型

以LeNet-5为例，用不同的module构建神经网络模型。

import com.intel.analytics.bigdl._
import com.intel.analytics.bigdl.numeric.NumericFloat
import com.intel.analytics.bigdl.nn._

object LeNet5 {
  def apply(classNum: Int): Module[Float] = {
    val model = Sequential()
    model.add(Reshape(Array(1, 28, 28)))
      .add(SpatialConvolution(1, 6, 5, 5))
      .add(Tanh())
      .add(SpatialMaxPooling(2, 2, 2, 2))
      .add(Tanh())
      .add(SpatialConvolution(6, 12, 5, 5))
      .add(SpatialMaxPooling(2, 2, 2, 2))
      .add(Reshape(Array(12 * 4 * 4)))
      .add(Linear(12 * 4 * 4, 100))
      .add(Tanh())
      .add(Linear(100, classNum))
      .add(LogSoftMax())
  }
}

Criterion

BigDL中的Criterion类可以计算损失和梯度，可以在BigDL Criterions查找列表。

scala> val mse = MSECriterion() // mean square error lost, usually used for regression loss
mse: com.intel.analytics.bigdl.nn.MSECriterion[Float] = com.intel.analytics.bigdl.nn.MSECriterion@0

scala> val target = Tensor(3).rand() // create a target tensor randomly
target: com.intel.analytics.bigdl.tensor.Tensor[Float] =
0.33631626
0.2535103
0.94784033
[com.intel.analytics.bigdl.tensor.DenseTensor$mcF$sp of size 3]

scala> val prediction = Tensor(3).rand() // create a predicted tensor randomly
prediction: com.intel.analytics.bigdl.tensor.Tensor[Float] =
0.91918194
0.6019384
0.38315287
[com.intel.analytics.bigdl.tensor.DenseTensor$mcF$sp of size 3]

scala> mse.forward(prediction, target) // use mse to get the loss, returns 1/n sum_i (yhat_i - t_i)^2
res11: Float = 0.2600022

Transformer

Transformer预处理。在许多深度学习将数据放入模型前需要预处理。例如在CNN中，图像需要从一些复杂的格式解码成float数组，归一化，裁剪成固定的形状。在其他类型的深度学习任务中同样需要预处理。BigDL给用户提供了许多预处理程序。通过Transformer执行。
Transformer接口：

trait Transformer[A, B] extends Serializable {
  def apply(prev: Iterator[A]): Iterator[B]
}

transformer仅仅是将A对象序列转为另一个B对象序列。

tansformer非常灵活，你可以把它们放在一起做预处理。仍然以CNN为例，首先我们需要读取文件，然后将图像转为float数组，然后归一化并且裁剪成同样大小。这里我们需要四次转化，读取图像，转成数组，归一化和裁剪。这些步骤可以链到一起。

class PathToImage extends Transformer[Path, Image]
class ImageToArray extends Transformer[Image, Array]
class Normalizor extends Transformer[Array, Array]
class Cropper extends Transformer[Array, Array]

PathToImage -> ImageToArray -> Normalizor -> Cropper

transformer的另一个优点是可以代码重构，你可能会发现，对于类似的任务处理的步骤是相同的，尽管有些小的差别。因此，将其分解成小步骤取代大的欲处理函数，可以提高代码重用并且节省时间。

spark使用transformer非常容易

val rddA : RDD[A] = ...
val tran : Transformer[A, B] = ...
val rddB : RDD[B] = rdd.mapPartitions(tran(_))

BigDL的transformer不同于Spark ML pipeline Transformer，但是功能类似。

Sample and MiniBatch

sample代表数据集中的一个个体，例如图像分类中一个图像，word2vec中的一个词或是RNN语言模型中的一句话。

minibatch代表若干个samples，为了计算效率更高，我们将训练分成若干批。

你需要用transformer将你的数据转为sample或是minibatch，然后归一化或者进一步处理。注意，如果你提供样本格式，BigDL仍然会在归一化或者进一步处之前自动的将数据集转为minibatch。

Engine

BigDL通过Engine.init设置检测运行环境。

// Scala code example
val conf = Engine.createSparkConf()
val sc = new SparkContext(conf)
Engine.init

# Python code example
conf=create_spark_conf()
sc = SparkContext(conf)
init_engine()

Optimizer

optimizer是一个优化过程，又叫做训练。

您需要提供模型，训练数据集和损失函数来使用优化。

val optimizer = Optimizer(
  model = model,
  dataset = trainDataSet,
  criterion = new ClassNLLCriterion[Float]()
)

你可以设置优化的其他属性，如下：

超参数

optimizer.setState(
  T(
    "learningRate" -> 0.01,
    "weightDecay" -> 0.0005,
    "momentum" -> 0.9,
    "dampening" -> 0.0,
    "learningRateSchedule" -> SGD.EpochStep(25, 0.5)
  )
)

优化方法，默认是SGD，可以参看 Optimization Algorithms列表选择优化函数。

// Change optimization method to adagrad
optimizer.setOptimMethod(new Adagrad())

停止，默认在100次迭代后停止。

// Stop after 10 epoch
optimizer.setEndWhen(Trigger.maxEpoch(10))

输出

// Every 50 iteration save current model and training status to ./checkpoint
optimizer.setCheckpoint("./checkpoint", Trigger.severalIteration(50))

验证，你可以分离出一个数据集验证。

// Every epoch do a validation on valData, use Top1 accuracy metrics
optimizer.setValidation(Trigger.everyEpoch, valData, Array(new Top1Accuracy[Float]))

BigDL如何在分布式集群上训练数据集

bigdl将数据并行进行分布式训练。训练数据在workers之间被分割并缓存在内存中。一个完整的模型也缓存在每个worker中。在训练中模型只使用相同worker的数据。

BigDL采用同步的分布式训练。在每次迭代中，每个worker都会同步最新的权重，计算与本地数据和局部模型的梯度，通过给定的优化算法（如SGD，Adagrad）同步梯度和更新权重。

同步梯度和权重，BigDL没有使用RDD API（broadcast, reduce, aggregate, treeAggregate）。这些方法每个worker都需要与驱动程序进行通信，所以当参数过大或worker过多时，驱动程序就会瓶颈。相反，bigdl实施消除瓶颈参数同步P2P算法。有关算法的详细介绍，请参阅代码 code。

Validator

Validator是用来检测模型的。模型可以从磁盘加载或在训练优化。该指标可以TOP1精度、损失等。验证方法可从Validation Methods列表查看

// Test the model with validationSet and Top1 accuracy
val validator = Validator(model, validationSet)
val result = validator.test(Array(new Top1Accuracy[Float]))

Model Persist

你可以使用下面代码保存你的model

// Save as Java object
model.save("./model")

// Save as Torch object
model.saveTorch("./model.t7")

这样读取model

// Load from Java object file
Module.load("./model")

// Load from torch file
Module.loadTorch("./model.t7")

Logging

训练中，BigDL提供了日志如下，你也可以在epoch/iteration/loss/throughput直接查看日志文件。

2017-01-10 10:03:55 INFO  DistriOptimizer$:241 - [Epoch 1 0/5000][Iteration 1][Wall Clock XXX] Train 512 in XXXseconds. Throughput is XXX records/second. Loss is XXX.
2017-01-10 10:03:58 INFO  DistriOptimizer$:241 - [Epoch 1 512/5000][Iteration 2][Wall Clock XXX] Train 512 in XXXseconds. Throughput is XXX records/second. Loss is XXX.
2017-01-10 10:04:00 INFO  DistriOptimizer$:241 - [Epoch 1 1024/5000][Iteration 3][Wall Clock XXX] Train 512 in XXXseconds. Throughput is XXX records/second. Loss is XXX.
2017-01-10 10:04:03 INFO  DistriOptimizer$:241 - [Epoch 1 1536/5000][Iteration 4][Wall Clock XXX] Train 512 in XXXseconds. Throughput is XXX records/second. Loss is XXX.
2017-01-10 10:04:05 INFO  DistriOptimizer$:241 - [Epoch 1 2048/5000][Iteration 5][Wall Clock XXX] Train 512 in XXXseconds. Throughput is XXX records/second. Loss is XXX.

DistriOptimizer的log等级是INFO，目前我们实现了方法为redirectFilterSparkInfoLogs在spark/utils/LoggerFilter.scala中，你可以引用并：

import com.intel.analytics.bigdl.utils.LoggerFilter
LoggerFilter.redirectSparkInfoLogs()

除了org.apache.spark.SparkContext,这个方法可以使用INFO等级，将org, akka, breeze 重定向。同样的，可以在控制台输出ERROR。

你可以使用java属性禁用重定向
Dbigdl.utils.LoggerFilter.disable=true。默认情况下它会将代码中所有的examples和models重定向。
你可以在bigdl.log设置路径，-Dbigdl.utils.LoggerFilter.logFile=<path>，默认情况下，日志会在当前工作目录下。

Visualization via TensorBoard

若想可视化，你需要先安装 install tensorboard ，在你调用optimize()之前，对你的optimizer setTrainSummary() 和 setValidationSummary()：

val logdir = "mylogdir"
val appName = "myapp"
val trainSummary = TrainSummary(logdir, appName)
val talidationSummary = ValidationSummary(logdir, appName)
optimizer.setTrainSummary(trainSummary)
optimizer.setValidationSummary(validationSummary)

在运行你的spark job之后，训练和验证日志会被保存到"mylogdir/myapp/train" 和"mylogdir/myapp/validation"。注意：在开始新的job之前改一下appName，否则日志文件会冲突。

TrainSummary默认每次迭代显示"Loss"和"Throughput"。你可以使用setSummaryTrigger()使每次迭代显示"LearningRate"和"Parameters"，或者更改"Loss"和"Throughput":

trainSummary.setSummaryTrigger("LearningRate", Trigger.severalIteration(1))
trainSummary.setSummaryTrigger("Parameters", Trigger.severalIteration(20))

注意："Parameters"显示模型中parameters和gradParameters的直方图。但是从worker中获取参数是一个非常大的开销，建议每10次迭代获取一次。为了可视化更形象可以给每层命名。

ValidationSummary通过setvalidation()显示检验集优化的结果，像“Loss”和“top1Accuracy”。
Summary提供了readScalar方法读取标签名称。从"Loss"中读取summary：

val trainLoss = trainSummary.readScalar("Loss")
val validationLoss = validationSummary.readScalar("Loss")

北京师范大学
图形图像与模式识别实验室
sibofeng@mail.bnu.edu.cn

BigDL Programming Guide