Scala Serialization

Problem

序列化一个Scala对象为文本或者二进制数据,以便支持持久化或者网络传输等需求,并通过读取这些数据,可以反序列化出这个对象

Feature requests

  • easy to use
  • 支持自定义序列化(如部分member)
  • 尽可能的编译期检查
  • Schema Evolution?

Key metrics

  • 序列化/反序列化 速度
  • 序列化数据 空间占用
  • 通用性

Solution

extend or mixin Serializable trait

scala Serializable 实际上就是一个java.io.Serializableuniversal trait

package scala

/**
 * Classes extending this trait are serializable across platforms (Java, .NET).
 */
trait Serializable extends Any with java.io.Serializable

@SerialVersionUID

@SerialVersionUID(1000L)
class Foo extends Serializable {
  // class code here
}

Static annotation SerialVersionUID可以与Serialization一起使用

If no serialVersionUID is declared, JVM will use its own algorithm to generate a default SerialVersionUID.

When to specify SerialVersionUID?

SerialVersionUID的目的是为了检查序列化和反序列化的类是否兼容。

  • 第一种情况,序列化的目的只是为了在网络上即时传输,如rpc, mq等,或者在实现上考虑,为了节省内存,只保存序列化之后的对象,如spark cache等,一般来说可以不显式指定SerialVersionUID
  • 第二种情况,需要直接使用序列化来持久化对象,如将训练好的模型存储到文件系统上,就最好指定SerialVersionUID,且当类不向前兼容的时候,应该重新生成SerialVersionUID
  • 第三种情况,如果对各编译器,不同的JVM 兼容性要求很高,如Java(TM) Object Serialization Specification建议,应当给每个序列化类都指定SerialVersionUID

按需序列化一部分对象?

当一个类mixin Serializable 之后,整个类的实例(all members)都会被序列化,但有时候这并不是我们需要的

  • 对象持有非常大的member,序列化和反序列化的开销很大,而我们并不需要序列化它
  • 业务逻辑中,大量序列化和反序列化的开销成为瓶颈,需要优化
  • 对象member不可/难以序列化,如网络连接,数据流等,或者是引用第三方库中不可序列化的对象

Solution 1: hygienic closure

  • 通过closure来避免序列化整个实例, 而是根据需要传参
def closureFunction[E,D,R](enclosed: E)(gen: E => (D => R)) = gen(enclosed)

class Foo {
  val v1 = 42
  val v2 = 73
  val n = new NotSerializable

  // use shim function to enclose *only* the values of 'v1' and 'v2'
  def f() = closureFunction((v1, v2)) { enclosed =>
    val (v1, v2) = enclosed
    (x: Int) => (v1 + v2) * x   // Desired function, with 'v1' and 'v2' enclosed
  }
}
new Foo.f
  • auto nulling via closure cleaning 闭包清理
    由于 spark 大量使用closure serialization, 当一个closure 包含了一些在闭包函数中不必要的引用时(Scala issue: SI-1419, fixed in 2.12),就会浪费网络传输带宽,CPU 开销,还有可能引入一些不可被序列化的对象,导致整个闭包无法序列化。
    spark 中使用 ClousureCleaner 在运行时遍历对象,可以更精确的排除不必要的引用。

Solution 2: @transient lazy

Static annotation @transient 表示修饰的 member 不需要被序列化
比如一个 SparkJob base class


class SparkJob(args: Args) extends Serializable {
  @transient
  protected lazy val sparkConf = new SparkConf()

  @transient
  protected lazy val sc = new SparkContext(sparkConf)
  
  ...
}

由于引用的sparkConf, sparkContext都是不可序列化的,
且都不需要被传送到executor上运行,因此可以用@transient表示该成员不需要被序列化

再如,一个算法模型类,需要读取模型文件,并且需要频繁通过ByteBuffer来操作二进制数据
但是ByteBuffer本身又是不可序列化的, 此时可以使用 @transient (private) lazy pattern
其中 @trainsient 可以避免 overhead,lazy 可以第一次被调用时正确地初始化以避免NPE

class Model(
  val model: Array[Byte],
  val offset: Array[Byte]
) extends Serializable {

  @transient private lazy val offsetBuffer = ByteBuffer.wrap(offset).order(ByteOrder.LITTLE_ENDIAN)
  @transient private lazy val modelBuffer  = ByteBuffer.wrap(model).order(ByteOrder.LITTLE_ENDIAN)
  ... 
}

这种模式也适用于其他难以被序列化的 member,比如数据库连接,IO stream 等,每个实例只需序列化可以用来重建这些 member 的元信息即可。

Spark 序列化与性能

在如 Spark 这样的分布式计算框架中, broadcast, shuffle, action等操作都会使得对象被序列化。使每个被闭包捕获的变量都可序列化,可以避免异常,但是变量非常大时,容易影响性能,以及有可能造成内存泄露。

Solution 1: Kryo(chill)

在 Spark 中使用 kryo serializer 来获得更小的序列化开销

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

Solution 2: Broadcast

在 Spark 中如果通过闭包引用了一个huge object, 那么这个object会被至少序列化 numPartitions 次,而如果使用broadcast variables, 那么只会被序列化 numNodes 次,通常 numPartitions > numNodes

其他序列化实现

  • Protobuf
    pros
    • IDL and languages support
    • stable and trusted
      cons
  • Thrift
    pros
    • more languages support
    • rpc service framework

cons

  • Avro
  • Boopickle
  • Pickling
  • Scodec

tbc.

Paradigm shift

use more

  • function
  • typeclass
  • case class
  • implicit context

References

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容