Java序列化

有关Java对象的序列化和反序列化也算是Java基础的一部分，首先对Java序列化的机制和原理进行一些介绍。

Java序列化算法

Serialization（序列化）是一种将对象以一连串的字节描述的过程；反序列化deserialization是一种将这些字节重建成一个对象的过程。Java序列化API提供一种处理对象序列化的标准机制。

为什么要进行序列化？

Java中，一切都是对象，在分布式环境中经常需要将Object从这一端网络或设备传递到另一端。这就需要有一种可以在两端传输数据的协议。Java序列化机制就是为了解决这个问题而产生。

如何进行序列化？

一个对象能够序列化的前提是实现Serializable接口，Serializable接口没有方法，更像是个标记。有了这个标记的Class就能被序列化机制处理。

1、实现Serializable接口

2、写个程序将对象序列化并输出（ObjectOutputStream能把Object输出成Byte流。将Byte流暂时存储到serial.out文件里）

3、使用ObjectInputStream从持久的文件中读取Bytes重建对象

Spark序列化

通过以上内容大概了解了序列化和反序列化的原理，接下来看看Spark的序列化

大部分Spark程序都具有“内存计算”的天性，所以集群中的所有资源：CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。

通常情况下，如果数据完全加载到内存那么网络带宽就会成为瓶颈，但是你仍然需要对程序进行优化，例如采用序列化的方式保存RDD数据以便减少内存使用。

数据序列化不但能提高网络性能还能减少内存使用。

Spark通过两种方式来创建序列化器

Java序列化

在默认情况下，Spark采用Java的ObjectOutputStream序列化一个对象。该方式适用于所有实现了java.io.Serializable的类。通过继承java.io.Externalizable，你能进一步控制序列化的性能。Java序列化非常灵活，但是速度较慢，在某些情况下序列化的结果也比较大。

Kryo序列化

Spark也能使用Kryo（版本2）序列化对象。Kryo不但速度极快，而且产生的结果更为紧凑（通常能提高10倍）。Kryo的缺点是不支持所有类型，为了更好的性能，你需要提前注册程序中所使用的类（class）。

Java的序列化比较简单，就和前面的一样，下面主要介绍Kryo序列化的使用。

Kryo序列化怎么用？

可以在创建SparkContext之前，通过调用System.setProperty("spark.serializer", "spark.KryoSerializer")，将序列化方式切换成Kryo。

但是Kryo需要用户进行注册，这也是为什么Kryo不能成为Spark序列化默认方式的唯一原因，但是建议对于任何“网络密集型”（network-intensive)的应用，都采用这种方式进行序列化方式。

Kryo文档描述了很多便于注册的高级选项，例如添加用户自定义的序列化代码。

如果对象非常大，你还需要增加属性spark.kryoserializer.buffer.mb的值。该属性的默认值是32，但是该属性需要足够大以便能够容纳需要序列化的最大对象。

最后，如果你不注册你的类，Kryo仍然可以工作，但是需要为了每一个对象保存其对应的全类名（full class name),这是非常浪费的。

以上是Spark序列化简单的应用，如有错误请指正...~

Spark序列化

Spark序列化

Java序列化

Java序列化算法

为什么要进行序列化？

如何进行序列化？

1、实现Serializable接口

2、写个程序将对象序列化并输出（ObjectOutputStream能把Object输出成Byte流。将Byte流暂时存储到serial.out文件里）

3、使用ObjectInputStream从持久的文件中读取Bytes重建对象

Spark序列化

Spark通过两种方式来创建序列化器

Java序列化

Kryo序列化

Kryo序列化怎么用？

相关阅读更多精彩内容

友情链接更多精彩内容