（一）使用高性能序列化类库

在我们执行Spark应用程序的时候，序列化技术的好坏也影响着程序的性能。Spark默认的序列化技术是Java基于ObjectInputStream和ObjectOutputStream的序列化机制。只要你的类实现了Serializable接口，都可以被序列化。同时Java提供了自定义的序列化支持，通过实现Externalizable接口，就可以实现自己的序列化算法。可以看到，这种序列化机制非常的便捷，但是，它缺陷在于序列化速度慢，序列化后的数据占用的内存比较大。
因此，当我们想要提高应用程序的性能时，可以使用另一种序列化机制，Kyro序列化机制。这种机制不仅比Java的序列化机制更快，而且占用的空间比Java的要小10倍。但是，这种方式并不一定能够序列化所有实现了Serializable接口的类，而且，还要在程序中对要序列化的类的类型进行注册。
如果要使用Kryo序列化机制，要掉用SparkConf的set方法设置参数spark.serializer为org.apache.spark.serializer.KryoSerializer。
注意：

如果要序列化的类本身比较大的话，为了防止Kryo内部的缓存不够存放class对象，我们可以通过调用SparkConf的set方法来设置spark.kryoserializable.buffer.mb的值。
预先注册好要序列化的自定义类，能够减少内存的消耗。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

（一）使用高性能序列化类库

（一）使用高性能序列化类库

相关阅读更多精彩内容

友情链接更多精彩内容