(一)使用高性能序列化类库


在我们执行Spark应用程序的时候,序列化技术的好坏也影响着程序的性能。Spark默认的序列化技术是Java基于ObjectInputStream和ObjectOutputStream的序列化机制。只要你的类实现了Serializable接口,都可以被序列化。同时Java提供了自定义的序列化支持,通过实现Externalizable接口,就可以实现自己的序列化算法。可以看到,这种序列化机制非常的便捷,但是,它缺陷在于序列化速度慢,序列化后的数据占用的内存比较大。
因此,当我们想要提高应用程序的性能时,可以使用另一种序列化机制,Kyro序列化机制。这种机制不仅比Java的序列化机制更快,而且占用的空间比Java的要小10倍。但是,这种方式并不一定能够序列化所有实现了Serializable接口的类,而且,还要在程序中对要序列化的类的类型进行注册。
如果要使用Kryo序列化机制,要掉用SparkConf的set方法设置参数spark.serializerorg.apache.spark.serializer.KryoSerializer
注意:

  1. 如果要序列化的类本身比较大的话,为了防止Kryo内部的缓存不够存放class对象,我们可以通过调用SparkConf的set方法来设置spark.kryoserializable.buffer.mb的值。
  2. 预先注册好要序列化的自定义类,能够减少内存的消耗。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 1.1、 分配更多资源 1.1.1、分配哪些资源? Executor的数量 每个Executor所能分配的CPU数...
    miss幸运阅读 8,426评论 3 15
  • 1、 性能调优 1.1、 分配更多资源 1.1.1、分配哪些资源? Executor的数量 每个Executor所...
    Frank_8942阅读 10,158评论 2 36
  • 1.分配更多的资源 -- 性能调优的王道 真实项目里的脚本: bin/spark-submit \ --c...
    evan_355e阅读 6,041评论 0 0
  • 翻译自Spark官网文档:https://spark.apache.org/docs/2.1.0/tuning.h...
    大数据技术进阶阅读 3,671评论 0 4
  • 莱拉立在金花雕饰的门前,对着光滑如镜的银餐盘整了整胸前口袋里的白色餐巾,心想着:就要进去了,得给客人们一个好印象。...
    莹Innsane阅读 3,848评论 0 2

友情链接更多精彩内容