Java中,有三种类型比较耗费内存:
- 对象,每个Java对象都有一个对象头、引用等额外的信息,因此比较占用内存空间。
- 字符串,每个字符串内部都有一个字符串数组以及长度等额外信息。
- 集合类型, 比如HashMap、LinkedList等,因为集合类型内部通常会使用一些内部类来封装集合元素,比如Map.Entry。
因此Spark官方建议,在Spark编码实现中,特别是对于算子函数中的代码,尽量不要使用上述三种数据结构,尽量使用字符串代替对象,使用原始类型(比如Int,Long)代替字符串,使用数组替代集合类型,这样尽可能的减少内存占用,从而降低内存GC频率,提升性能。因此在可能以及合适的情况下,使用占内存较少的数据结构,但是前提是要保证代码的可维护性。