对一些SparkSQL任务,可以通过缓存数据、调优参数、增加并行度提升性能
缓存数据
sqlContext.cacheTable("tableName")或dataFrame.cache()构建一个内存中的列格式缓存
使用sqlContext.uncacheTable("tableName")移除缓存
缓存设置
可以通过sqlContext.setConf或在SQL中运行SET key=value
setConf("spark.sql.inMemoryColumnarStorage.compressed","true") ,为每列自动选择压缩码
setConf("spark.sql.inMemoryColumnarStorage.batchSize","1000") ,列式缓存的批处理大小,大批量可以提升内存使用率和压缩了,但是缓存是会有溢出风险
调优参数
参数 | 默认值 | 解释 |
---|---|---|
spark.sql.autoBroadcastJoinThreshold | 10485760(10M) | Join操作时,要被广播的表的最大字节数,-1为禁止广播 |
spark.sql.tungsten.enabled | true | 开启tungsten优化 |
spark.sql.shuffle.partitions | 200 | shuffle数据时,可用分区数 |
spark.sql.planner.externalSort | true | 根据需要执行Sort溢出到磁盘上,否则在每个分区内存中 |
增加并行度
Spark采用内存列式存储,实际执行查询效率很高,相对而言数据加载阶段耗时较长,合理设置并行度提升文件加载效率
Spark的并行度指的是什么?
spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度
如何提高并行度?
可以参考Spark调优