登录注册写文章

pyspark系列9-Spark性能调优概述

pyspark系列9-Spark性能调优概述

一.Spark 性能优化概述

首先笔者能力优先，使用Spark有一段时间，如下是笔者的工作经验的总结。

Spark任务运行图:

image.png

Spark的优化思路:
一般是从3个层面进行Spark程序的优化:

运行环境优化
RDD算子优化
参数微调

二.运行环境优化

2.1 数据本地性

我们知道HDFS的数据文件存储在不同的datanode，一般数据副本数量是3，因为Spark计算的数据量比较大，如果数据不在本节点，需要通过网络去其它的datanode读取数据。

所以此时我们可以通过提高数据本地性，减少网络传输，来达到性能优化的目的。

计算和存储同节点(executor和HDFS的datanode、hbase的region server同节点)
executor数目合适: 如果100个数据界定，3个计算节点，就有97份网络传递，所以此种情况可以适当增加计算节点。
适当增加数据副本数量

2.2 数据存储格式

推荐使用列式存储格式: parquet.
parquet存在如下优先:

相同数据类型的数据有很高压缩比
Hive主要支持OCR、也支持parquet

三.RDD算子优化

3.1 尽可能复用同一个RDD

每创建一个RDD都会带来性能的开销，尽可能的对同一个RDD做算子操作，而不要频繁创建新的
RDD。

3.2 对多次使用的RDD进行持久化

如果RDD的算子特别多，需要频繁多次操作同一个RDD，最好的办法是将该RDD进行持久化，

四.参数微调

num-executors
参数说明：该参数用于设置每个Executor进程的内存。Executor内存的大小，很多时候直接决定了Spark作业的性能，而且跟常见的JVM OOM异常，也有直接的关联。
executor-cores
参数说明：该参数用于设置每个Executor进程的CPU core数量。
driver-memory
参数说明：该参数用于设置Driver进程的内存。
spark.default.parallelism
参数说明：该参数用于设置每个stage的默认task数量。
spark.storage.memoryFraction
参数说明：该参数用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6。
spark.shuffle.memoryFraction
参数说明：该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能够使用的Executor内存的比例，默认是0.2。

资源参数参考示例：

./bin/spark-submit \
  --master yarn-cluster \
  --num-executors 100 \
  --executor-memory 6G \
  --executor-cores 4 \
  --driver-memory 1G \
  --conf spark.default.parallelism=1000 \
  --conf spark.storage.memoryFraction=0.5 \
  --conf spark.shuffle.memoryFraction=0.3 \

五.数据倾斜

绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。

数据倾斜图例:

image.png

解决数据倾斜一般有如下几种常用方法:

使用Hive ETL预处理数据
先使用Hive进行预处理数据，也就是使用Hive先计算一层中间数据，Spark从中间层数据开始计算。
过滤少数导致倾斜的key
如果发生导致倾斜的key非常少，可以将Spark任务拆分为包含导致倾斜的key的任务和不包含key的任务。
sample采样倾斜key单独进行join
通过采样，提前预估会发生数据倾斜的key，然后将一个join拆分为两个join，其中一个不包含该key，一个只包含该key，最后将结果集进行union。
调整并行度
调整Shuffle并行度，数据打散
广播小数据集
适用于一个大表，一个小表
不用join连接操作，而改用Broadcast变量与map模拟join操作，完全规避shuffle操作
spark.sql: spark.sql.autoBroadcastJoinThreshold=104857600
增加随机前缀
对发生倾斜的RDD增加随机前缀
对另外一个RDD等量扩容
如果少量的key发生倾斜，可以先过滤出一个单独的RDD，对另外一个RDD同理吹，join之后再合并

参考:

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,366评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,521评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,689评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,925评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,942评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,727评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,447评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,349评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,820评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,990评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,127评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,812评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,471评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,017评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,142评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,388评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,066评论 2赞 355

推荐阅读更多精彩内容

spark性能调优指南高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的...
Alukar阅读 880评论 0赞 2
Spark性能调优
调优之前是将功能实现...然后算法优化,设计优化,再是spark调优!,需得一步一步来,不得直接越过,直接调优! ...
终生学习丶阅读 5,490评论 0赞 12
Spark 性能调优基础篇
1. 开发调优 1.1 避免创建重复的RDD 在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或H...
博弈史密斯阅读 654评论 0赞 1
Spark性能优化：资源调优篇（转）
《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spar...
愤怒的谜团阅读 253评论 0赞 3
Spark性能调优-资源调优
1. 概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-...
piziyang12138阅读 475评论 0赞 0

赞1赞

赞赏

手机看全文