登录注册写文章

Spark性能调优

Spark性能调优

尽可能的过滤原始数据
在上次实践中，我们使用

spark.read.jdbc(mysqlHelper.DB_URL_R,"t_rfid_card",
    Array("org_id="+ORG_ID),
    mysqlHelper.PROPERTIES)

过滤并读取了数据库。如果我们要多加几个过滤条件，要小心一个陷阱，Array[String]参数并不是用来叠加过滤条件的，在文档中说明了这一点：

所以如果是要叠加过滤条件，只能在一个字符串内拼接，像这样：

spark.read.jdbc(mysqlHelper.DB_URL_R, "t_medical_waste",
    Array("org_id = " + ORG_ID+" AND YEAR(rec_ts) = "+YEAR), 
    mysqlHelper.PROPERTIES)

spark.default.parallelism设置
这里有一篇很好的优化指南。在standalone模式下，情况要简单一些，这个值相当于每个核分配2~3个线程的所有线程总和。修改在conf/spark-defaults.conf中。

最后编辑于：2017.12.06 02:18:35

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,406评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 8,359评论 0赞 16
Spark性能调优篇七之JVM相关参数调整
由于Spark程序是运行在JVM基础之上的，所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作...
z小赵阅读 4,877评论 0赞 4
Spark性能调优
调优之前是将功能实现...然后算法优化,设计优化,再是spark调优!,需得一步一步来,不得直接越过,直接调优! ...
终生学习丶阅读 5,570评论 0赞 12
Spark性能调优篇八之shuffle调优（重要）
本篇文章来介绍一个重量级的Spark调优机制，就是我们常说的shuffle调优。在讲解shuffle调优之前，我们...
z小赵阅读 9,815评论 0赞 6

1赞2赞

手机看全文