通过源码可以知道,目前Spark JDBC Datasource在拉取数据形成JDBCRDD时,只把查询字段列表,表名和Filter下推到了数据库一侧:
如果我的sql还有聚合查询,那么聚合查询其实是在Spark端执行的。即先经过过滤把所需字段的所有数据抽取出来形成RDD,在RDD上再执行聚合操作。那能不能把全部SQL都下推到数据库侧呢?
答案是可以的。
看代码逻辑,只要将table变量构成一个子句即可,子句的逻辑就是我要查询的sql逻辑,比如select avg(scores), class from db.test_table where id > 0 and id < 100 group by class
,将其构造成一个子句就是:(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result
。将该子句带入dbtable 配置中就可以实现SQL逻辑的全部下推。这样spark就可以仅仅作为一个proxy存在。
代码这样写:
spark.read.format("jdbc").option("driver", "com.mysql.jdbc.Driver").option("url", "jdbc:mysql://88.88.88.88:3306").option("dbtable", "(select avg(scores), class from db.test_table where id > 0 and id < 100 group by class) as result").option("user", "power").option("password", "mee").option("fetchsize", "30").load().show
注意:子句中表名前必须加带库名。