背景:Spark由2.0.0升级至2.2.1,导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错
期望:将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1
解决:
旧版用法
spark-submit \
--class org.jpmml.spark.SparkPmmlWithHive \
--master yarn \
--queue queueName \
--deploy-mode client \
--jars /appcom/service/hive/lib/datanucleus-core-3.2.10.jar \
--files /appcom/config/hive/hive-site.xml \
${dir}/spark-pmml-1.0-SNAPSHOT.jar ${dir}/etl_lsvm-gxd-0.9.xml db.tbl_1 db.tbl_2
spark-pmml-1.0-SNAPSHOT.jar就是同事之前基于spark2.0.0开发的jar了,但是在我们Spark升级到2.2.1版本之后,就会开始报如下错误,导致调度作业报错。
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.CreateStruct.(Lscala/collection/Seq;)V at org.jpmml.spark.PMMLTransformer.transform(PMMLTransformer.java:149) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at org.apache.spark.ml.PipelineModel$$anonfun$transform$1.apply(Pipeline.scala:305) at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57) at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66) at scala.collection.mutable.ArrayOps$ofRef.foldLeft(ArrayOps.scala:186) at org.apache.spark.ml.PipelineModel.transform(Pipeline.scala:305) at org.jpmml.spark.SparkPmmlWithHive.main(SparkPmmlWithHive.java:25) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
这个错误的原因是因为在spark2.0.0里CreateStruct是一个class,但是在spark2.2.1(其实2.1.X就已经改了)中被定义为object
根据https://github.com/jpmml/jpmml-evaluator-spark/issues/11这篇文章,已经有大神写了相应的升级版本了,把项目拉下来改改看能不能行
git clone https://github.com/sidfeiner/jpmml-spark.git
这拉取下来的代码是的spark版本是1.X的,因为我们改成2.2.1的,所以再根据这位大神的改改
打开的页面里,他已经把spark的版本升级到2.1.0这个可以解决CreateStruct重新被定义的问题,但是注意我要升级的是2.2.1这里有一点小差别就是PMMLTransformer类中用到的ScalaUDF函数2.1.0版本是接收四个参数的,但是在2.2.1中接收的是5个参数
如果用的是传的是4个参数的则会报错如下,因为服务器上已经是2.2.1版本了
java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.ScalaUDF.(Ljava/lang/Object;Lorg/apache/spark/sql/types/DataType;Lscala/collection/Seq;Lscala/collection/Seq;)V
解决了这个问题基本就差不多了
cd jpmml-spark
mvn clean install
生成
pmml-spark/target/pmml-spark-1.0-SNAPSHOT.jar - Library JAR file.
pmml-spark-example/target/example-1.0-SNAPSHOT.jar - Example application JAR file.
其中example-1.0-SNAPSHOT.jar就是我们要的jar,重命名spark-pmml-2.0.jar替换同事的旧版本jar包即可。
代码:
参考:
https://github.com/jpmml/jpmml-evaluator-spark
https://github.com/jpmml/jpmml-evaluator-spark/issues/11
https://github.com/sidfeiner/jpmml-spark