spark任务提交时绝对路径添加额外配置文件提示找不到路径

spark任务提交,添加额外配置文件时用绝对路径读取不到上传的文件。

/usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=radar --conf spark.driver.cores=4 --conf spark.driver.maxResultSize=10G --conf spark.yarn.submit.waitAppCompletion=false --conf spark.rpc.message.maxSize=2000 --conf spark.network.timeout=600s --conf spark.executor.heartbeatInterval=300s  
--files /tmp/computeA_run_spark.py,/tmp/computeA1524709482.7682726_output_data.conf /home/guomm/script/spark_run.py computeA1524709482.7682726_output_data.conf computeA

在spark_run脚本中读取computeA_run_spark.py和computeA1524709482.7682726_output_data.conf失败,提示找不到文件。

cd tmp
/usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_test_80 --master yarn --deploy-mode client --executor-cores 1 --num-executors 2 --executor-memory 1G --driver-memory 4G --conf spark.yarn.queue=radar --conf spark.driver.cores=4 --conf spark.driver.maxResultSize=10G --conf spark.yarn.submit.waitAppCompletion=false --conf spark.rpc.message.maxSize=2000 --conf spark.network.timeout=600s --conf spark.executor.heartbeatInterval=300s  --files computeA_run_spark.py,computeA1524709482.7682726_output_data.conf /home/guomm/script/spark_run.py computeA1524709482.7682726_output_data.conf computeA

只有cd到 tmp目录,用相对文件路径提交时才可以。
原因是spark将文件上传到集群时,会找/tmp/computeA_run_spark.py的路径,找不到,没上传成功或者上传成功放入了别的路径(没看到spark提示上传文件失败)。因此在你spark脚本执行的时候调用computeA_run_spark.py提示找不到文件。

我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=1yo3sp5f658kk

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容