spark on ack (ali EMR on ACK) 问题汇总

1、spark-shell 提交任务以后,终端超时,实际任务不退出,造成资源一直计费。
需要进入到spark-gateway 机器上手动kill 任务进程。

2、pyspark 之前一直使用--archives 参数,将hdfs上的python环境包下载到drive,execute端执行。
spark on k8s 后要使用--py-files , 把环境包放到oss上,pyspark主程序也要放在oss 上,不能够使用本地提交任务。会提示找不到主程序文件。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容