spark运行问题解决

如果无法运行pyspark/spark-shell,
dfs, yarn, spark,三步都可能有问题

dfs启动应该能看到localhost:50070,如果有问题:
1 core-site.xml的tmp目录,不清楚原因,暂时没能设置为固定目录,不给参数,让它默认即可,但系统重启后需要把/tmp/hadoop-<username>文件夹删除,dfs目录(在hdfs-site.xml配置)删除,重新运行下面这一步
2 hdfs namenode -format,新的、空的、不匹配的hdfs目录,tmp目录,都需要运行一下这个,数据会被清除

yarn启动后应该能看到localhost:8088,如果有问题:
1 hosts不能有127.0.0.1 localhost记录

spark-shell/pyspark无法完成初始化,无法进入交互式:
1 检查yarn的active node,如果为0,检查unhealthy node
2 如果信息为local-dirs are bad,则可能剩余空间不够多,需要更多空间才能继续运行yarn
参考:stackoverflow

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容