问题描述
distcp跨集群拷贝文件,失败异常如下。
19/07/15 11:35:29 INFO mapreduce.Job: Task Id : attempt_1562833599927_0815_m_000010_0, Status : FAILED
Application application_1562833599927_0815 initialization failed (exitCode=255) with output: main : command provided 0
main : run as user is etlhadoop
main : requested yarn user is etlhadoop
User etlhadoop not found
分析过程
1.找到application_1562833599927_0815 在yarn上,存在节点问题。
2.增加debug日志打印,使用如下命令:
hadoop distcp -Dmapreduce.map.log.level=DEBUG -Dmapreduce.job.queuename=QueueA -Dmapreduce.map.memory.mb=4096 -bandwidth 10 -m 10 -p=rbugp -update -i -skipcrccheck -log /tmp/cp hdfs://84.48.17.3:25000/user/etlsdbx/ hdfs://73.16.129.173:25000/user/etlsdbx/
3.在debug日志中发现,Connection连接超时,解决网络问题先。
结论
两套集群部分节点存在网络问题导致失败。