于是开始寻找问题:
1.首先使用命令查看下CPU使用率占用最多的pid
ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head
2.因为杀死的任务不断重启,于是猜想是不是有定时任务在不断执行,于是使用
crontab -l
查看,未发现。切换到yarn用户再次查看,果然存在。3.入侵分析
查看tmp下的tmp.txt文件
4.以下的图是同样遇到该问题的朋友发来的w.conf中的内容,从图中很容易的发现黑客在使用集群的资源进行挖矿。这是一个有原则黑客,在代码中写了注释,告诉你我在干什么= =!
5.入侵原因
本次大规模的云集群受到黑客攻击,根本原因是hadoop的8088端口,攻击者无需认证即可通过 REST API 部署任务来执行任意指令,最终可以完全控制集群中的所有机器。
所以我们只能通过防火墙把8088端口限制指定的ip或者ip段可以访问。或者启用kerberos认证功能(该方法我没有尝试)。