====简书就是随便记录,不会太详细,不会注重文章的质量,主要给自己看的===
关于这个不想说太多,网上一搜很多,大部分都是不负责任的,都是说改什么Linux的配置,我只想说,这是小学生吧? 这明显就是治标不治本啊!!!
1、首先,得定位问题,查,到底是哪些进程或线程打开了大量的连接(scoket)没有关闭
lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | more
2、如果Linux是内网环境不支持lsof命令,那就离线安装gcc
百度网盘地址: https://pan.baidu.com/s/1xFDKEJ3UkLoNJmBxIflnEg 提取码: mxtg
上面是下载地址,里面都是些gcc安装需要依赖的rpm包,里面有个sh脚本,是用来一键安装所有包的
将这些rmp传到linux服务器下,统一安装即可:
rpm -Uvh *.rpm --nodeps --force
3、查看当前进程相关的连接
lsof | grep pid
4、jps查看当前java进程的状态
jps
5、查看当前进程属于哪个应用
ps -ef | grep pid
6、杀掉对应的pid
kill -9 pid
8、总结
由于是生产内网环境遇到的,就不截图了,直接说明最后怎么解决的:
1、tomcat运行一段时间就会输出大量日志: xxxx too many open flle,这个错一报,tocmat所在的linux服务器就什么连接都create不了,结果导致服务瘫痪,前端请求一直pending
2、每次重启服务,临时解决,发现不一会又出现xxxx too many open flle错误
3、索性,将ulimit -n 显示的值 从1024 改成了 2w+,还是不行,运行一段时间又报错
4、什么情况,抓狂中,只能lsof查看一下,到底是哪些进程打开的file(linux一切皆文件)比较多,其实file就是一个tcp连接(socket)
5、结果发现,内网环境linux上没安装lsof,卧槽,那就安装呗,外网下了一个二进制包,准备编译,结果make时提示我需要gcc
6、那就安装gcc呗,外网准备相关依赖包,内网安装,欧克了,lsof可以用了
7、利用lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | more查看了排在前面的几个进程,利用jps比对了一下,果不其然,指向的就是tomcat,但是额外发现有好多个tomcat进程实例(重复的,可能之前tomcat关闭时,没政正常shutdown),于是用kill命令手动全部干掉了
8、重启tomcat,保证只有一个jps进程,跟了下,程序运行期间,files数一直在增长,于是定位就是这个服务本身的问题,实际上就是代码写的有问题,有资源用完了未释放,造成tcp连接一直挂着,占用着linux的文件句柄资源
9、利用 lsof | grep pid命令,查看了进程的连接情况,结果发现大量的状态为Established的tcp连接,他们清一色的指向mongodb
10、那么问题就好办了,先在mongodb中查询当前连接的数:db.serverStatus().connections;发现current的值在持续++,肯定就不对劲了
11、debug项目代码,定位问题在一些数据入库的时候异常了,结果定时器频繁重执行,而入库分两步,一个是入mongodb,一个入postgresql,前者入的时候,代码中忘关client连接了
12、将11步定位的问题代码处,加了连接close()的方法
13、再重新打包服务,发布,观察,问题不在出现!!!!解决