JVM-排查问题

by shihang.mai

rocketMq监控界面TPS上不去

Cloud-nms-dlq模块
rocketMq监控界面显示Tps很低,只有几十

疯狂GC->内存增大到8G,垃圾回收器改为G1,从TPS0->几百

  1. 用arthas

    thread -n all
    

    发现很多业务线程在waiting状态,再用

    thread 线程号
    

    查看某个waiting线程的堆栈,发现在wait另外一个线程,然后拿到线程的16进制数转换10执行后

    thread 线程号
    

    在线程栈中找到究竟waiting什么鬼,最终发现是关于logback日志的,CachingDateFormatter类加了Sync

    JVM优化CachingDateFormatter.png
  2. 同时引入了JMC

    启动时加入jvm参数

    -Djava.net.preferIPv4Stack=true
    -XX:+FlightRecorder
    -XX:FlightRecorderOptions=stackdepth=128
    -XX:+UnlockDiagnosticVMOptions
    -XX:+DebugNonSafepoints
    

    然后命令开始搜集、结束

    jcmd 9955 JFR.start name=MyRecording settings=profile
    
    jcmd 9955 JFR.dump name=MyRecording filename=/home/yundiao/1736.jfr
    
    jcmd 9955 JFR.stop name=MyRecording
    

    然后将jfr文件用飞行器分析,结果和arthas分析一样

  3. 就是多线程写日志文件,导致IO竞争(原本直接在yml直接设置日志)

    • 异步日志。但会有溢出,重启时会丢失日志
    • 按线程写文件
  4. 选择按线程写文件解决IO竞争(改为引入logback.xml配置)

  5. logback有一个叫SiftingAppender的类,可以做按线程写日志,只需注入自定义Discriminator,日志名分发器

    public class ThreadDiscriminator extends ContextBasedDiscriminator {
        String KEY ="threadName";
        
        public String getDiscriminatingValue(ILoggingEvent event) {
            return event.getThreadName();
        }
        
        public String getDefaultValue() {
            return KEY;
        }
        
        public String getKey() {
            return KEY;
        }
        
        public void setKey(String key) {
            this.KEY = key;
        }
    }
    

    日志配置增加appender

    <appender name="frameworkthread" class="ch.qos.logback.classic.sift.SiftingAppender">
            <discriminator class="com.iwhalecloud.dlq.commonbean.ThreadDiscriminator">
                <key>threadName</key>
            </discriminator>
            <sift>
                <appender name="FILE-${threadName}" class="ch.qos.logback.core.rolling.RollingFileAppender">
                    <encoder>
                        <Encoding>UTF-8</Encoding>
                        <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS}[%c][%thread][%X{tradeNo}][%p]-%m%n</pattern>
                    </encoder>
                    <rollingPolicy
                            class="ch.qos.logback.core.rolling.SizeAndTimeBasedRollingPolicy">
                        <fileNamePattern>${log.path}/%d{yyyy-MM-dd,aux}/${threadName}-%d{yyyy-MM-dd}.%i.log
                        </fileNamePattern>
                        <maxFileSize>100MB</maxFileSize>
                        <maxHistory>3</maxHistory>
                    </rollingPolicy>
                </appender>
            </sift>
        </appender>
    
  6. 确实可以按线程写日志,然后再看RocketMq的TPS,竟然性能没所提升,还会下降。

    • 然后再用JMC分析发现这次在AppenderBase.doAppender(),然后查看源码,发现这个方法是sync的,而这个方法是我上面的SiftingAppender入口

      JMC分析结果
    • 分析原因,在我获取自己的SiftingAppender时,要经过父类的这个方法,所以肯定更低Tps

  7. 然后看接口Appender的实现类有两个基础的抽象

  • 非同步:UnsynchronizedAppenderBase,用了ThreadLocal

    • 同步:AppenderBase,用sync

    增加类UnsynchronizedSiftingAppenderBase extends UnsynchronizedAppenderBase

    创建类ParrelSiftingAppender extends UnsynchronizedSiftingAppenderBase

    修改SiftAction类,增加我的ParrelSiftingAppender的注册分支

    public class SiftAction extends Action implements InPlayListener {
        List<SaxEvent> seList;
    
        public SiftAction() {
        }
    
        public void begin(InterpretationContext ic, String name, Attributes attributes) throws ActionException {
            this.seList = new ArrayList();
            ic.addInPlayListener(this);
        }
    
        public void end(InterpretationContext ic, String name) throws ActionException {
            ic.removeInPlayListener(this);
            Object o = ic.peekObject();
            if (o instanceof SiftingAppender) {
                SiftingAppender sa = (SiftingAppender)o;
                Map<String, String> propertyMap = ic.getCopyOfPropertyMap();
                AppenderFactoryUsingJoran appenderFactory = new AppenderFactoryUsingJoran(this.seList, sa.getDiscriminatorKey(), propertyMap);
                sa.setAppenderFactory(appenderFactory);
            }
              //增加判断分支
    
        }
    
        public void inPlay(SaxEvent event) {
            this.seList.add(event);
        }
    
        public List<SaxEvent> getSeList() {
            return this.seList;
        }
    }
    
  1. 看TPS 提高了大概5倍左右,效果还行,再用jmc分析,然后我崩溃了,竟然还有,出现在类UnsynchronizedSiftingAppenderBase

    protected void append(E event) {
            if (this.isStarted()) {
                String discriminatingValue = this.discriminator.getDiscriminatingValue(event);
                long timestamp = this.getTimestamp(event);
              //竞争出现在这
                Appender<E> appender = (Appender)this.appenderTracker.getOrCreate(discriminatingValue, timestamp);
                if (this.eventMarksEndOfLife(event)) {
                    this.appenderTracker.endOfLife(discriminatingValue);
                }
    
                this.appenderTracker.removeStaleComponents(timestamp);
                appender.doAppend(event);
            }
        }
    
  2. 这不能忍,看一下源码,发现synchronized,getOrCreate是同步的。点进去看LinkedHashMap做lru,怪不得要加synchronized

  3. 然后开始修改appenderTracker

    • 增加AbstractConcurrentMapComponentTracker,参考AbstractComponentTracker
    • 增加ConcurrentMapAppenderTracker继承AbstractConcurrentMapComponentTracker
    • 修改UnsynchronizedSiftingAppenderBase使用ConcurrentMapAppenderTracker进行Appender管理
  4. 最终提高了10倍。终于结束

  5. 总结

    JVM调休logback多线程写日志
    1. TPS=0,内存2g->8g,gc回收器改为G1,TPS=0 -> TPS=几百
    2. 用arthas和JMC分析出是因为多线程写日志导致TPS低
    3. 首先直接用SiftingAppender进行分线程写日志,确实可以做到分线程写日志,但是观察TPS比之前更低
      • 原因:进入SiftingAppender前需要进入父类AppenderBase.doAppender(),这个是sync的,同步向上提高了,所以TPS比以前低很正常
    4. 查看Appender接口,发现有实现类UnSyncAppenderBase,所以参考SiftingAppender实现
      • ➕类UnSyncSiftingAppenderBase extends UnSyncAppenderBase
      • ➕类ParrelSiftingAppender extends UnSyncSiftingAppenderBase
      • 修改SiftAction,注册上我写的ParrelSiftingAppender
    5. 此时发现TPS提高了5倍左右,再用JMC分析,发现还有IO竞争
      • 原因:UnSyncSiftingAppenderBase类会调用AbstractComponentTracker的sync方法getOrCreate()
      • 因为AbstractComponentTracker用LinkedHashMap做LRU,LinkedHashMap非线程安全,➕sync正常
    6. 用ConcurrentMap替代LinkedHashMap
      • ➕类AbstractConcurrentMapComponentTracker
      • ➕类ConcurrentMapAppenderTracker extends AbstractConcurrentMapComponentTracker
      • 修改UnSyncSiftingAppenderBase类调用AbstractConcurrentMapComponentTracker的getOrCreate()
    7. TPS提高了10倍。
      • 原本业务中用到日志的地方都要修改,➕MDC.put("threadName", xxx)。
      • 自定义类ThreadDiscriminator继承ContextBasedDiscriminator就可以免去修改业务的所有日志的地方
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容