Skywalking ContextManager.activeSpan抛NullPointerException的bug

触发bug的条件

  1. 当前TraceSegment创建的太多了span(超过参数agent.span_limit_per_segment的配置, 默认300)之后,执行ContextManager.createExitSpan的时候会创建NoopExitSpan
  2. grpc agent 对远程调用拦截的时候会有两个Interceptor生效,也就是说会执行两次ContextManager.CreateExitSpan和ContextManager.StopSpan

具体原因

对于正常的ExitSpan来说,第二次执行createExitSpan的时候,如果发现当前栈的头位置已经是ExitSpan就不再创建新的,而是对这个ExitSpan调用start操作(stackDepth++)。在调用stopSpan的时候, 会检查ExitSpan的finish(stackDepth-- == 0),如果为true,才pop。所以只会pop一次,没有问题

如果因为Span太多,超过限制,创建的是NoopExitSpan的时候,第二次执行createExitSpan的时候,因为NoopExitSpan的isExit方法返回true,所以也只会创建一个Span,第二次的时候只会调用NoopExitSpan的start方法(实现为空)。但是在调用stopSpan的时候,不会对NoopExit,而是直接pop,所以就会pop出两个span,其中一个span是别的拦截器的span。

这样就会导致接下来当前线程的span都对应不上了, 后面的拦截器调用stopSpan的时候就会因为找不到span而抛出空指针异常

ERROR io.grpc.internal.SerializingExecutor - Exception while executing runnable io.grpc.internal.ServerImpl$JumpToApplicationThreadServerStreamListener$1HalfClosed@5de15ec
java.lang.NullPointerException: null
  at org.apache.skywalking.apm.agent.core.context.ContextManager.activeSpan(ContextManager.java:161)
  at org.apache.skywalking.apm.agent.core.context.ContextManager.stopSpan(ContextManager.java:165)
  at org.apache.skywalking.apm.plugin.babyfs.grpc.v1.CallServerInterceptor$ServerCallListener.onHalfClose(CallServerInterceptor.java:173)
  at io.grpc.internal.ServerCallImpl$ServerStreamListenerImpl.halfClosed(ServerCallImpl.java:283)
  at io.grpc.internal.ServerImpl$JumpToApplicationThreadServerStreamListener$1HalfClosed.runInContext(ServerImpl.java:710)
  at io.grpc.internal.ContextRunnable.run(ContextRunnable.java:37)
  at io.grpc.internal.SerializingExecutor.run(SerializingExecutor.java:123)
  at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
  at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
  at java.lang.Thread.run(Thread.java:745)

具体过程

首先是在测试环境中发现偶尔会有上面的空指针异常,一开始是怀疑某一个agent的拦截器会不会因为bug没有创建Span,就直接关闭了Span,导致对应不上的。因为agent 的插件有很多,很难定位是哪个插件的原因,幸好后来继续看日志的时候发现一个规律。在发生在这个异常之前,同一个线程中都会报如下warn:

WARN 2019-08-09 17:54:31:190 http-nio-10011-exec-1 TracingContext :  More than 300 spans required to create 
java.lang.RuntimeException: Shadow tracing context. Thread dump
    at org.apache.skywalking.apm.agent.core.context.TracingContext.isLimitMechanismWorking(TracingContext.java:554)
    at org.apache.skywalking.apm.agent.core.context.TracingContext.access$100(TracingContext.java:47)
    at org.apache.skywalking.apm.agent.core.context.TracingContext$5.doProcess(TracingContext.java:327)
    at org.apache.skywalking.apm.agent.core.dictionary.PossibleFound.doInCondition(PossibleFound.java:50)
    at org.apache.skywalking.apm.agent.core.context.TracingContext.createExitSpan(TracingContext.java:323)
    at org.apache.skywalking.apm.agent.core.context.ContextManager.createExitSpan(ContextManager.java:122)
    at org.apache.skywalking.apm.plugin.grpc.v1.BlockingCallInterceptor.beforeMethod(BlockingCallInterceptor.java:42)
    at org.apache.skywalking.apm.agent.core.plugin.interceptor.enhance.StaticMethodsInter.intercept(StaticMethodsInter.java:76)
    at io.grpc.stub.ClientCalls.blockingUnaryCall(ClientCalls.java)

后来在开发环境直接做实现,发现只要创建的span数量超过300,就能稳定复现文章开头的异常, 所以很可能跟这个是有关系的。继续看CreateExitSpan的代码,看到CreateExitSpan的时候会先判断当前已经在ExitSpan中的话就直接调用ExitSpan的start方法,start方法中会对stackDepth++, 而在StopSpan的时候,对于ExitSpan会先执行finish判断(stackDepth-- == 0),如果为true,才执行pop,逻辑完全没问题

AbstractSpan exitSpan;
        AbstractSpan parentSpan = peek();
        if (parentSpan != null && parentSpan.isExit()) {
            exitSpan = parentSpan;
        } else {
            final int parentSpanId = parentSpan == null ? -1 : parentSpan.getSpanId();
            exitSpan = (AbstractSpan)DictionaryManager.findNetworkAddressSection()
                .find(remotePeer).doInCondition(
                    new PossibleFound.FoundAndObtain() {
                        @Override
                        public Object doProcess(final int peerId) {
                            if (isLimitMechanismWorking()) {
                                return new NoopExitSpan(peerId);
                            }

                            return DictionaryManager.findEndpointSection()
                                .findOnly(segment.getServiceId(), operationName)
                                .doInCondition(
                                    new PossibleFound.FoundAndObtain() {
                                        @Override
                                        public Object doProcess(int operationId) {
                                            return new ExitSpan(spanIdGenerator++, parentSpanId, operationId, peerId);
                                        }
                                    }, new PossibleFound.NotFoundAndObtain() {
                                        @Override
                                        public Object doProcess() {
                                            return new ExitSpan(spanIdGenerator++, parentSpanId, operationName, peerId);
                                        }
                                    });
                        }
                    },
                    new PossibleFound.NotFoundAndObtain() {
                        @Override
                        public Object doProcess() {
                            if (isLimitMechanismWorking()) {
                                return new NoopExitSpan(remotePeer);
                            }

                            return DictionaryManager.findEndpointSection()
                                .findOnly(segment.getServiceId(), operationName)
                                .doInCondition(
                                    new PossibleFound.FoundAndObtain() {
                                        @Override
                                        public Object doProcess(int operationId) {
                                            return new ExitSpan(spanIdGenerator++, parentSpanId, operationId, remotePeer);
                                        }
                                    }, new PossibleFound.NotFoundAndObtain() {
                                        @Override
                                        public Object doProcess() {
                                            return new ExitSpan(spanIdGenerator++, parentSpanId, operationName, remotePeer);
                                        }
                                    });
                        }
                    });
            push(exitSpan);
        }
        exitSpan.start();
        return exitSpan;

public ExitSpan start() {
        if (++stackDepth == 1) {
            super.start();
        }
        return this;
    }

 @Override
    public boolean finish(TraceSegment owner) {
        if (--stackDepth == 0) {
            if (this.operationId == DictionaryUtil.nullValue()) {
                this.operationId = (Integer)DictionaryManager.findEndpointSection()
                    .findOrPrepare4Register(owner.getServiceId(), operationName, this.isEntry(), this.isExit())
                    .doInCondition(
                        new PossibleFound.FoundAndObtain() {
                            @Override public Object doProcess(int value) {
                                return value;
                            }
                        },
                        new PossibleFound.NotFoundAndObtain() {
                            @Override public Object doProcess() {
                                return DictionaryUtil.nullValue();
                            }
                        }
                    );
            }
            return super.finish(owner);
        } else {
            return false;
        }
    }

同时在创建ExitSpan的时候,会检查isLimitMechanismWorking(如果已经span数量已经超过agent.span_limit_per_segment的配置就会返回true),如果为true就返回NoopExitSpan,问题就出在NoopExitSpan上面了。因为NoopExitSpan的isExit方法也返回true,也被认为是一个ExitSpan。所以如果在一个远程调用中如果被执行两次CreateSpan,只会有一个NoopExitSpan被创建出来,第二次的时候只会执行NoopExitSpan的start方法,而NoopExitSpan的start方法是空的。stopSpan也会被执行两次,两次都会执行pop操作,就导致pop出来了一个不属于当前远程调用的span,该tracesegment在后面的stopSpan方法就会因为找不到span而抛出异常。

解决办法

在createExitSpan之前先检查是否达到限制,如果达到限制,直接创建NoopExitSpan并push进stack进去,然后返回

@Override
    public AbstractSpan createExitSpan(final String operationName, final String remotePeer) {
        if (isLimitMechanismWorking()) {
            NoopExitSpan span = new NoopExitSpan(remotePeer);
            return push(span);
        }

        AbstractSpan exitSpan;
        AbstractSpan parentSpan = peek();
        if (parentSpan != null && parentSpan.isExit()) {
            exitSpan = parentSpan;
        }
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容