springboot整合skywalking

Skywalking主要分为oap、webapp和agent三部分,xxxxxx:xxxxx/hmall/skywalking-ui分别用于汇总数据和展示,这两块共同组成了Skywalking的平台;agent是探针,部署在需要收集数据的应用服务器上,并将数据同步到Skywalking的平台

记录一下一个坑,之前使用的是6.5.0的skywalking,由于一些原因需要重装oap和webapp,想偷个懒,oap和webapp装8.x,agent还是用原来的6.5.0,结果agent的日志就报错了,说找不到注册的方法。所以还是建议使用同一版本的SW,减少不必要麻烦。


下面开始正题:现在拟搭建oap和webapp在虚机,agent在容器使用,oap和webapp在同一台虚拟机运行:

1.配置oap(暂时使用单机,用ES作为存储)

cluster:
  selector: ${SW_CLUSTER:standalone}
  standalone:

storage:
  selector: ${SW_STORAGE:elasticsearch}
  elasticsearch:
    clusterName: esCluster
    nameSpace: ${SW_NAMESPACE:""}
    clusterNodes: ${SW_STORAGE_ES_CLUSTER_NODES:xxx.xx.xx.xx:9200}  #你的ES地址
    protocol: ${SW_STORAGE_ES_HTTP_PROTOCOL:"http"}
    user: ${SW_ES_USER:"xxxxxx"}  #ES账号
    password: ${SW_ES_PASSWORD:"xxxx"}  #ES密码
    trustStorePath: ${SW_STORAGE_ES_SSL_JKS_PATH:""}
    trustStorePass: ${SW_STORAGE_ES_SSL_JKS_PASS:""}
    secretsManagementFile: ${SW_ES_SECRETS_MANAGEMENT_FILE:""} # Secrets management file in the properties format includes the username, password, which are managed by 3rd party tool.
    dayStep: ${SW_STORAGE_DAY_STEP:1} # Represent the number of days in the one minute/hour/day index.
    indexShardsNumber: ${SW_STORAGE_ES_INDEX_SHARDS_NUMBER:1} # Shard number of new indexes
    indexReplicasNumber: ${SW_STORAGE_ES_INDEX_REPLICAS_NUMBER:1} # Replicas number of new indexes
    # Super data set has been defined in the codes, such as trace segments.The following 3 config would be improve es performance when storage super size data in es.
    superDatasetDayStep: ${SW_SUPERDATASET_STORAGE_DAY_STEP:-1} # Represent the number of days in the super size dataset record index, the default value is the same as dayStep when the value is less than 0
    superDatasetIndexShardsFactor: ${SW_STORAGE_ES_SUPER_DATASET_INDEX_SHARDS_FACTOR:5} #  This factor provides more shards for the super data set, shards number = indexShardsNumber * superDatasetIndexShardsFactor. Also, this factor effects Zipkin and Jaeger traces.
    superDatasetIndexReplicasNumber: ${SW_STORAGE_ES_SUPER_DATASET_INDEX_REPLICAS_NUMBER:0} # Represent the replicas number in the super size dataset record index, the default value is 0.
    bulkActions: ${SW_STORAGE_ES_BULK_ACTIONS:1000} # Execute the async bulk record data every ${SW_STORAGE_ES_BULK_ACTIONS} requests
    syncBulkActions: ${SW_STORAGE_ES_SYNC_BULK_ACTIONS:50000} # Execute the sync bulk metrics data every ${SW_STORAGE_ES_SYNC_BULK_ACTIONS} requests
    flushInterval: ${SW_STORAGE_ES_FLUSH_INTERVAL:10} # flush the bulk every 10 seconds whatever the number of requests
    concurrentRequests: ${SW_STORAGE_ES_CONCURRENT_REQUESTS:2} # the number of concurrent requests
    resultWindowMaxSize: ${SW_STORAGE_ES_QUERY_MAX_WINDOW_SIZE:10000}
    metadataQueryMaxSize: ${SW_STORAGE_ES_QUERY_MAX_SIZE:5000}
    segmentQueryMaxSize: ${SW_STORAGE_ES_QUERY_SEGMENT_SIZE:200}
    profileTaskQueryMaxSize: ${SW_STORAGE_ES_QUERY_PROFILE_TASK_SIZE:200}
    advanced: ${SW_STORAGE_ES_ADVANCED:""}

注意,有些版本的SW是需要使用ES7的,这个配置文件有专门的elasticsearch7配置,且使用7.x.x版本的es需要另外下载apache-skywalking-bin-es7.tar.gz包,详见官方github

出于性能考虑,官方推荐在ES配置新增:

thread_pool.index.queue_size: 1000 #只适用于ElasticSearch 6
thread_pool.write.queue_size: 1000 #适用于ElasticSearch 6 and 7
index.max_result_window: 1000000 #trace页面出错时记得设置

PS:如果没有ES的es_keystore.jks,需要注释以下配置:

#    trustStorePath: ${SW_SW_STORAGE_ES_SSL_JKS_PATH:"../es_keystore.jks"}
#    trustStorePass: ${SW_SW_STORAGE_ES_SSL_JKS_PASS:""}

2.webapp配置:
位置在/webapp/webapp.yml

3.启动oap和webapp:
在/bin目录下运行sh startup .sh

4.agent使用:
将agent文件夹拷贝到需要监控的应用所在服务器,配置agentagent.config

# 不同的namespace会导致调用链路追踪中断
agent.namespace=${SW_AGENT_NAMESPACE:xxx}

# 页面上展示的service的名称,也可以通过-Dskywalking.agent.service_name=xxx指定
agent.service_name=${SW_AGENT_NAME:xxxxx}

# 平台的调用地址,也可以通过-Dskywalking.collector.backend_service=127.0.0.1:80指定
collector.backend_service=${SW_AGENT_COLLECTOR_BACKEND_SERVICES:1xxx.xxx.xxx.xxx:11800}

# 忽略指定后缀的请求收集
agent.ignore_suffix=${SW_AGENT_IGNORE_SUFFIX:.jpg,.jpeg,.js,.css,.png,.bmp,.gif,.ico,.mp3,.mp4,.html,.svg}


# 每3秒的采样率,负数代表100%
agent.sample_n_per_3_secs=${SW_AGENT_SAMPLE:-1}

将agent打成镜像供拉取Dockerfile:

FROM busybox:latest
ENV LANG=C.UTF-8
RUN set -eux && mkdir -p /opt/skywalking/agent/
ADD agent/ /opt/skywalking/agent/
WORKDIR /

再运行打镜像的命令:在Dockerfile所在目录运行docker build -t 名称

如果需要动态配置,可以在k8s部署yaml加上环境变量,且在需要监控的应用(java)打镜像的dockerfile加:

FROM java:8
VOLUME /tmp
ARG JAR_FILE
ADD target/${JAR_FILE} app.jar
ENTRYPOINT exec java $JAVA_OPTS -Dapp.id=$APP_ID \
-javaagent:/opt/skywalking/agent/skywalking-agent.jar \
-Dskywalking.agent.service_name=$APP_ID \
-Dskywalking.collector.backend_service=$SKYWALKING_ADDR 

最后查看dashboard,默认8080端口。地址为装oap和webapp的主机ip:8080

基本流程:

1.agent收集trace(在skywalking中,一个trace由多个tracesegment构成,一个tracesegment由多个 span 构成的,span可理解为当前所在的一个对象,如果调用两一个服务,那另一个服务就是新的一个span)

一次调用过程,每个traceId都是一致的,在非跨线程/进程情况下(在同一个线程中),children通过parentSpanId关联父span的spanId,就像一个链条一样把一条链路给串起来,如果是跨线程/进程,又会创建出一个新的链条,这时就用 refs 把这几段链条给接连接起来。(为了标识出 children 的父亲到底是谁,使用属性 refs,关联上父节点的所有 ID 信息)


image.png

相同颜色的小球在同一个线程中 , 在同一个线程中 的 segmentId 都是相同的,使用spanId以及parentSpanId去连接链路,线程、进程中不同的链路使用refs去连接,同时多个线程链路组成一个trace,他们的 traceID都是相同的。总结一下:

  • spanId : 同一个线程中唯一, 从0始,按照调用链路从0递增
  • parentSpanId : 在同一个线程的链路中,用来连接 span
  • segmentId : 同一个 线程链路中,这个值都是相同的,不同线程链路中 这个值不同
  • traceId : 在一个 链路 中 traceId 唯一

agent里自带插件mvc-annotation-commons,会去代理有@requestMapping注解的方法:

public InstanceMethodsInterceptPoint[] getInstanceMethodsInterceptPoints() {
        return new InstanceMethodsInterceptPoint[] {
            new DeclaredInstanceMethodsInterceptPoint() {
                @Override
                public ElementMatcher<MethodDescription> getMethodsMatcher() {
                    return byMethodInheritanceAnnotationMatcher(named("org.springframework.web.bind.annotation.RequestMapping"));
                }

                @Override
                public String getMethodsInterceptor() {
                    return "org.apache.skywalking.apm.plugin.spring.mvc.commons.interceptor.RequestMappingMethodInterceptor";
                }

                @Override
                public boolean isOverrideArgs() {
                    return false;
                }
            },
            new DeclaredInstanceMethodsInterceptPoint() {
                @Override
                public ElementMatcher<MethodDescription> getMethodsMatcher() {
                    return byMethodInheritanceAnnotationMatcher(named("org.springframework.web.bind.annotation.GetMapping"))
                        .or(byMethodInheritanceAnnotationMatcher(named("org.springframework.web.bind.annotation.PostMapping")))
                        .or(byMethodInheritanceAnnotationMatcher(named("org.springframework.web.bind.annotation.PutMapping")))
                        .or(byMethodInheritanceAnnotationMatcher(named("org.springframework.web.bind.annotation.DeleteMapping")))
                        .or(byMethodInheritanceAnnotationMatcher(named("org.springframework.web.bind.annotation.PatchMapping")));
                }

                @Override
                public String getMethodsInterceptor() {
                    return "org.apache.skywalking.apm.plugin.spring.mvc.commons.interceptor.RequestMappingMethodInterceptor";
                }

                @Override
                public boolean isOverrideArgs() {
                    return false;
                }
            }
        };
    }

将有注解的方法加上代理方法RequestMappingMethodInterceptor,主要去新增span。之后通过生产-消费模型,将产生的span对象们通过GRPC批量发送。
2.agent发送trace给oap(controller)
3.oap接收并构建
4.oap将数据持久化(ES/H2等)


以下是运行时候出现的一些问题:
1.skywalking运行一段时间后,发现没有新的数据显示
首先查看日志:


2021-02-18 02:27:51,673 - org.apache.skywalking.oap.server.library.server.grpc.GRPCServer - 118 [grpc-default-worker-ELG-3-3] WARN  [] - Grpc server thread pool is full, rejecting the task

Grpc线程池满了,什么意思呢?可以理解为oap服务的吞吐量太弱,存储性能跟不上,最简单的方法就是增加集群数量,如果不行则设置:
默认grpc server的线程池大小是4cpu数,排队队列长度是10000,可以调整这两个参数大小:定位到application.yml文件。在core的default下增加gRPCThreadPoolSize: 默认是4倍的cpu,这里可以调高,例如8核默认是48=32,可以调成40或更大gRPCThreadPoolQueueSize:默认是10000,可以调高


参考:
https://www.jianshu.com/p/4f4c182bcbd8
https://www.jianshu.com/p/8b9aad4210c5
https://juejin.cn/post/6844903556772954125#heading-11
https://blog.csdn.net/u010928589/article/details/106542794
https://www.cnblogs.com/kebibuluan/p/13153819.html
https://my.oschina.net/osgit/blog/4558674 (一些skywalking运行时的问题)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容