登录注册写文章

一次完整的性能调优过程

一次完整的性能调优过程

1.业务背景

数据处理链路

源端：kafka
接入端：ETL
处理端1：服务1
处理的2：服务2
存储端：clickhouse

系统某次升级后，发现数据一直延迟，ETL cpu跑不上去，服务2一直高内存，fullgc并且oom离线。

2.排查过程

2.1 ETL问题排查以及调优

将ETL发送到服务1的链路断开，直接丢弃数据，定位ETL性能问题
处理链路：kafka -> 拉取线程 -> ringbuffer1 -> Deal线程处理 -> ringbuffer2 -> Send线程
发现调大一次拉取的max.poll.records，吞吐量会提升，但是再高就会容易发生oom，吞吐量急剧下降
发现Deal线程要么卡在了上游ringbuffer1，此时调大max.poll.records和拉取线程数以及ringbuffer1大小有用
发现Deal线程要么卡在了下游ringbuffer2，此时调大Send线程和ringbuffer2大小有用
但是调得太大，就会容易发生fullgc和oom
最后在拉取线程的地方加了一个操作，对拉取的数据做切分，然后内存就变得可控了，并且参数可调空间就变得很大，性能提升了两倍多

2.2 服务1

发现内存一直包超限，并且发送下游一直失败，在重发
将内存从3g调整为8g
去掉了抽取无用指标
指标加了batch processor，进行了打包聚合压缩
扩展nginx，并且将8台流量打到新的nginx上，保留老的7台走老的nginx

2.3 服务2

服务2一直会发生kafka堆外内存不够，发现堆外内存默认参数1g不合理，直接去掉了
通过dump oom发现服务内存占用大头在发送指标的线程上，很多线程持有400M的数据
将该线程从100向下调小到50
在压测时发现有一个组件被打挂了，然后排查该组件时发现，一直有entitiy.service查询，统计出有600次/s
经排查是该组件发起的查询，并且是空值查询
处理掉空值查询后，服务正常

2.4 ck-consumer参数调优

针对指定表，调优的处理线程数和攒批大小，提高入库吞吐量。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

一次看完28个关于ES的性能调优技巧，很赞，值得收藏！
因为总是看到很多同学在说Elasticsearch性能不够好、集群不够稳定，询问关于Elasticsearch的调...
程序员白楠楠阅读 804评论 0赞 1
JVM性能调优（4） —— 性能调优工具
来源：博客园作者：bojiangzhou[https://www.cnblogs.com/chiangchou/...
小郭子阅读 875评论 0赞 1
(十一)JVM成神路之性能调优篇：GC调优、Arthas工具详解及各场景下线上最佳配置推荐
引言 “在当前的互联网开发模式下，系统访问量日涨、并发暴增、线上瓶颈等各种性能问题纷涌而至，性能优化成为了现时代...
竹子爱熊猫阅读 3,114评论 0赞 4
JVM 性能调优之预估调优与问题排查
JVM 调优分类调优是一个很大的概念，简单说就是把系统进行优化，但是站在一个系统的角度，能够干的事情太多了，我们...
Curtain_call阅读 806评论 0赞 1
JVM原理以及性能调优
GC和GC Tuning GC的基础知识 1.什么是垃圾 C语言申请内存：malloc freeC++： new ...
陈先森mansplain阅读 246评论 0赞 0

1赞2赞

赞赏

手机看全文