DSP kafka集群演化和遇到的问题

从一条千兆网线到四条

从单个RAID1盘到多个不做raid盘,吞吐量有所提高,但是磁盘容易不均衡,容易挂掉

因为业务的topic有大有小,而kafka一般是按partition个数均衡的,所以一般是预先分配好大的topic,让分布均衡,再接着用小的。

有出现过一个问题,一个topic的很多partition落在同一个盘上。

kafka同一机器内的磁盘没做容量的balance,所以容易倾斜。有时需要手动移动到其他盘。这时需要停掉那台机器的服务,再移动。更改元数据文件。

磁盘尽量比单个partition大很多倍,这样好分配

大的topic的partition数量尽量是总磁盘个数的倍数

数据有顺序要求的,需要写到同一个partition上

kafka只对磁盘和网卡要求高,cpu和内存等要求不高,所以集群扩容可以优先加网卡和磁盘大小

网卡的模式从mode0改为mode6,避免丢包

机器的最大文件句柄数要相应的调大

kafka 0.10.0.0有一个bug是kafka服务停掉后,log文件日期被刷新到最新的,无法过期删掉

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容