kafka压力测试说明书(九)

1 整体环境说明

1.1 硬件环境

1、 磁盘:SATA磁盘2块,磁盘阵列为RAID1

2、 CPU****:2个4核CPU。具体参数:Intel(R) Xeon(R) CPU E5405 @ 2.00GHz

3、 内存:8G(8*1G)

4、 网卡:1000Mb/s

1.2 软件环境

1、 kafka版本:kafka_2.11-0.11.0.3

2、 kafka集群数量:3

3、 zookeeper版本:zookeeper-3.4.12

4、 zookeeper集群数量:3

5、 zookeeper使用单独的集群,不使用kafka自带zookeeper

2 服务器自身瓶颈测试

由于kafka是的吞吐量特别大,所以先考虑集群服务器的自身瓶颈。如磁盘IO瓶颈。由于kafka做的集群所以需要相互传输数据,所以要考虑网卡瓶颈。

2.1 测试磁盘IO瓶颈

2.1.1 磁盘IO写入瓶颈

1、使用以下命令测试磁盘IO的写入瓶颈

# sync;time -p bash -c "(dd if=/dev/zero of=test.dd bs=1M count=20000)"

解释:在当前目录下创建一个test.dd的文件,写入20000个1M的数据。

2、使用iostat命令监测磁盘io情况。

使用命令

# iostat -x 1

解释:扩展查看io性能,每1秒钟刷新一次。

注意:如果没有iostat。请执行yum install sysstat –y命令进行安装iostat命令

3、结果展示

(1)磁盘写入IO结果

# sync;time -p bash -c "(dd if=/dev/zero of=test.dd bs=1M count=20000)"

记录了20000+0 的读入

记录了20000+0 的写出

20971520000字节(21 GB)已复制,221.314 秒,94.8 MB/秒

real 221.67

user 0.01

sys 21.20

磁盘写入IO为94.8 MB/秒

(2)iostat命令结果


关注wkB/s和%util两个参数

wkB/s:每秒写入设备的数据量(单位:KB)

%util:消耗在I/O请求中的CPU时间百分比(设备带宽利用率)。如果该值接近100%说明设备出现了瓶颈。

2.1.2 磁盘IO读取瓶颈

1、使用以下命令测试磁盘IO的读取瓶颈

# hdparm -tT --direct /dev/sda

解释:hdparm命令是显示与设定硬盘的参数。-t参数为评估硬盘的读取效率(不经过磁盘cache)。-T参数为评估硬盘的读取效率(经过磁盘cache)

注意:如果没有hdparm命令可以直接yum –y install hdparm即可

2、使用iostat命令监测磁盘io情况。

使用命令

# iostat -x 1

3、结果展示

# hdparm -tT --direct /dev/sda

/dev/sda:

 Timing O_DIRECT cached reads: 326 MB in 2.00 seconds = 162.83 MB/sec

 Timing O_DIRECT disk reads: 322 MB in 3.01 seconds = 106.88 MB/sec

解释:经过磁盘cache的磁盘读取为162.83 MB/sec

未经过磁盘cache的磁盘读取为106.88 MB/sec

2.2 磁盘性能总结

以我的服务器SATA磁盘2块,磁盘阵列为RAID1的配置。磁盘写入数据瓶颈为94.8 MB/秒。读取数据瓶颈经过磁盘cache的磁盘读取为162.83 MB/秒,未经过磁盘cache的磁盘读取为106.88 MB/秒。如果kafka集群的写入速度和读取数据的速度达到这个数值,或者iostat的输出结果%util的值接近100%。说明磁盘已经到达一个瓶颈。会影响压测数据的准确性。

2.3 网卡性能总结

我的网卡是千兆网卡,传输数据可以达到1000Mb/s,由于我们使用的单位都为MB/s。所以把Mb换算成MB。1000Mb/s=125MB/s。也就是说传输熟读到达125MB/s的时候是网卡的瓶颈。会影响压测数据的准确性。

3 Kafka测试前期准备

3.1 影响测试结果配置分析

Kafka的性能测试主要测试kafka的吞吐量,kafka吞性能为生产者在向kafka传入消息时的写入量,kafka的吐性能为消费者在kafka集群中消费的能力,也就是读取量。

3.1.1 Borker相关

Kafka的borker是kafka集群的缓存代理,消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。下面是相关broker的参数分析。

1、num.partiton

topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。

Partition的数量选取也会直接影响到Kafka集群的吞吐性能。例如我们接口如果开了多个线程去消费kafka的数据,当Partition数量相对于流入流出的数据量显得较少,或由于业务逻辑和Partition数量没有匹配好造成个别Partition读写数据量大,大量的读写请求集中落在一台或几台机器上时就会很影响效率。

2、Default.replication.factor

Replication参数为kafka集群副本数。这个参数决定了kafka的高可用性。也决定了kafka的吞吐量。此数据运算和broker个数和broker上的分区数量都有关系。正常broker为3replication设置为1最好。因为3个节点的集群可以宕机一台可以继续工作,而3个replication可以保证宕机两个节点正常工作。所以多replication会造成资源浪费。如果数据不需要持久化和数据不重要并且写入量特别大的话,可以考虑replication为0。

3、num.network.thread

用于接收并处理网络请求的线程数,默认为3。其内部实现是采用Selector模型。启动一个线程作为Acceptor来负责建立连接,再配合启动num.network.threads个线程来轮流负责从Sockets里读取请求,一般无需改动,除非上下游并发请求量过大。

4、写入数据每条大小

'{"indexdiy":"catalina","input_type":"log","message":"[2018-09-26 12:30:13,030] [org.apache.tomcat.util.net.NioSelectorPool] [INFO] [Using a shared selector for servlet write/read]","offset":17600578,"project_tag":"catalina","source":"/opt/tomcat7/logs/catalina.out","type":"log"}'

以上面一条日志为例。此条日志大小为283B。所以我们测试基准为200B和500B。

3.1.2 Consumer相关

Consumer为kafka的消费者,同一个topic消费者越多越快,但是需要注意的是,消费者的数量不能超过topic的分区数量,因为每个topic的每个分区只能被一个消费者消费,多出来的消费者会无信息可消费。导致资源浪费。

3.2 测试命令详解

1、创建topic命令

# ./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test -7

--replication-factor:指定副本个数
--partitions:指定分区个数
--topic:指定topic名

2、查看topic命令

# ./kafka-topics.sh --zookeeper 10.10.4.11:2181 --list

3、查看指定topic的详细内容

# ./kafka-topics.sh --zookeeper 10.10.4.11:2181 --topic test_property --describe

5、 写入数据

# ./kafka-producer-perf-test.sh --num-records 10000000 --topic test-ref-9 --record-size 500 --throughput 100000 --producer-props bootstrap.servers=10.10.4.11:9092,10.10.4.12:9092,10.10.4.13:9092

--num-records:记录的条数
--topic:指定topic的名字
--record-size:一条记录大小。
--throughput:吞吐数量
--producer-props bootstrap.servers=IP:9092,IP:9092,IP:9092:指定kafka集群

注意:-- throughput参数为写入数量,如果结果接近此数量,建议*10再测试一次。因为和此结果相近说明kafka没有到达瓶颈。

6、消费数据

# ./kafka-consumer-perf-test.sh --messages 10000000 --threads 3 --zookeeper localhost:2181 --num-fetch-threads 3 --topic test-ref-8

--messages:指定消费条目数
--threads:指定线程数
--num-fetch-threads 3:指定消费人数

注意:执行以上命令在kafka****家目录下的/bin****下执行命令

4 Kafka写入性能测试

在测试kafka写入性能测试的时候一边检测系统的cpu使用情况、内存使用情况和磁盘IO情况。

4.1 测试kafka的partition参数

4.1.1 创建不同partition的topic并写入数据1000万条数据。

1、 创建一个副本,partition分别为1、3、6、12的topic分别为test-0、test-1、test-2、test-3

2、 向topic内写入1000万条500B的数据,一次写入100万条,replication为1。并且开启另一个窗口使用iostat命令实时监控磁盘IO情况。

4.1.2 测试结果

1、写入数据如下表

3、 磁盘IO情况

由于磁盘IO瓶颈在94.8 MB/秒得出的数据只有partition为1的情况下在60MB/秒。所以大多数情况下%util处于一个100%的状态。在partition为1的情况下是隔两秒会出现%util值为100%。


4.2 kafka的partition参数总结

由于压力测试没有到达kafka的瓶颈,而是到达了服务器的瓶颈。所以以上数据仅供参考。如想测试更准确的数据。需要性能更好的磁盘来做测试。

在其他数据相同,而partition不同的时候。结论是partition越多写入速度越快。但是partition数量越多会照成kafka集群可用性越差。所以建议,在实际生产环境。有多少个broker,partition数就为多少。这样可以保证kafka集群的高可用性。可以保证n-1/2个节点宕机而不影响kafka集群使用。

4.3 测试Kafka的replication参数

4.3.1 创建不同replication的topic并写入数据1000万条数据。

1、创建一个副本,replication分别为2和3的topic为test-4、test-5。和之前创建的test-1。一起做测试

2、向topic内写入1000万条500B的数据,一次写入100万条,partition为3(因为我的broker是3个)。并且开启另一个窗口使用iostat命令实时监控磁盘IO情况。

4.3.2 测试结果

1、写入数据如下表

2、磁盘IO情况

由于磁盘IO瓶颈在94.8 MB/秒得出的数据只有replication为3的情况下在70MB/秒。所以大多数情况下%util处于一个100%的状态。在replication为3的情况下也是一直%util值为100%。


4.4 kafka的replication参数总结

由于压力测试没有到达kafka的瓶颈,而是到达了服务器的瓶颈。所以以上数据仅供参考。如想测试更准确的数据。需要性能更好的磁盘来做测试。

在其他数据相同,而replication不同的时候。结论是replication越少写入速度越快。但是replication数量越少会照成kafka集群可用性越差。所以建议,在实际生产环境。Kafka集群broker为3的时候replication为1,可以保证一台节点宕机集群可用。其他架构需继续深入研究。

4.5 测试Kafka的network.thread参数

1、 修改配置文件network.thread的参数为1,重启kafka进行对test-1进行写入测试。

2、 和之前test-1的数据进行对比。

4.5.1 测试结果

1、写入数据如下


2、磁盘IO情况


磁盘已经到达瓶颈。

4.6 Kafka的network.thread参数总结

从结果可看出kafka的network.thread参数越多写入速度越快。但是增加的非常不明显。除非写入速度要求极高的情况,或者机器性能足够好。其他情况建议使用默认值3即可。

4.7 测试kafka的单条数据大小参数

1、 修改命令--record-size参数。

2、 同往test-1里写入进行测试

4.7.1 测试结果

1、写入数据如下


2、磁盘IO情况


磁盘已经到达瓶颈。

4.8 Kafka的单条数据大小参数总结

从结果显示证明如果写入kafka的数据量单条越小,传输速度越快。正常我们的日志大约在300B每条,最大为500B每条。所以我们按照最大的数据量进行传输来测试写入量。

5 Kafka写入数据测试整体总结

在kafka写入数据的时候,主要参数在于partition的数量、replication的数量及单条数据的大小。对于线程数对写入速度并不是特别影响。在测试的时候观察cpu使用情况和内存使用情况。Kafka在有写入的时候对于本身的内存要求不大,jvm设置为1G就可以,但是kafka机制是kafka先写入系统页缓存内,所以需要的内存比较大。不建议和使用内存较大的应用部署在一台机器上,如elasticsearch。如果服务器内存较大,建议kafka使用4G左右jvm。Kafka对cpu要求不是特别大。一般两核以上就可以。

6 Kafka读取性能测试

在测试kafka读取性能测试的时候一边检测系统的cpu使用情况、内存使用情况和磁盘IO情况。

注意事项:写入数据后等一段时间再进行测试,因为可能有些数据还在内存中,所以看不出磁盘IO的瓶颈。

6.1 测试kafka的partition参数

1、由于之前已经写入1000万数据,可以直接在test-0、test-1、test-2、test-3的topic 并且Consumer为3、线程为3。直接读取这些数据进行测试。

6.1.1 测试结果

1、读取数据如下表

2、磁盘IO情况

磁盘IO有时会到达瓶颈,但是次数不多。


6.2 Kafka的partition参数总结

压测结果证明partition越多速度越快,实际情况我们建议和之前一样。有多少个broker,partition数就为多少。这样可以保证kafka集群的高可用性。可以保证n-1/2个节点宕机而不影响kafka集群使用。详细情况kafka写入测试的partition总结。

6.3 测试Kafka的consumer参数

以test1为测试topic。分别使用1、3、6个consumer来进行读取测试。

6.3.1 测试结果

1、写入数据如下表


2、磁盘IO情况

磁盘IO有时会到达瓶颈,但是次数不多。


3、 使用软件KafkaOffsetMonitor监控不同consumer的滞留情况lag为滞留信息条目数

(1)一个consumer三个partition


(2)三个consumer三个partition


(3)三个consumer六个partition


6.4 kafka的consumer参数总结

从测试结果可以看出,consumer这个参数不是越多越好,而是和topic的partition相同时性能最优,如果consumer大于partition的时候,测试开始会报错,内容大意为,有xx个consumer是没有分区可以消费的。这个参数可以根据项目本身去定义。但是不要超过topic的partition数目。但是consumer少会有消息滞留现象。

6.5 测试Kafka的线程参数

通过test-1 topic进行测试。

6.5.1 测试结果

1、 写入数据如下表


2、 磁盘IO


6.6 kafka的线程参数总结

从测试结果来看线程数并不影响kafka的写入速度。

7 Kafka读取性能总结

Kafka写入性能主要在于partition参数和consumer参数。Partition参数和的具体值可以直接参考写入性能总结,这里不再赘述。Consumer的性能测试来看,只要不多于partition的数量都是可以的。如果broker的数量比较多,建议多设置几个。

Kafka读取对于replication无关,因为replication不参与读取,只做容灾备份的。对线程数也没那么大的关系。

读取数据对cpu负载不是特别高,2核以上够用,如果是实时读取数据,对磁盘来说性能要求并不高,因为短时间内,一些数据都是在内存里可以直接取到的。

8 Kafka整体性能总结

对于ELK集群来说,整体性能还是比较好的,一般影响测试结果都是磁盘的瓶颈造成的。对于磁盘来说用SATA磁盘就可以,因为kafka的写入读取机制都是顺序写入、读取的。SATA顺序读写速度大约在53MB/s和SSD的顺序读取都是差不多的。如果做RAID建议做RAID5。

Kafka对于CPU和内存要求不是特别大,一般CPU建议在8核以上,内存建议在8G以上。如果服务器性能好kafka的jvm建议设置4G。

Kafka在我的测试环境下,broker为3的集群情况下。Replication参数为1,partition参数为3,线程数为3,consumer数为3,输入读取的文件大小为500B。整体kafka的写入速度为242665条/秒,传输大小为115.71 MB/秒。读取速度为241390条/秒,传输大小为115MB/秒。

但是以上数据几乎都是遇到了磁盘IO的瓶颈,数据不是特别准确,希望可以有更好的环境,对kafka进行更全面的测试。

最后没有贴上整体数据

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容