合理评估flink的并行度

Flink 任务并行度合理行一般根据峰值流量进行压测评估，并且根据集群负载情况留一定量的 buffer 资源

1.⭐ 如果数据源已经存在，则可以直接消费进行测试

2.⭐ 如果数据源不存在，需要自行造压测数据进行测试

1.⭐ source 并行度配置：以 kafka 为例，source 的并行度一般设置为 kafka 对应的 topic 的分区数

2.⭐ transform（比如 flatmap、map、filter 等算子）并行度的配置：这些算子一般不会做太重的操作，并行度可以和 source 保持一致，使得算子之间可以做到 forward 传输数据，不经过网络传输

3.⭐ keyby 之后的处理算子：建议最大并行度为此算子并行度的整数倍，这样可以使每个算子上的 keyGroup 是相同的，从而使得数据相对均匀 shuffle 到下游算子，如下图为 shuffle 策略

4.⭐ sink 并行度的配置：sink 是数据流向下游的地方，可以根据 sink 的数据量及下游的服务抗压能力进行评估。如果 sink 是 kafka，可以设为 kafka 对应 topic 的分区数。注意 sink 并行度最好和 kafka partition 成倍数关系，否则可能会出现如到 kafka partition 数据不均匀的情况。但是大多数情况下 sink 算子并行度不需要特别设置，只需要和整个任务的并行度相同就行。

合理评估flink的并行度

推荐阅读更多精彩内容