一、统一的数据处理组件栈,不仅能处理流处理,还可以用于批处理,机器学习,可以满足不同的用户的需求,对不同形式的计算进行了整合。
二、支持时间时间,接入时间,处理时间等时间概念。
三、基于轻量级分布式快照实现容错(checkpoint)。
四、有状态计算。可以将状态存储在HDFS,内存,RockDB。
五、支持高度灵活的窗口,比如:session window,滚动窗口,滑动窗口等。
六、反压,当下流算子处理不过来的时候,对上层算子的消费速度进行控制。
七、基于JVM实现自己的内存管理。