很长一段时间里,公司所做的大量数据处理工作都是以批量作业形式运行的——从数据库中转储CSV文件、在一天结束时收集日志文件,等等。但是企业的数据是每时每刻都实时产生的,所以用来处理它们的软件也在不断发展。与其只在一天结束时处理数据,为什么不在数据到达的同时对其进行连续不断的响应呢?但是只有当数据捕获以流方式完成时,流处理才成为可能;毕竟,你不能将每日批处理的CSV转储文件作为流来处理。这种向流处理的转变推动了Apache Kafka的流行。但是,即使使用Kafka,构建这种类型的实时数据管道也是不容易的。
Stream Data Platform:所有数据的中心
我们在Linkedln上构建了一个基于Kafka的流数据平台。我们认为流数据的未来是这样的——流数据平台可以作为所有数据的中心枢纽。它在全公司范围内运行,使各种分布式应用程序和系统能够实时地使用和处理数据。
Stream data platform需要支持两件事:
- 数据集成:流数据处理平台捕获事件流或数据的更改,将其提供给其他数据系统,比如关系数据库、key-value存储、Hadoop或数据仓库。
- 流处理:支持对流的连续、实时的处理和转换,使其结果在系统范围内可用。
这篇文章只关注数据集成,并解释Kafka Connect如何通过提供一个公共框架来构建各种系统之间的流数据的flow,从而支持数据集成。
数据集成和流处理都依赖于可作为流数据存储基础的公共基础设施。
Kafka:Stream data platform的基础
Apache Kafka已经成为在低延迟中存储和传输大批量流数据到各种应用程序的实际标准。对于全球数千家公司来说,Kafka已经成为它们数据架构的关键环节。Kafka为现代流数据集成提供了基础。
现在,很多公司希望使用Kafka发布他们的数据流,但在实际中,每个connector都需要解决以下问题:
- 元数据管理:数据管道需要携带元数据信息。如果缺乏此功能,最终不得不在下游重新创建它。此外,如果同一数据有多个consumer,则每个consumer都要重新创建它。
- 容错性:运行一个流程的多个实例,并对其失败有弹性恢复的能力。
- 并行:水平伸缩以处理大型数据集。
- 低延迟:抽取、传输以及处理都是实时的。
- 语义传递:在机器故障或进程崩溃时提供数据安全保证。
- 监控:可以监控每个数据集成过程的健康状况。
这些问题本身非常难以解决,在每个connector中单独解决它们是不可行的。相反,可以有一个基础设施平台运行在各种connector底层,以一致的方式解决这些问题。
Kafka Connect介绍
在Apache Kafka的0.9版本中,我们添加了一个名为Kafka Connect的框架,将构建可伸缩流数据管道的想法付诸实践。
Kafka Connect是一个使用Kafka进行大规模实时流数据集成的框架。它抽象出了每个到Kafka的connector需要解决的常见问题:元数据管理、容错性、分区、偏移量管理以及传递语义、监控。Kafka Connect的目标有以下两个方面:
(1)鼓励在Kafka之上开发一个丰富的开源connector的生态系统。我们设想不久将提供一个大型的connector库,以支持各种系统之间的流数据的flow。
(2)简化用于流数据集成的connector的应用。用户可以部署协作良好的Kafka connector,并且对其进行监控和管理。
文章的其余部分是对Kafka的快速概述,不会深入到架构细节。
Kafka Connect的思想很简单。Source将数据导入Kafka,Sink从Kafka接收导出数据。Source或Sink的实现称为一个Connector。用户部署connector来支持Kafka上的数据flow。
Kafka Connect是为大规模数据集成而设计,它有一个内置的并行模型;所有Source和Sink的数据会被映射为分区的记录流。这是Kafka topic partitions的概括:流是指被分割成独立的无限记录序列的完整记录集。
下面给出几个例子。如果流表示数据库,那么流分区将表示数据库中的表。同样,如果流表示HBase集群,那么流分区将表示特定的HBase region。
流分区是最小的并行单元,允许connector并行处理数据。上面的示例中,Kafka Connect可以在不同的主机上并行地独立复制每个表或每个HBase region的数据。Kafka Connect支持动态调整分区的数量;随着时间推移,分区可能会增长或删除。例如,这允许数据库connector发现新创建的表,而无需重新启动connector。
Kafka Connector与Kafka紧密集成,因此它可以利用Kafka的至关重要的功能,这有如下好处:首先,Kafka具有一个并行模型,所以原生的支持水平扩展,同时保留每个分区的顺序保证。这允许Kafka connector可以利用Kafka的并行模型对大型数据集成工作进行水平伸缩;其次,Kafka支持偏移量,它定义了分区中记录的位置,并提供了偏移量管理的内置支持。这允许所有构建在Kafka之上的connector(无论是Source还是Sink),共享这一机制,从而可以跟踪connector中流的位置,在故障重启后进行重新抽取。在Kafka的0.9版本中,还有如下第三个重要功能:组管理。组管理机制运行一组流程不仅就组成员关系达成一致,还可以协调成员关系更改的操作。类似于Kafka的consumer组,Kafka Connect利用组管理来做集群的负载均衡。
偏移量管理是流数据集成的关键一环:由于流数据没有边界,connector必须以连续的方式记录它们在流中的位置。这运行connector在保证交付的同时进行故障恢复;从它们停止的地方恢复数据,而不是丢失或重新获取大量重复数据。每条记录都包含一个key、一个value以及标记流分区中记录位置的偏移量。每个Source的偏移量不同:对于一般的数据库Source,偏移量可能引用时间戳列值,而对于Mysql源,偏移量可能引用事务日志中的行位置。对于Sink connector,它是Kafka偏移量。Kafka Connect提供了偏移量的存储机制;connector可以按需刷新偏移量,也可以按配置的常规时间间隔刷新偏移量。框架透明地处理偏移量恢复,这样connector可以从流中最后一个checkpoint位置重新启动数据抽取。
Kafka Connect支持两种级别的交付保证:at least once,at most once,并在将来的版本中支持exactly once。connector实现驱动所提供的交付保证。例如,任何允许幂等写入并提供偏移量存储能力的sink,都可以提供exactly once的语义。Confluent Platform 2.0附带的Kafka HDFS connector通过在一个原子操作中存储数据和偏移量,从而实现了exactly once语义。
Kafka Connect并没有实现流程部署和资源管理;它不负责启动、停止或重新启动。换句话说,Kafka Connect自动检测失败,并在已有流程上进行重新平衡。它并没有强加一个特定的资源管理框架或一组操作工具;它可以和Pupper、Chef、Mesos、Kubernetes、YARN搭配使用。
开源社区中的任何人都可以编写kafka connector。Confluent 2.0平台附带经过认证的开源HDFS和JDBC connector。