Kafka Connect:构建大型低延迟数据管道

很长一段时间里，公司所做的大量数据处理工作都是以批量作业形式运行的——从数据库中转储CSV文件、在一天结束时收集日志文件，等等。但是企业的数据是每时每刻都实时产生的，所以用来处理它们的软件也在不断发展。与其只在一天结束时处理数据，为什么不在数据到达的同时对其进行连续不断的响应呢？但是只有当数据捕获以流方式完成时，流处理才成为可能；毕竟，你不能将每日批处理的CSV转储文件作为流来处理。这种向流处理的转变推动了Apache Kafka的流行。但是，即使使用Kafka，构建这种类型的实时数据管道也是不容易的。

Stream Data Platform：所有数据的中心

我们在Linkedln上构建了一个基于Kafka的流数据平台。我们认为流数据的未来是这样的——流数据平台可以作为所有数据的中心枢纽。它在全公司范围内运行，使各种分布式应用程序和系统能够实时地使用和处理数据。

image.png

Stream data platform需要支持两件事：

数据集成：流数据处理平台捕获事件流或数据的更改，将其提供给其他数据系统，比如关系数据库、key-value存储、Hadoop或数据仓库。
流处理：支持对流的连续、实时的处理和转换，使其结果在系统范围内可用。

这篇文章只关注数据集成，并解释Kafka Connect如何通过提供一个公共框架来构建各种系统之间的流数据的flow，从而支持数据集成。
数据集成和流处理都依赖于可作为流数据存储基础的公共基础设施。

Kafka：Stream data platform的基础

Apache Kafka已经成为在低延迟中存储和传输大批量流数据到各种应用程序的实际标准。对于全球数千家公司来说，Kafka已经成为它们数据架构的关键环节。Kafka为现代流数据集成提供了基础。
现在，很多公司希望使用Kafka发布他们的数据流，但在实际中，每个connector都需要解决以下问题：

元数据管理：数据管道需要携带元数据信息。如果缺乏此功能，最终不得不在下游重新创建它。此外，如果同一数据有多个consumer，则每个consumer都要重新创建它。
容错性：运行一个流程的多个实例，并对其失败有弹性恢复的能力。
并行：水平伸缩以处理大型数据集。
低延迟：抽取、传输以及处理都是实时的。
语义传递：在机器故障或进程崩溃时提供数据安全保证。
监控：可以监控每个数据集成过程的健康状况。

这些问题本身非常难以解决，在每个connector中单独解决它们是不可行的。相反，可以有一个基础设施平台运行在各种connector底层，以一致的方式解决这些问题。

Kafka Connect介绍

在Apache Kafka的0.9版本中，我们添加了一个名为Kafka Connect的框架，将构建可伸缩流数据管道的想法付诸实践。

image.png

Kafka Connect是一个使用Kafka进行大规模实时流数据集成的框架。它抽象出了每个到Kafka的connector需要解决的常见问题：元数据管理、容错性、分区、偏移量管理以及传递语义、监控。Kafka Connect的目标有以下两个方面：
（1）鼓励在Kafka之上开发一个丰富的开源connector的生态系统。我们设想不久将提供一个大型的connector库，以支持各种系统之间的流数据的flow。
（2）简化用于流数据集成的connector的应用。用户可以部署协作良好的Kafka connector，并且对其进行监控和管理。
文章的其余部分是对Kafka的快速概述，不会深入到架构细节。

Kafka Connect的思想很简单。Source将数据导入Kafka，Sink从Kafka接收导出数据。Source或Sink的实现称为一个Connector。用户部署connector来支持Kafka上的数据flow。
Kafka Connect是为大规模数据集成而设计，它有一个内置的并行模型；所有Source和Sink的数据会被映射为分区的记录流。这是Kafka topic partitions的概括：流是指被分割成独立的无限记录序列的完整记录集。

image.png

下面给出几个例子。如果流表示数据库，那么流分区将表示数据库中的表。同样，如果流表示HBase集群，那么流分区将表示特定的HBase region。
流分区是最小的并行单元，允许connector并行处理数据。上面的示例中，Kafka Connect可以在不同的主机上并行地独立复制每个表或每个HBase region的数据。Kafka Connect支持动态调整分区的数量；随着时间推移，分区可能会增长或删除。例如，这允许数据库connector发现新创建的表，而无需重新启动connector。
Kafka Connector与Kafka紧密集成，因此它可以利用Kafka的至关重要的功能，这有如下好处：首先，Kafka具有一个并行模型，所以原生的支持水平扩展，同时保留每个分区的顺序保证。这允许Kafka connector可以利用Kafka的并行模型对大型数据集成工作进行水平伸缩；其次，Kafka支持偏移量，它定义了分区中记录的位置，并提供了偏移量管理的内置支持。这允许所有构建在Kafka之上的connector（无论是Source还是Sink），共享这一机制，从而可以跟踪connector中流的位置，在故障重启后进行重新抽取。在Kafka的0.9版本中，还有如下第三个重要功能：组管理。组管理机制运行一组流程不仅就组成员关系达成一致，还可以协调成员关系更改的操作。类似于Kafka的consumer组，Kafka Connect利用组管理来做集群的负载均衡。
偏移量管理是流数据集成的关键一环：由于流数据没有边界，connector必须以连续的方式记录它们在流中的位置。这运行connector在保证交付的同时进行故障恢复；从它们停止的地方恢复数据，而不是丢失或重新获取大量重复数据。每条记录都包含一个key、一个value以及标记流分区中记录位置的偏移量。每个Source的偏移量不同：对于一般的数据库Source，偏移量可能引用时间戳列值，而对于Mysql源，偏移量可能引用事务日志中的行位置。对于Sink connector，它是Kafka偏移量。Kafka Connect提供了偏移量的存储机制；connector可以按需刷新偏移量，也可以按配置的常规时间间隔刷新偏移量。框架透明地处理偏移量恢复，这样connector可以从流中最后一个checkpoint位置重新启动数据抽取。

image.png

Kafka Connect支持两种级别的交付保证：at least once,at most once，并在将来的版本中支持exactly once。connector实现驱动所提供的交付保证。例如，任何允许幂等写入并提供偏移量存储能力的sink，都可以提供exactly once的语义。Confluent Platform 2.0附带的Kafka HDFS connector通过在一个原子操作中存储数据和偏移量，从而实现了exactly once语义。
Kafka Connect并没有实现流程部署和资源管理；它不负责启动、停止或重新启动。换句话说，Kafka Connect自动检测失败，并在已有流程上进行重新平衡。它并没有强加一个特定的资源管理框架或一组操作工具；它可以和Pupper、Chef、Mesos、Kubernetes、YARN搭配使用。
开源社区中的任何人都可以编写kafka connector。Confluent 2.0平台附带经过认证的开源HDFS和JDBC connector。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,185评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,652评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,524评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,339评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,387评论 6赞 391
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,287评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,130评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,985评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,420评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,617评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,779评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,477评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,088评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,716评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,857评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,876评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,700评论 2赞 354

Kafka Connect:构建大型低延迟数据管道

Stream Data Platform：所有数据的中心

Kafka：Stream data platform的基础

Kafka Connect介绍

推荐阅读更多精彩内容