Kafka Streams 入门实例1 WordCount

WordCount

WordCount 堪称大数据界的HelloWorld,相信不管是Hadoop还是Spark等大数据工具的上手实例,第一个十有八九是WordCount。

Kafka Stream也不例外。作为集成在Kafka消息系统上的数据实时处理接口,WordCount也可以作为一个很好的入门实例。

实际上,Kafka官方已经提供了WordCount的Demo,org.apache.kafka.streams.examples.wordcount.WordCountDemo,但亲手实现一遍可以帮助我们快速入门。

逻辑流程

需要记住的是,Kafka中的数据都以<key, value>的形式存在。

假设我们的Kafka中,已经存在一个topic,其中的数据来自于一个文本文件。我们希望编写一个Kafka Streams Application对此topic中的数据进行WordCount计算,大概步骤可以分解为:

  • Stream 从源topic中取出每一行数据记录 (<key, value>格式) ---- <null, "Hello World hello">

  • MapValue 将value中所有文本转换成小写形式 ---- <null, "hello world hello">

  • FlatMapValues 按空格分解成单词 ---- <null, “hello”>,<null, “world”>, <null, “hello”>

  • SelectKey 将value的值赋给key ---- <"hello", “hello”>,<“world”, “world”>, <“hello”, “hello”>

  • GroupByKey 按相同的Key分组 ---- (<"hello", “hello”>, <"hello, “hello”>),(<"world", “world”>)

  • Count 计算每个组中元素个数 ---- <"hello", 2>,<"world", 1>

  • To 将结果返回Kafka

逻辑代码

首先进行配置,包括Kafka Streams Application的ID,Kafka集群位置等:

Properties config = new Properties();
config.put(StreamsConfig.APPLICATION_ID_CONFIG, "word-count");
config.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
config.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
config.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
config.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());

这里使用Kafka Streams DSL。DSL提供的各种算子大部分情况下都可以满足需求。

使用DSL:

StreamsBuilder builder = new StreamsBuilder();

从Kafka源topic获取数据流:

KStream<String, String> textLines = builder.stream("streams-plaintext-input");

KStream即代表了由各个数据记录组成的数据流。

KStream可以从一或更多topic中的数据得来。
KStream可以进行对数据记录的逐条转换,和其它KStream,KTable进行join操作,或aggregate成KTable。

对得到的KStream进行transformationaggregation

将数据记录中的大写全部替换成小写:

.mapValues(textLine -> textLine.toLowerCase())

将各行数据按空格拆分:

.flatMapValues(textLine -> Arrays.asList(textLine.split(" ")))

将value作为新的key:

.selectKey((key, word) -> word)

aggregation操作前group by key:

.groupByKey()

计算每个组中的元素个数:

.count(Materialized.as("Counts"));

得到结果后将其存储为KTable

KTable<String, Long> wordCounts = textLines
                                  .mapValues ...

最后导入目标topic,其中key为String,value为Long。

wordCounts.toStream().to("streams-wordcount-output", Produced.with(Serdes.String(), Serdes.Long()));

KafkaStreams streams = new KafkaStreams(builder.build(), config);
streams.start();
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • Kafka官网:http://kafka.apache.org/入门1.1 介绍Kafka™ 是一个分布式流处理系...
    it_zzy阅读 3,894评论 3 53
  • Kafka设计解析(七)- Kafka Stream 原创文章,转载请务必将下面这段话置于文章开头处。本文转发自技...
    小小少年Boy阅读 5,247评论 0 32
  • ** 今天看了一下kafka官网,尝试着在自己电脑上安装和配置,然后学一下官方document。** Introd...
    RainChang阅读 4,998评论 1 30
  • 不知最近怎么了,总感觉有些话想说出来,但又不想说给别人听,那我就写下来吧。 不知不觉已经进入大学快一年了,偶尔能听...
    俊杰同学6223阅读 235评论 1 4