2018-12-25

spark-streaming消费kafka数据：

首次消费截图：

手动kill，再次启动：

KafkaManager类：

package org.apache.spark.streaming.kafka

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.Decoder

import org.apache.spark.SparkException

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.KafkaCluster.LeaderOffset

import scala.reflect.ClassTag

/**

* 手动管理偏移量

class KafkaManager(val kafkaParams:Map[String,String])extends Serializable {

private val kc =new KafkaCluster(kafkaParams)

/**

* 创建数据流

def createDirectStream[K: ClassTag,

V: ClassTag,

KD <: Decoder[K]: ClassTag,

VD <: Decoder[V]: ClassTag](ssc: StreamingContext,

kafkaParams:Map[String,String],

topics:Set[String]): InputDStream[(K,V)] = {

val groupId = kafkaParams("group.id")

// 在zookeeper上读取offsets前先根据实际情况更新offsets

setOrUpdateOffsets(topics, groupId)

//从zookeeper上读取offset开始消费message

val messages = {

val partitionsE =kc.getPartitions(topics)

if (partitionsE.isLeft)

throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

val partitions = partitionsE.right.get

val consumerOffsetsE =kc.getConsumerOffsets(groupId, partitions)

if (consumerOffsetsE.isLeft)

throw new SparkException(s"get kafka consumer offsets failed: ${consumerOffsetsE.left.get}")

val consumerOffsets = consumerOffsetsE.right.get

KafkaUtils.createDirectStream[K,V,KD,VD, (K,V)](

ssc, kafkaParams, consumerOffsets, (mmd: MessageAndMetadata[K,V]) => (mmd.key, mmd.message))

}

messages

}

/**

* 创建数据流前，根据实际消费情况更新消费offsets

* @param topics

* @param groupId

private def setOrUpdateOffsets(topics:Set[String], groupId:String): Unit = {

topics.foreach(topic => {

var hasConsumed =true

val partitionsE =kc.getPartitions(Set(topic))

if (partitionsE.isLeft)

throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

val partitions = partitionsE.right.get

//kc根据消费者组和主题对应的分区从zookeeper获取偏移量

val consumerOffsetsE =kc.getConsumerOffsets(groupId, partitions)

if (consumerOffsetsE.isLeft) hasConsumed =false

if (hasConsumed) {// 消费过

/**

* 如果streaming程序执行的时候出现kafka.common.OffsetOutOfRangeException，

* 说明zk上保存的offsets已经过时了，即kafka的定时清理策略已经将包含该offsets的文件删除。

* 针对这种情况，只要判断一下zk上的consumerOffsets和earliestLeaderOffsets的大小，

* 如果consumerOffsets比earliestLeaderOffsets还小的话，说明consumerOffsets已过时,

* 这时把consumerOffsets更新为earliestLeaderOffsets

println("------消费过------")

val earliestLeaderOffsetsE =kc.getEarliestLeaderOffsets(partitions)

if (earliestLeaderOffsetsE.isLeft)

throw new SparkException(s"get earliest leader offsets failed: ${earliestLeaderOffsetsE.left.get}")

val earliestLeaderOffsets = earliestLeaderOffsetsE.right.get

val consumerOffsets = consumerOffsetsE.right.get

// 可能只是存在部分分区consumerOffsets过时，所以只更新过时分区的consumerOffsets为earliestLeaderOffsets

var offsets:Map[TopicAndPartition, Long] =Map()

consumerOffsets.foreach({case(tp, n) =>

val earliestLeaderOffset = earliestLeaderOffsets(tp).offset

if (n < earliestLeaderOffset) {

println("consumer group:" + groupId +",topic:" + tp.topic +",partition:" + tp.partition +

" offsets已经过时，更新为" + earliestLeaderOffset)

offsets += (tp -> earliestLeaderOffset)

}

})

//若是kafka分区发生新增,则对应的分区偏移量设置为从头开始消费

val earliestTopicAndPartition:Set[TopicAndPartition] = earliestLeaderOffsets.keySet

for(topicAndPartition <- earliestTopicAndPartition){

if(!consumerOffsets.contains(topicAndPartition)){

println("consumer group:" + groupId +",topic:" + topicAndPartition.topic +",partition:" + topicAndPartition.partition +

" kafka分区新增设置偏移量为0L")

offsets += (topicAndPartition ->0L)

}

if (offsets.nonEmpty) {

kc.setConsumerOffsets(groupId, offsets)

}

}else {// 没有消费过

println("------没有消费过------")

val reset = kafkaParams.get("auto.offset.reset").map(_.toLowerCase)

var leaderOffsets:Map[TopicAndPartition, LeaderOffset] =null

if (reset ==Some("smallest")) {

val leaderOffsetsE =kc.getEarliestLeaderOffsets(partitions)

if (leaderOffsetsE.isLeft)

throw new SparkException(s"get earliest leader offsets failed: ${leaderOffsetsE.left.get}")

leaderOffsets = leaderOffsetsE.right.get

}else {

val leaderOffsetsE =kc.getLatestLeaderOffsets(partitions)

if (leaderOffsetsE.isLeft)

throw new SparkException(s"get latest leader offsets failed: ${leaderOffsetsE.left.get}")

leaderOffsets = leaderOffsetsE.right.get

}

val offsets = leaderOffsets.map {

case (tp, offset) => (tp, offset.offset)

}

kc.setConsumerOffsets(groupId, offsets)

}

})

}

/**

* 更新zookeeper上的消费offsets

* @param rdd

def updateZKOffsets(rdd: RDD[(String,String)]) : Unit = {

val groupId = kafkaParams.get("group.id").get

val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

for (offsets <- offsetsList) {

val topicAndPartition =TopicAndPartition(offsets.topic, offsets.partition)

val o =kc.setConsumerOffsets(groupId,Map((topicAndPartition, offsets.untilOffset)))

if (o.isLeft) {

println(s"Error updating the offset to Kafka cluster: ${o.left.get}")

}

测试object：

package streaming

import kafka.serializer.StringDecoder

import org.apache.log4j.{Level, Logger}

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.kafka.KafkaManager

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

object SparkKafkaStreaming{

def processRdd(rdd: RDD[(String,String)]): Unit = {

val lines = rdd.map(_._2)

lines.foreach(println)

}

def main(args: Array[String]) {

if (args.length <3) {

System.err.println(

s"""

|Usage: DirectKafkaWordCount

| is a list of one or more Kafka brokers

| is a list of one or more kafka topics to consume from

| is a consume group

""".stripMargin)

System.exit(1)

}

Logger.getLogger("org").setLevel(Level.WARN)

val Array(brokers, topics, groupId) = args

// Create context with 2 second batch interval

val sparkConf =new SparkConf().setAppName("DirectKafkaWordCount")

sparkConf.setMaster("local[3]")

sparkConf.set("spark.streaming.kafka.maxRatePerPartition","5")

sparkConf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")

val ssc =new StreamingContext(sparkConf,Seconds(5))

ssc.sparkContext.setLogLevel("WARN")

// Create direct kafka stream with brokers and topics

val topicsSet = topics.split(",").toSet

val kafkaParams =Map[String,String](

"metadata.broker.list" -> brokers,

"group.id" -> groupId,

"auto.offset.reset" ->"smallest"

)

val km =new KafkaManager(kafkaParams)

val messages = km.createDirectStream[String,String, StringDecoder, StringDecoder](

ssc, kafkaParams, topicsSet)

messages.foreachRDD(rdd => {

if (!rdd.isEmpty()) {

// 先处理消息

processRdd(rdd)

// 再更新offsets

km.updateZKOffsets(rdd)

}

})

ssc.start()

ssc.awaitTermination()

}

修改点：

若是kafka新增分区,zookeeper无对应的分区，消费从头开始消费

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,753评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,668评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,090评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,010评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,054评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,806评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,484评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,380评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,873评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,021评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,158评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,838评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,499评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,044评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,159评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,449评论 3赞 374
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,136评论 2赞 356

2018-12-25

推荐阅读更多精彩内容