Apache Druid 平台化 - 数据接入篇

数据接入

背景

使用界面化和 sql 的方式将数据导入到 druid,提供数据给后续告警,监控,查询等服务使用。

方案设计

数据源1:内部消息服务 dclog ,本质上是一个 kafka topic,使用 record header 进行应用划分,可以抽象为单 Kafka topic 写多个 Druid datasource 的场景
数据源2:Kafka
数据源3:Hive

kafka 使用 kis 方式接入,hive 使用 hadoop batch ingestion 接入,这里主要是考虑消费 dclog 写入 druid 的三种方式:

方案 描述 优缺点
KIS 在 kafka indexing service 消费的时候对 header 进行 filter (需要修改源码在消费时增加 header filter 的功能),然后写入相应的 datasource。
参考: Druid 消费一个 kafka topic 发送到不同数据源
这种方式不需要额外的外部依赖,修改的源码也比较少,但是每个 task 都需要遍历相同 topic 的数据对其进行过滤,对 kafka 的压力比较大,同时每个 datasource 都需要一个 task。
Spark SS + Tranquility 使用 spark struct streaming 进行消费,(目前的 release 版本还不支持直接读取 kafka header,需要打入一个 patch Add support for Kafka headers in Structured Streaming),消费后直接通过http 的方式发送到 tranquility server,然后由 tranquility 写入相应的 datasource。 task 由统一的 tranquility 负责,每次更新配置需要重新启动配置,该过程中可能会丢失数据,需要用 batch 任务进行 overwrite。
Spark SS + KIS 同样使用 spark SS 进行消费,将消费后的数据写入到对应的 kafka topic 中,使用 KIS 消费相应 topic 并将数据写入到对应的 datasource 类似第一种,额外的一些区别是每个 kis 只需要访问相应的数据,但是需要对 topic 中的每种 header 建立一个新的 kafka topic。

出于控制 druid indexing task 和 kafka topic 数量的目的,最早的时候选择了方案二:


方案二

但在实际使用的一段过程中,发现诸多问题,例如:

  1. tranquility 从 druid 0.9 以后就停止更新,因此相关的 ingestion 相关功能缺失,例如 jq 解析,数值类型的维度列等。
  2. 提供的接口过于简单,很多状态无法获取,例如 kafka lag 等。
  3. 使用的 stream push 模型,任务异常终端会造成数据丢失,需要使用 hive 备份数据源进行回补。
  4. 超过时间窗口的数据会丢失。
  5. tranquility 配置更新需要重启服务。

此外同时维护两套代码逻辑不仅增加了系统复杂度,还大大增加了编码和维护的工作量。

后续改为方案三:


方案三

实际生成的 indexing task 和 kafka topic 数量其实并不多,不需要把这个因素作为选型的重要指标进行判断。

该方案数据消费的延时和配置更新的间隔对比第二种都有大幅度的减少,目前能做到数据1S接入延时,1分钟内更新配置,且更新配置的过程中不会丢失数据。

druid 数据接入的一些经验

一. hive 数据导入自动填充分区

因为 hive 分区信息并不包含在真实数据中,可以使用 missing value 进行填充

// 该例子中的 ds 字段为分区字段,如果该字段在真实数据中不存在,就会以 2019-01-01 值进行填充
"timestampSpec": {
    "column": "ds"
    "format": "yyyyMMdd"
    "missingValue": "2019-01-01"
}

二. zstd 编码支持

有部分 hive 表使用 zstd 压缩,所以需要 druid 支持相应的编码。

Add Codec for ZStandard Compression hadoop 在2.9版本提供了 zstd 的支持。

我们目前使用的版本为 hadoop2.6.0-cdh5.15.0,原生还不支持 zstd,需要打入相关补丁,重新编译获取 hadoop-common 后,将 druid 目录下的 hadoop-dependencies/hadoop-client/2.6.0-cdh5.15.0 / extensions/druid-hdfs-storage / extensions/druid-kerberos 中的 hadoop-common 包进行替换。

然后在 hadoop 导入作业中指定包含 zstd.so 的 hadoop_native 地址

"mapreduce.reduce.java.opts": "-Djava.library.path=/usr/install/libraries/hadoop_native"
"mapreduce.map.java.opts": "-Djava.library.path=/usr/install/libraries/hadoop_native"

三. keberos

historical 节点需要 kinit 登录,否则 historical 无法连接 hdfs

四. druid-0.15.0 进程自动退出

druid-0.15.0 以后提供了新的服务启动方式,例如 /bin/start-cluster-data-server,如果用 nohup 启动后没有使用 exit 命令退出终端,在终端断开时会被认为是异常中断,相应进程也会被关闭,日志信息如下:

[Fri Aug 16 18:36:22 2019] Sending signal[15] to command[broker] (timeout 360s).
[Fri Aug 16 18:36:22 2019] Sending signal[15] to command[coordinator-overlord] (timeout 360s).
[Fri Aug 16 18:36:22 2019] Sending signal[15] to command[router] (timeout 360s).
[Fri Aug 16 18:36:22 2019] Command[router] exited (pid = 37865, exited = 143)
[Fri Aug 16 18:36:23 2019] Command[broker] exited (pid = 37864, exited = 143)
[Fri Aug 16 18:36:23 2019] Exiting.
[Fri Aug 16 18:37:44 2019] Command[coordinator-overlord] exited (pid = 42773, exited = 143)
[Fri Aug 16 18:37:44 2019] Exiting.

五. 启动 supervisor 失败

启动 supervisor 时提示错误

"error": "Instantiation of [simple type, class io.druid.indexing.kafka.supervisor.KafkaSupervisorTuningConfig] value failed: Failed to create directory within 10000 attempts (tried 1508304116732-0 to 1508304116732-9999)"

overlord 节点 java.io.tmpdir 指定路径不存在导致。

六. druid 对数据进行 ETL

一些简单的 ETL 使用 ingestion 中的 transformSpec 中的 filter / transform 和 flattenSpec 就能解决,较为复杂的例如数据1对多等可以借助于 flink / spark SS 的计算能力。下面举3个🌰

  1. dimension 重命名

    "dataSchema" : {
        "dimensionsSpec" : {
            "dimensions" : ["mb"]
        }
    }
      
    "transformSpec" : {
        "transforms" : [{
            "type" : "expression",
            "name" : "mb",
            "expression" : "mobile"
        }]
    }
    
  2. 从 seqId 中抽取前 13 位作为 timestampSpec 的时间戳

    "flattenSpec": {
        "fields": [{
             "expr": ".seqId[0:13]",
                 "name": "ts",
                 "type": "jq"
         }]
    },
    "timestampSpec": {
        "column": "ts",
         "format": "auto"
    }
    
  3. 一个相对复杂的判断

    数据格式:将记录只有存在 event_type 为 a 的数据才接入 datasource,service_info 的值可能是一个 json 对象也可能是一个 json 数组

    // record1
    "service_info":[{"event_type","a"},{"event_type","b"}]
    
    // record2
    "service_info":{"event_type","a"}
    

    ingestion 描述:

    "flattenSpec": {
        "fields": [{
             "expr": "[try .service_info[].event_type, try .service_info.event_type] | contains([\"a\"])",
                 "name": "isA",
                 "type": "jq"
         }]
    }
                 
    "transformSpec": {
        "filter": {
            "type": "and",
            "fields": [{
                 "type": "selector",
                     "dimension": "isA",
                     "value": "true",
                     "extractionFn": null
                  }]
         },
        "transforms": []
    }
    

一些截图

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容