Druid

官网文档第一句话:"Druid is an open source data store designed for [OLAP] queries on event data"

两个重要关键字:

  1. OLAP
  2. event data

所以,druid并不是:

  1. OLTP系统,不是为实时读写设计
  2. 支持event data,换句话,不支持更新删除

理想场景:

  1. 用户行为事件,风控
  2. 监控数据,报警

逻辑数据:

  1. 数据有表组成
  2. 表由多列组成,列分为三种:
    a. timestamp column, 时间错列,唯一
    b. dimension columns, 字符串类型的列
    c. metric columns, 用于计算的列,一般是数字

组成:
Druid集群包括集中节点

  1. Historical nodes 负责从离线拉segments数据,接收broker的数据请求
  2. Broker Nodes 接收用户请求
  3. Coordinator nodes 管理historical nodes和segments的映射关系,balance等
  4. indexing service
    a. middle manager
    b. overlord
    有实时更新,还需要tranquility服务,tranquility服务负责从流种获取新数据并通过indexing service写入druid
  5. realtimenodes

其中 realtimenode和indexing service功能相同,两种实时更新的方式。realtimenode部署相对简单,但是限制较多。官方已经推荐使用indexing service的方式做实时数据ingesting

重要特性:

  1. 数据支持持久化到Deepstorage
  2. hive2.2.0开始支持DruidStorageHandler
  3. time series data/columnar storage/analytical query/distributed database
  4. lambda架构,支持batch/realtime两种data injection
  5. 依赖RDBMS持久化meta信息,依赖zookeeper做coordinate,依赖HDFS做数据持久化和分布式访问
  6. 不支持更新和删除,只支持新增,限制应用场景
  7. batch插入保证exactly once,realtime插入不保证
  8. 只支持单表,不支持跨表join
  9. 提前按照query granularity做聚合,提高查询效率,降低存储空间。缺点是无法做更细粒度的查询,比如设置 query granularity为1分钟,则不能做秒级查询。

Druid的一些设计特点:

  1. meta信息存储在zk和rdbms两个地方,其中zk上为简要信息,详细的元信息,比如segment的大小,dimensions和metrics配置,存储在rdbms中
  2. 过期数据并不删除,只是从zk上清理,deepstorage和rdbms中保留,可以恢复
  3. zk主要职责如下:
    a. segment management
    b. service discovery
    c. property store.

与其他系统的兼容:

  • HDFS, or Cassandra, or Amazon S3, or Google Cloud Storage, or Azure Blob Storage, etc. as “deep storage”;
  • Kafka, or RabbitMQ, Samza, or Flink, or Spark, Storm, etc. (via tranquility) as real-time data ingestion source;
  • Druid itself, or Graphite, or Ambari, or StatsD, or Kafka as a sink for telemetry of Druid cluster (metrics).
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,753评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,668评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,090评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,010评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,054评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,806评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,484评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,380评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,873评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,021评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,158评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,838评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,499评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,044评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,159评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,449评论 3 374
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,136评论 2 356

推荐阅读更多精彩内容

  • Druid 是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式...
    曹振华阅读 8,458评论 1 24
  • Druid.io(以下简称Druid)是面向海量数据的、用于实时查询与分析的OLAP存储系统。Druid的四大关键...
    大诗兄_zl阅读 6,463评论 0 9
  • Druid被设计成可扩展、高容错的集群。 在本文档中,我们将搭建一个简单的集群,并讨论如何进一步配置以满足您的需求...
    Sisyphus秋居拾遗阅读 2,188评论 0 2
  • 概述 设计原则 快速查询:部分数据的聚合 + 内存化 + 索引 水平扩展能力:分布式数据 + 并行化处理 实时分析...
    zfylin阅读 2,662评论 0 1
  • 安装准备 安装包准备 源码编译 官网安装包 imply组合套件 生产环境的Hadoop使用Java7, 官方安装包...
    zfylin阅读 2,303评论 0 4