clickhouse基础学习

一、是什么

ClickHouse是一个开源的列式数据库管理系统,专门设计用于处理大规模数据分析和OLAP(在线分析处理)工作负载。它最初由俄罗斯的Yandex公司开发,并于2016年发布为开源项目。

二、有什么特点

  1. 列式存储:ClickHouse以列式存储方式组织数据,这意味着相同列中的数据存储在一起,这种存储方式在分析查询和聚合操作中非常高效。

  2. 高性能:ClickHouse被设计成能够处理非常大的数据集,并能够快速执行复杂的分析查询。它通过使用多核CPU和高度优化的查询执行引擎来实现高性能。

  3. 支持SQL:ClickHouse支持SQL查询语言,这使得它易于使用和集成到现有的数据分析工具和应用程序中。

  4. 分布式架构:ClickHouse可以轻松扩展到多个节点,以处理大规模数据集。它支持数据分片、负载均衡和故障容忍,以确保高可用性和可伸缩性。

  5. 实时数据导入:ClickHouse支持实时数据导入,可以从各种数据源实时接收数据,这对于处理流式数据和实时分析非常有用。

  6. 开源:ClickHouse是开源的,可以免费使用和定制,因此它在许多组织中得到了广泛的应用。

三、常用的业务场景

  1. 数据仓库: ClickHouse可以用作企业数据仓库,用于存储和分析大规模的历史数据。它支持高性能的复杂查询和聚合操作,有助于发现数据中的趋势和洞察。
  2. 实时报告和仪表盘: ClickHouse可以用于构建实时报告和仪表盘,通过实时数据导入和快速查询执行,帮助业务决策者实时监控业务绩效。
  3. 广告分析: 在广告技术领域,ClickHouse可用于跟踪广告活动的效果,分析点击率、转化率和ROI等关键指标。
  4. 日志分析: ClickHouse非常适合处理大量日志数据,例如服务器日志、应用程序日志和网络流量日志。它能够快速执行日志分析查询,帮助识别问题和异常。
  5. 事件追踪: 许多应用程序需要追踪用户活动和事件。ClickHouse可以用于存储和分析这些事件数据,以提供洞察用户行为和趋势的见解。
  6. 时序数据分析: 时序数据(例如传感器数据、监控数据、时间序列数据库中的数据)的存储和分析是ClickHouse的另一个强大用途。它支持时间窗口查询和聚合,使其成为处理时序数据的理想选择。
  7. 数据湖分析: ClickHouse可以与数据湖架构集成,用于在数据湖中存储和分析大规模数据集。
  8. 在线广告投放: ClickHouse可以帮助广告技术公司实时调整广告投放策略,以提高广告的定位精度和效率。
  9. 金融分析: 金融领域需要处理大量的交易和市场数据。ClickHouse可以用于执行复杂的金融分析,例如风险评估、投资组合优化和市场趋势分析。
  10. 运营分析: 企业可以使用ClickHouse来分析运营数据,包括库存管理、供应链优化和客户关系管理。

总之,ClickHouse在需要大规模数据存储、高性能查询和实时数据分析的各种业务场景中都可以发挥作用。它的设计使其适用于处理大数据和复杂分析需求的情况。

四、为什么它可以查询的这么快?

  1. 列式存储: 列式存储,减少I/O操作和数据传输量。ClickHouse采用列式存储,这意味着它将相同列的数据存储在一起,而不是行式存储中将整行数据存储在一起。这种列式存储方式使得只需读取和解析实际需要的列数据,从而减少了I/O操作和数据传输量。这对于数据分析查询非常高效,因为通常只需要一部分列数据来回答查询。

  2. 数据压缩: 压缩减少传输时间。ClickHouse使用高度优化的压缩算法,将数据在存储时压缩,这不仅减小了磁盘占用空间,还减少了数据传输时间。在查询时,ClickHouse能够在内存中快速解压数据,从而加快查询速度。

  3. 多核并行处理: 数据存在分布式多态服务器上,利用多台服务器的CPU并行查询。ClickHouse充分利用多核CPU和多线程技术,可以并行执行查询操作。这意味着可以同时处理多个查询片段,提高了查询性能。

  4. 合并操作: 按照查询条件只查询某些数据块的数据,扫描的数据范围会变小。ClickHouse使用合并操作来优化查询,避免不必要的数据移动。它将数据按块(block)存储,并在查询时尽可能使用整个块。这减少了不必要的数据复制和操作。

  5. 索引技术: ClickHouse支持索引,这可以加速某些查询,特别是在过滤条件上使用索引列时。索引使得数据的查找更加高效,从而加速了查询。

  6. 向量化执行: ClickHouse使用向量化查询执行,这意味着它可以在一次操作中处理多个数据点,而不是逐个处理。这种向量化执行方式减少了CPU指令的开销,提高了查询速度。

  7. 数据分区和负载均衡: ClickHouse支持数据分区和负载均衡,可以将数据分散存储在多个节点上,并在查询时将工作负载均衡分配到不同的节点上。这有助于水平扩展和提高查询性能。

五、clickhouse的底层数据存储

数据在clickhouse以何种形式被存储要看使用的是什么表引擎。表引擎,决定了一张 数据表最终的性格,它拥有何种特性、数据以何种形式被存储以及如何被加载。

5.1 MergeTree家族(合并树)

之所以说是合并树家族,是因为MergeTree衍生了好几个与之类似的引擎。

  • MergeTree 最基础的版本,支持数据分区,后台自动合并。

  • ReplacingMergeTree: 支持替换旧数据的MergeTree。在同一个分区内,clickhouse在后台合并数据的时候会删除重复数据,注意这里是同一个分区内的去重效果。

  • SummingMergeTree: 支持把多行数据合并求和的MergeTree。在合并分区的时候,将同一分组下的多行数据提前汇总合并成一行,这样减少了数据行,又降低了后续汇总查询的开销。

  • AggregatingMergeTree: 支持聚合的MergeTree。将需要聚合的数据预先计算出来,并将结果保存起来,在后续进行聚合查询的时候直接使用结果数据。

  • CollapsingMergeTree: 支持数据折叠(意思就是以增代删)的MergeTree。它通过定义一个sign标志位字段,记录数据行的状态,如果sign标记为1,则表示这是一行有效的数据,如果是-1,则表示这行数据需要被删除。CollapsingMergeTree合并数据时,同一分区,sign为1和-1的数据会被抵消删除。犹如折叠一般。这个引擎还有个使用条件,就是对于写入数据的顺序有严格的要求,如果先写入sign=-1的数据,在写入sign=1的数据,则不能够折叠。所以如果你写入数据是用的多线程写入,大概率有问题。

  • VersionedCollapsingMergeTree:结合版本控制的CollapsingMergeTree。这个就是为了解决上面说的写入顺序的问题。加了个版本号。数据会自动按照orderby version,这样就有确定的顺序。

    ......等等


    image.png

5.2 Memory(内存)

自行了解下面的存储结构

5.3 文件

5.4 第三方自定义

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容