clickhouse~基础

一、ClickHouse的优势

ClickHouse作为一款高性能的列式数据库管理系统,具备以下显著优势:

  1. 卓越的性能:利用向量化引擎,ClickHouse能够在单个操作中处理大量数据,确保极高的查询吞吐量。这种特性使其在处理大规模数据分析任务时尤为出色。
  2. 列式存储结构:与传统的行式存储不同,ClickHouse采用列式存储格式。这种格式不仅提供了更高的数据压缩效率,减少了磁盘I/O操作,还允许更快地访问和查询特定的列数据,从而加速分析查询的速度。
  3. 出色的扩展性:ClickHouse支持水平扩展,用户可以通过简单地增加节点来处理不断增长的数据量。此外,其分布式查询功能能够在多个节点上并行处理查询,显著提高查询性能。
  4. 实时数据能力:ClickHouse不仅支持实时数据的插入,还能够对实时数据进行查询分析。这一特性使其在金融风控、实时监控等需要即时响应的场景中表现尤为出色。
  5. 丰富的数据类型与函数:除了常见的数据类型,ClickHouse还支持数组、嵌套数据结构、地理位置数据等复杂类型,同时提供了丰富的内置函数,满足用户多样化的数据分析需求。
  6. 高效的索引与分区:ClickHouse提供了多种索引类型,如主键索引、数据跳过索引等,这些索引能够显著提升查询性能。同时,其分区功能允许用户根据数据特性将数据划分为不同的分区,便于数据管理和优化查询。
  7. 强大的容错与恢复能力:ClickHouse通过引入数据副本和故障恢复机制,确保了系统的高可用性和数据的可靠性。在节点故障时,系统能够自动切换到其他可用节点,保证服务的连续性。此外,ClickHouse还提供了数据备份和恢复功能,进一步保障了数据的安全。
  8. 开源与社区支持:作为一款开源项目,ClickHouse拥有庞大的用户群体和活跃的开发者社区。这意味着用户可以免费使用并获得社区的支持和帮助。同时,开源的特性也使用户能够根据自身需求进行定制和扩展。

二、引擎介绍

在ClickHouse中,表引擎的选择对于数据的存储、查询和管理至关重要。以下是几种常用的表引擎介绍:

  1. MergeTree引擎:作为单机环境下的首选引擎,MergeTree以其高效性和稳定性而著称。它采用了一种独特的数据结构和索引方式,显著提升了查询性能。
  2. ReplicatedMergeTree引擎:基于MergeTree引擎,并进一步引入了ZooKeeper(或其他协调服务)作为协调者,实现了数据的复制功能。这种引擎确保了数据的高可用性和一致性,是复制架构下的首选引擎。
  3. ReplicatedReplacingMergeTree引擎:结合了ReplicatedMergeTree和ReplacingMergeTree的特点,该引擎提供了数据副本和去重功能。它使用协调服务来同步多个ClickHouse实例之间的数据,并通过引入版本号来处理重复数据。在后台合并过程中,重复数据会被物理删除。这种引擎适用于需要在分布式环境中处理重复数据的场景。

在使用ReplicatedReplacingMergeTree引擎时,需要注意去重操作只在合并分区时触发,因此不能保证实时去重。同时,去重操作是基于ORDER BY排序键的,因此要确保排序键能够唯一标识数据行或至少能够标识重复的数据行。

  1. Distributed引擎:作为一款分布式引擎,Distributed本身并不直接存储数据,而是充当了一个视图(View)的角色。它负责在写入数据时根据一定的算法将请求分发到集群中的各个节点,并在查询时协助用户进行跨节点的查询转换。这使得在分布式环境下进行数据操作变得更加简化。

三、创建集群表

在ClickHouse中创建集群表可以简化分布式环境下的数据操作和管理。以下是创建集群表的示例代码:

-- 在集群中的一个节点上创建本地表,其他节点会自动同步创建
CREATE TABLE local_table ON CLUSTER my_cluster
(
    `id` UInt32,
    `name` String,
    `age` UInt8,
    `created_at` DateTime
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{cluster}/local_table', '{replica}')
ORDER BY id;

-- 创建分区表
CREATE TABLE my_partitioned_table ON CLUSTER my_cluster
(
    ...
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{cluster}/my_partitioned_table', '{replica}')
PARTITION BY ...
ORDER BY ...;

-- 在集群中的一个节点上创建分布式表
CREATE TABLE distributed_table AS local_table
ENGINE = Distributed(my_cluster, current_database(), local_table, rand());

在上述示例中,通过在集群中的一个节点上创建本地表,并使用ReplicatedMergeTree引擎,其他节点会自动同步创建相应的表。创建分布式表时,使用Distributed引擎并指定集群名称、数据库名称和本地表名称。这样,在查询时可以通过分布式表来访问整个集群中的数据。

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354

推荐阅读更多精彩内容

  • 一、ClickHouse简介 ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLA...
    AC编程阅读 10,515评论 0 12
  • 什么是ClickHouse? ClickHouse 是面向 OLAP 的分布式列式 DBMS. 在“正常”的面向行...
    c3729438b799阅读 13,048评论 0 5
  • 建表优化 1.数据类型 时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串。全String类型在以...
    这货不是王马勺阅读 788评论 0 1
  • 一、是什么 ClickHouse是一个开源的列式数据库管理系统,专门设计用于处理大规模数据分析和OLAP(在线分析...
    woods_deamon阅读 167评论 0 1
  • clickhouse 一、表引擎使用 表引擎是Clickhouse的一大特色,可以说,表引擎决定了如何存储表的数据...
    伍六七_ba5e阅读 1,662评论 0 1