初识ClickHouse
第一次接触ClickHouse是在朋友圈,很凑巧的是当时正在寻找一款不依赖Hadoop生态圈的分析引擎数据库,同类数据库也看了不少 ,比如刚刚研究的InfoBright,性能上的确不错,但是缺点也很多(详情请看上一篇),所以遇到ClickHouse后发现眼前一亮!
什么是ClickHouse?
ClickHouse是一个用于联机分析(OLAP)的列式存储数据库(DBMS)
和我们传统的行存储数据库比较
OLAP使用场景
1.读请求占大多数。
2.数据总是以大批量(> 1000 rows)进行写入。
3.已添加的数据不修改。
4.每次查询都从数据库中读取大量的行,但是同时又仅需要少量的列。
5.宽表,即每个表包含着大量的列。
6.较少的查询。(通常每台服务器每秒数百个查询或更少)
7.对于简单查询,允许延迟大约50毫秒。
8.列中的数据相对较小: 数字和短字符串。(例如,每个URL 60个字节)
9.处理单个查询时需要高吞吐量。(每个服务器每秒高达数十亿行)
10.事务不是必须的。
11.对数据一致性要求低。
12.每一个查询除了一个大表外其他都很小。
13.查询结果明显小于源数据,换句话说,数据被过滤或聚合后能够被盛放在单台服务器的内存中。
那么多数据库,为啥用它?
1.快 。(这一个字就够了吧)
2.数据压缩。
3.多核并行处理,在大型查询中ClickHouse可以并行化处理,合理利用资源。
4.分布式处理,大部分列式存储数据库,几乎没有一个支持分布式的查询处理。
5.完美支持SQL(没有开窗函数有点遗憾)
6.支持近似计算,牺牲了精确度,换的是速度。
7.异步的多主复制技术,在大多数情况下ClickHouse能在故障后自动恢复。
几乎可以忽略的缺点
1.没有完整的事物支持。
2.没有Update/Delete.
3.多服务器上DDL不同步。
它究竟有多快?
1.简单的查询速度可达30GB/s 。
2.短查询非常低的延迟时间,延迟少于50毫秒。
3.批量写入50~200MB/s。
这里有性能报告
非常好用的小功能
1.从Mysql中拉取数据,有点像Mysql的Federated引擎
# du出的表大小
13.7G playlog.ibd
# ClickHouse操作语句
CREATE TABLE playlog
ENGINE = MergeTree
ORDER BY id AS
SELECT *
FROM mysql('host:port', 'db', 'playlog', 'user', 'password')
# 耗时和平均速度
0 rows in set. Elapsed: 230.232 sec. Processed 45.32 million rows, 17.6 GB (138.23 thousand rows/s., 52.31 MB/s.)
2.从Kafka中读取数据
# ClickHouse操作语句
CREATE TABLE queue (
timestamp UInt64,
level String,
message String
) ENGINE = Kafka('localhost:9092', 'topic', 'group1', 'JSONEachRow');