2018年12月17日
2018年即将结束。对于ClickHouse和ClickHouse社区来说,这是一个伟大的一年 - 许多活动,新功能和有趣的项目。现在是时候看看下一步是什么了。由Alexey Milovidov领导的ClickHouse开发团队公布了一些计划,并允许我们与您分享。
新年前还有一段时间,新功能可以到达。有传言称下一版本将于12月31日发布,尽管它可能也会提前发布。计划在那里有以下功能:
- 通过表函数导入/导出HDFS
- Parquet文件格式支持导入/导出数据。这使得ClickHouse与Hadoop生态系统的集成变得更加容易。
- 列级压缩/编码。初始版本将包括lz4,zstd和delta编码。双delta,Gorilla和blosc算法将在稍后发布。
- 能够向MergeTree存储引擎索引添加新列。这对于需要所有非聚合列在索引中的Sumge / Aggregating MergeTree表特别有用
首批2019年主要版本将带来以下集成扩展。
- Amazon S3通过表函数导入/导出
- 字典作为使用通用“CREATE TABLE”SQL语法定义的一等公民
安全和细粒度访问控制是许多公司非常需要的功能,ClickHouse将在Q1 / 2019年正确支持它:
- 表,列和行级安全性
- RBAC访问控制模型
- 可插入外部身份验证(LDAP,Kerberos)
MergeTree是ClickHouse的核心技术,它将进一步改进,以获得更好的性能和可用性。Q1-Q2 / 2019计划包括:
- MergeTree表的自适应索引粒度
- 二级索引结构(最小/最大,布隆过滤器)
- 使用索引获得更好的ORDER BY / GROUP BY性能
今年,在改进ClickHouse对SQL连接的支持方面已经做了很多工作。在Q2-Q3 / 2019中,无论是在SQL标准兼容性还是更好的性能方面,它都将继续下去。那包括:
- 多表连接
- 合并大表的连接
- 用于分布式连接的Bucket-shuffle算法
- ASOF加入时间序列数据
计划在2018年为多个存储卷提供资源池和支持,但推迟使用其他功能。这些仍然在Q2-Q3 / 2019的计划中,资源池首先出现:
- 资源池(细粒度CPU,内存,网络,RAM分配)
- 分层存储HDD / SDD用于冷/热数据
- JBOD存储支持
ClickHouse有时因地理空间数据结构的有限支持而受到批评。我们不能指望它像PostGIS一样功能丰富,但是地理空间应用程序的一些扩展计划在Q3 / 2019年进行,但优先级可能会更改,并且可能会更早出现:
- Geohash支持
- 多边形词典
除了ClickHouse开发团队计划开展的其他工作之外,我们还要特别强调两个:
- 用于搜索字符串的高级算法,使其更加全文搜索
- 机器学习算法作为聚合函数。这开辟了很多可能性,所以我们渴望看到它是如何运作的。
这只是核心开发团队将要开展的项目列表。有许多社区贡献者也为ClickHouse添加了重要功能。Altinity也将在那里活跃 - 我们计划在2019年推出几个ClickHouse项目和代码贡献,这将使ClickHouse更容易和更安全地使用。
敬请关注!