Databend v0.9.0 版本发布

各位社区小伙伴们,历经数月开发,Databend 于 2023 年 1 月 13 日迎来了 v0.9.0 版本的正式发布!

这次新版本是 Databend 迈向 1.0 版本的最后一个大版本,也是迄今为止我们对核心代码重构幅度最大的一个版本!相较于 v0.8.0 版本,开发者们一共新增了 5000 多次 commit, 共计 700 多个优化和修复,涉及 4347 个文件变更,约 34w 行代码修改。感谢各位社区伙伴的参与,以及每一个让 Databend 变得更好的你!

在 v0.9.0 版本中,我们引入了新的类型系统,新的表达式计算框架,JSONB 支持,完整的 join 支持和优化,CBO 支持,Native Storage Format 等主要功能优化,同时性能、稳定性、易用性等方面做了大量优化增强,欢迎大家下载试用。

性能对比

在新版本中,我们在执行引擎,优化器,存储层都做了很多优化,大部分场景都有2 倍以上提升,下面是在 hits 数据集使用 fuse 默认引擎在 s3 存储下两个版本的性能对比。

图片

全新的类型系统

为了让 Databend 拥有一个易于理解而又功能强大的类型推导系统,我们借鉴了不少优秀编程语言的编译器内部设计,然后从中精简出适用于 SQL 使用的子集。基于目前的纯静态的类型系统,我们有了完善的类型推导机制,在 SQL 的编译期能尽可能推断出表达式的执行方式,极简的表达式函数注册逻辑,以及在数据库类型级别实现了泛型的推导

在新的类型系统基础上,常量折叠,类型推导,函数的注册,查询数据裁剪等模块都能享受到新类型系统带来的红利。

这里有一份简短的介绍:五分钟了解 Databend 全新 SQL 类型系统

由于这里太小写不下,不久之后,我们会对此做一个深入的分享,感兴趣的朋友可以关注下。

JSONB 支持

新版本中,我们实现 Rust 版本的 JSONB, 默认的 JSON 数据类型将使用 JSONB 存储,同时也兼容老的 JsonText 格式。基于二进制 JSON 格式,存储空间和查询性能都得到非常明显的优化。

图片

参考:https://databend.rs/doc/contributing/rfcs/json-optimization

完善的 Join SQL 支持

支持完整的 Join types: inner/natural/cross/outer/semi/anti join。

在过去的数月中,针对社区和线上用户的反馈,对 hash join 进行了深度的优化,能够覆盖大多数场景的性能要求。

CBO 支持

在统计信息中,我们加入了 NDV 的统计计算逻辑,用户可以通过类似 presto 的 "Analyze" 命令来生成统计信息表。JOIN 可以利用已有的统计信息,对逻辑计划进行基于代价的优化。后续 CBO 支持完善后,我们会更新 TPCH 100G 数据下的查询性能数据对比。

Native 格式支持

Databend 支持 Git-Like 的 Fuse Engine,基于此 engine,我们可以快速回溯到某个历史时间点来查询,在数据库内部实现了 "时间旅行"。而在 Fuse engine 的内部,我们也支持了除 Parquet 之外的新的 Storage Format --- strawboat: https://github.com/sundy-li/strawboat

Strawboat 是基于 arrow 的 native storage format,基于它我们在数据读取方面可以做的比 Parquet 更高效,在 hits 数据集中,全表扫 native 格式能快2-3倍。在 hits 数据集中,本地部署的场景下取得非常可观的提升,后续我们会完善下性能对比到 clickbench 中。

高效的Bloom Filter过滤

新版本我们引入了 xor filter 来为每个列计算存储 bloom filter,新的 bloom filter 较比之前的版本,导入查询性能,占用空间能都得到了不少优化。

参考:https://databend.rs/blog/xor-filter

设计并开源 Serverless DataSharing Protocol

实现了基于 object storage presign 短期访问 token 的方式,多租户之间零信任数据共享解决方案。

在基本性能一致的情况下,使用 aws lambda,以 serverless 的方式实现数据共享。

Stage 相关

实现了 UserStage 功能,类似 linux 的 home 目录:"COPY INTO my_table FROM @~;"

Stage 的数据导入支持 meta 存储状态,这意味着我们可以一直从 stage 存入新文件来导入 databend;

支持从 Stage 中按不同格式导出多个文件;

从 Stage 导入表支持并行化;

...

其他

除了上面的主要功能外,我们还有其他的新功能或优化点:

  • duckdb 的 read_parquet, 支持无需导入,直接读取本地的 parquet 文件

  • 常用函数性能优化,常用 GEO 函数支持

  • Distinct 性能优化

  • Adaptive String HashTable

  • SQLancer 对接

  • Parquet 读取加速

  • 使用 Rust 重写了之前的 python 版本 sqllogictest

  • NDJSON and JSON output format 支持

  • ALTER TABLE 支持 recluster

  • 根据 https://db.in.tum.de/~freitag/papers/p23-freitag-cidr19.pdf,支持 hyperloglog 的更新和删除。

...

下载使用

如果你对我们新版本功能感兴趣,欢迎来 https://github.com/datafuselabs/databend/releases/tag/v0.9.0-nightly 页面查看全部的changelog 或者 下载 release 体验。

如果你在使用旧版本的 Databend,你可以直接升级到新版本,升级过程请参考:https://databend.rs/doc/operations/upgrade

意见反馈

如果您遇到任何使用上的问题,欢迎随时通过 GitHub issue 或社区用户群中提建议

GitHub: https://github.com/datafuselabs/databend/

致谢

最后感谢参与新版本设计开发,测试,文档贡献的开发者们。

图片

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容