深度干货!一篇Paper带您读懂HTAP | StoneDB学术分享会第①期

在最新一届国际数据库顶级会议 ACM SIGMOD 2022 上,来自清华大学的李国良和张超两位老师发表了一篇论文:《HTAP Database: What is New and What is Next》,并做了 《HTAP Database:A Tutorial》 的专项报告。 本篇文章,我们将系统地梳理一下两位老师的报告,带读者了解 HTAP 的发展现状和未来趋势。

这个报告主体上分为5个章节,分别是:

  1. 背景介绍。
  2. HTAP Databases:分享最新的 HTAP 数据库技术,总结它们主要的应用场景与优缺点,并根据存储架构对它们进行分类。
  3. HTAP Tecniques:介绍主流的 HTAP 数据库关键技术,包括事务处理技术、查询分析技术、数据组织技术、数据同步技术、查询优化技术以及资源调度技术等。
  4. HTAP Benchmarks:介绍目前现有的主流 HTAP 基准测试。
  5. Challenges and Open Problems:讨论 HTAP 技术未来的研究方向与挑战。

本文仅作精选分享,会省略一些非必要内容,如想了解更多,请阅读原报告。

Part1 背景介绍

1. Motivation

开头还是一个老生常谈的 HTAP 起源动机问题,这个其实大家看过我们之前的文章《StoneDB:什么是真正的HTAP?(一)背景篇》,也就很清楚了:HTAP(Hybrid Transactional/Analytical Processing)的概念和定义是 Gartner 在 2014 年第一次给出的,注意,这里特别提到了in-memory技术,在其定义中,HTAP 是通过内存计算技术在同一份内存数据上同时支持事务和分析的处理。


1662368273491-ed5182de-d93b-48d8-9585-390f0925e87f.png

如上图所示,左边是传统架构,要做OLAP必须先得把OLTP的数据通过ETL导过去,很麻烦,复杂度高、延迟高、运维难度大,总之一系列水深问题,一般人把握不住。

但是右边的HTAP架构就很酷了,我一个数据库采用行列共存的方式,同时进行事务和分析的处理,So easy,老板再也不用担心我做个BI报表需要“T+1”甚至“T+N”了,数据一进来就能做到实时地分析,没错,这就是我们常说的 Real-Time。


1662368273541-7b8690a1-5182-413f-8cc5-0ebc96363d4a.png

Gartner 预计 HTAP 这个技术将会在 2024 年被需要实时分析的商业应用广泛采用,因为它在很多行业都有应用场景,包括电商、财务、银行和风控等等。这里举两个栗子:

  • 在购物节这种高并发的情形下,如果电商卖家能够实时地分析用户行为数据,并根据分析结果针对性地投放品类广告,这无疑会给卖家带来更多的收益。
  • 银行在线上处理用户事务时还能实时地分析数据,从而检测判断该用户及其行为是否异常或者存在风险,这会让风控系统更加智能化。

实现上述的应用,HTAP 技术就是不可或缺的基础设施底座。

可以看到,过去10年里,HTAP数据库不断涌现,本篇报告作者这里根据 HTAP 数据库发展时间线梳理成三个阶段:


1662368273384-1bb159da-9eb7-4798-aef8-8578d345ef3b.png
  • 第一阶段(2010-2014):HTAP 数据库主要是采用主列存(primary column store)的方式。如SAP HANA、HyPer、DB2和BLU等。
  • 第二阶段(2014-2020):HTAP 数据库主要是扩展了以前主行存的技术,在行存上加上了列存。如SQL Server,Oracle和L-store等。
  • 第三阶段(2020-present):HTAP 数据库主要是开启了分布式的架构实现,满足高并发的请求。如SingleStore、MySQL Heatwave和Greenplum等。

PS:StoneDB 属于第三阶段,是具有分布式架构、内存计算和行列混存的HTAP数据库。

在数据库领域,有两个公认的经验法则:

  1. 行存(Row Store):比较适合OLTP。
  • Row-wise,update-heavy(重更新),short-lived transactions(短时延事务)
  1. 列存(Column Store):比较适合OLAP。
  • column-wise,read-heavy,bandwidth-intensive queries(带宽敏感查询)
1662368273420-506ee8a2-f919-4ef8-9ac2-0a3728a54a5d.png

在本篇报告主要研究采用行列共存的HTAP数据库。

2. A trade-off for HTAP databases

HTAP 数据库也有需要解决的问题,正所谓鱼和熊掌不可兼得,很多时候我们需要找到一个权衡点,既然是权衡,就有天平的两端,在HTAP数据库领域里,主要讨论的是工作负载隔离(Workload isolation) 和 数据新鲜度(Data freshness) 这两个重要特性的权衡。
工作负载隔离,就是指OLTP和OLAP之间的负载隔离程度;数据新鲜度,就是指OLAP到底能读到多新的事务性数据。

从现有的观测数据来看:

  • 高的工作负载隔离会导致较低的数据新鲜度
  • 低的工作负载隔离会获得较高的数据新鲜度
1662368273449-6e018477-31d2-49a2-847d-3cc4d3a90049.png

这里关于Trade-off的相关思考我们之前在对外的分享会上也屡次提及,感兴趣的同学可以前往B站观看我们最近一期的线上Meetup视频:


1662368274259-267598fa-f148-4342-803a-edbe8bb184ac.png

3. Challenges for HTAP databases

作者这里提出了HTAP数据库面临的四大挑战,这里也和我们的第二篇文章里的观点不谋而合,可以说完全在我们提出的8点挑战范围之内:

  • 挑战一:数据组织(Data Organization)
  • 挑战二:数据同步(Data Synchronization)
  • 挑战三:查询优化(Query Optimization)
  • 挑战四:资源调度(Resource Scheduling)
1662368275403-cbb52e88-8516-4b80-bda8-e83262ebe3c3.png

Part2 HTAP 数据库

这一章节主要调研现有 HTAP 数据库的主要架构,作者这里分成了四大架构:

  • 主行存储+内存中列存储(Primary Row Store + InMemory Column Store)
  • 分布式行存储+列存储副本(Distributed Row Store + Column Store Replica)
  • 磁盘行存储+分布式列存储(Disk Row Store + Distributed Column Store)
  • 主列存储+增量行存储(Primary Column Store + Delta Row Store)

a. 主行存储+内存中列存储

1662368274881-bac75647-a11d-4392-8784-0ac8696e4b73.png

这类 HTAP 数据库利用主行存储作为 OLTP 工作负载的基础,并使用内存列存储处理 OLAP 工作负载。所有数据都保存在主行存储中。行存储也是内存优化的,因此可以有效地处理数据更新。更新也会附加到增量存储中,增量存储将合并到列存储中。例如,Oracle 内存双格式数据库结合了基于行的缓冲区和基于列的内存压缩单元 (IMCU) 来一起处理 OLTP 和 OLAP 工作负载。文件和更改缓存在快照元数据单元 (SMU) 中。另一个例子是 SQL Server,它在 Hekaton 行引擎中的内存表上开发了列存储索引 (CSI),以实现实时分析处理。这种类型的 HTAP 数据库具有高吞吐量,因为所有工作负载都在内存中处理。

优势:

  • TP 吞吐量高
  • AP 吞吐量高
  • 数据新鲜度高

劣势:

  • AP 扩展能力低
  • 负载隔离性低

应用:

高吞吐、低扩展(比如需要实时分析的银行系统)

案例研究1:Oracle Dual-Format

1662368275012-7bba198a-260f-4a8d-86b4-1df446d3398b.png
  • SIMD:单指令多数据
  • Max-Min Zone Map
  • Vector Group By:向量化

案例研究2:SQL Server

1662368275280-66062616-b403-4db9-b7f1-e69d826eb465.png
  • Persistent Column Store:持久化列存
  • Updatable:可更新

总结

1662368275457-1a15915d-ff56-4a1f-8ebf-f528ab8ce8b4.png

架构(a)的两个HTAP数据库对比

b. 分布式行存储+列存储副本

1662368275766-ac972012-c095-443d-9b9a-3a5e0869c015.png

此类别依赖于分布式架构来支持 HTAP。主节点在处理事务请求时将日志异步复制到从节点。主存储为行存储,选择一些从节点作为列存储服务器进行查询加速。事务以分布式方式处理以实现高可扩展性;复杂查询在具有列存储的服务器节点中执行。

优势:

  • 负载隔离性高
  • 扩展性高

劣势:

  • 数据新鲜度低

应用:

对TP和AP扩展性要求比较高,同时能够容忍相对较低的数据新鲜度(比如需要实时分析的大规模电商系统)

案例研究:F1 Lightning

1662368276568-562fd28f-a0c8-49b2-ad03-08c3f601076f.png

Yang, Jiacheng, et al. F1 Lightning: HTAP as a Service. PVLDB 13(12), 2020: 3313-3325.

总结

1662368276666-68bfc4e6-ae7a-468d-9cfd-567a5fb00b5f.png

架构(b)的两个HTAP数据库对比

c. 磁盘行存储+分布式列存储

1662368276635-0aa015b7-f8b8-4e87-a558-0356d3fac34c.png

磁盘行存储 + 分布式列存储

这种数据库利用基于磁盘的 RDBMS 和分布式内存列存储 (IMCS) 来支持 HTAP。 RDBMS 保留了 OLTP 工作负载的全部容量,并且深度集成了 IMCS 集群以加速查询处理。列数据从行存储中提取,热数据驻留在 IMCS 中,冷数据将被驱逐到磁盘。例如,MySQL Heatwave将 MySQL 数据库与称为 Heatwave 的分布式 IMCS 集群相结合,以实现实时分析。事务在 MySQL 数据库中完全执行。经常访问的列将被加载到 Heatwave。当复杂查询进来时,可以下推到IMCS引擎进行查询加速。

优势:

  • 负载隔离性高
  • AP吞吐量和扩展性高

劣势:

  • 数据新鲜度不高
  • Medium(On-premise):部署在本地,在不同机器上会有数据新鲜度的牺牲
  • Low(Cloud-based):部署在云端,网络延迟会影响数据新鲜度

应用:

对AP扩展性要求比较高,同时能够容忍相对较低的数据新鲜度(比如需要实时分析的IoT应用)

案例研究1:MySQL Heatwave

1662368276706-5685b224-07e4-44bb-a748-d5654675082a.png

MySQL Heatwave. Real-time Analytics for MySQL Database Service, August 2021, Version 3.0

  • Auto-pilot service:自动调优(一些云服务,可以在系统中自动帮客户实现数据分区、查询优化和资源调度等等)
  • Auto-Sunc:自动同步(可实现定时定量同步数据)

案例研究2:Oracle RAC

1662368277443-bc8182c4-6c8f-48a7-ae78-ff4fb6e4fa70.png

Lahiri, Tirthankar, et al. Oracle database in-memory: A dual format in-memory<br>database. In ICDE, 2015.

  • Auto-Sunc:自动同步(基于阈值的方式)

总结

1662368277948-f196b46f-813d-4c33-ac29-3c3d514ea046.png

架构(c)的两个HTAP数据库对比

d. 主列存储+增量行存储

1662368278159-f7869e4d-449e-4125-a44e-41ddf0461a45.png

主列存储+增量行存储

此类数据库利用主列存储作为 OLAP 的基础,并使用增量行存储处理 OLTP。内存中的 delta-main HTAP 数据库将整个数据存储在主列存储中。数据更新附加到基于行的增量存储。OLAP 性能很高,因为列存储是高度读取优化的。但是,由于 OLTP 工作负载只有一个增量行存储,因此 OLTP 的可伸缩性很低。一个代表是 SAPHANA 。它将内存中的数据存储分为三层:L1-delta、L2-delta 和 Main。 L1-delta以逐行格式保持数据更新。当达到阈值时,将 L1-delta 中的数据附加到 L2-delta。 L2-delta 将数据转换为列数据,然后将数据合并到主列存储中。最后,将列数据持久化到磁盘存储。

优势:

  • 数据新鲜度高
  • AP吞吐量高

劣势:

  • TP可扩展性不高
  • 负载隔离性不高

应用:

高AP吞吐量、高数据新鲜度(比如需要实时分析的风控系统)

案例1:SAP HANA

1662368278269-e1b24294-dc5d-48e2-ba8e-fc8af5fe925e.png

Sikka, Vishal, et al. Efficient transaction processing in SAP HANA database: the end of a column store myth. In SIGMOD. 2012.

案例2:Hyper(Column)

1662368278651-77aca8a4-86a9-4fb9-9269-4a68367952c2.png

Neumann, Thomas, Tobias Mühlbauer, and Alfons Kemper. Fast serializable multi-version concurrency control for main-memory database systems. In SIGMOD ,2015.

总结

1662368279113-ab9cde7a-febf-4df8-83b6-61cffa40a368.png

架构(d)的两个HTAP数据库对比

四种架构HTAP数据库的对比

1662368279515-19d6c895-cf70-4779-abf1-5c3595ec50d4.png

Part3 HTAP 技术

HTAP的相关技术包括(1)事务处理; (2)分析处理; (3) 数据同步;(4) 查询优化; (5)资源调度。这些关键技术被最先进的 HTAP 数据库采用。然而,它们在各种指标上各有利弊,例如效率、可扩展性和新鲜度等等。

这个部分我们留到下一篇文章再做讨论。

本文作者:李明康

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容