规范概述
这是 Paimon 表格格式的规范说明,此文档对 Paimon 的底层文件结构和设计进行了标准化处理。

image.png
术语
- Schema: 字段、主键定义、分区键定义及选项。
- Snapshot: 所有在某一特定时间点被记录的数据的入口。
- Manifest list: 包含若干个清单文件。
- Manifest: 包含若干数据文件或更新日志文件。
- Data File: 包含增量记录。
- Changelog File: 包含由 changelog-producer 生成的记录。
- Global Index: 桶或分区的索引。
- Data File Index: 数据文件的索引。
使用 Paimon 运行 Flink SQL:
CREATE CATALOG my_catalog WITH (
'type' = 'paimon',
'warehouse' = '/your/path'
);
USE CATALOG my_catalog;
CREATE TABLE my_table (
k INT PRIMARY KEY NOT ENFORCED,
f0 INT,
f1 STRING
);
INSERT INTO my_table VALUES (1, 11, '111');
看一看对应的磁盘:
warehouse
└── default.db
└── my_table
├── bucket-0
│ └── data-59f60cb9-44af-48cc-b5ad-59e85c663c8f-0.orc
├── index
│ └── index-5625e6d9-dd44-403b-a738-2b6ea92e20f1-0
├── manifest
│ ├── index-manifest-5d670043-da25-4265-9a26-e31affc98039-0
│ ├── manifest-6758823b-2010-4d06-aef0-3b1b597723d6-0
│ ├── manifest-list-9f856d52-5b33-4c10-8933-a0eddfaa25bf-0
│ └── manifest-list-9f856d52-5b33-4c10-8933-a0eddfaa25bf-1
├── schema
│ └── schema-0
└── snapshot
├── EARLIEST
├── LATEST
└── snapshot-1