概念 - 规范 - 概述

规范概述

这是 Paimon 表格格式的规范说明,此文档对 Paimon 的底层文件结构和设计进行了标准化处理。


image.png

术语

  • Schema: 字段、主键定义、分区键定义及选项。
  • Snapshot: 所有在某一特定时间点被记录的数据的入口。
  • Manifest list: 包含若干个清单文件。
  • Manifest: 包含若干数据文件或更新日志文件。
  • Data File: 包含增量记录。
  • Changelog File: 包含由 changelog-producer 生成的记录。
  • Global Index: 桶或分区的索引。
  • Data File Index: 数据文件的索引。

使用 Paimon 运行 Flink SQL:

CREATE CATALOG my_catalog WITH (
    'type' = 'paimon',
    'warehouse' = '/your/path'
);       
USE CATALOG my_catalog;

CREATE TABLE my_table (
    k INT PRIMARY KEY NOT ENFORCED,
    f0 INT,
    f1 STRING
);

INSERT INTO my_table VALUES (1, 11, '111');

看一看对应的磁盘:

warehouse
└── default.db
    └── my_table
        ├── bucket-0
        │   └── data-59f60cb9-44af-48cc-b5ad-59e85c663c8f-0.orc
        ├── index
        │   └── index-5625e6d9-dd44-403b-a738-2b6ea92e20f1-0
        ├── manifest
        │   ├── index-manifest-5d670043-da25-4265-9a26-e31affc98039-0
        │   ├── manifest-6758823b-2010-4d06-aef0-3b1b597723d6-0
        │   ├── manifest-list-9f856d52-5b33-4c10-8933-a0eddfaa25bf-0
        │   └── manifest-list-9f856d52-5b33-4c10-8933-a0eddfaa25bf-1
        ├── schema
        │   └── schema-0
        └── snapshot
            ├── EARLIEST
            ├── LATEST
            └── snapshot-1
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容