Manifest
Manifest List #
├── manifest
└── manifest-list-51c16f7b-421c-4bc0-80a0-17677f343358-1
清单列表包含了若干个清单文件的元数据。其名称包含 UUID 标识符,是一个 avro 格式的文件,其数据模型为:
- fileName: manifest file name.
- fileSize: manifest file size.
- numAddedFiles: number added files in manifest.
- numDeletedFiles: number deleted files in manifest.
- partitionStats: 分区统计信息方面,此清单中分区字段的最小值和最大值对于在查询过程中跳过某些清单文件是有益的,这是一种简单统计信息。
- schemaId: 在编写此清单文件时所使用的 schema id 。
Manifest #
manifest 包含若干数据文件或变更日志文件或表索引文件的元数据。其名称包含 UUID,是一个 avro 文件。
文件的更改会保存在Manifest中,并且可以对文件进行添加或删除操作。Manifest应按顺序排列,同一个文件可能会被多次添加或删除。应当读取最新版本。这种设计能够使提交操作更轻便,从而支持由压缩操作产生的文件删除。
Data Manifest #
数据清单包含了若干数据文件或变更日志文件的相关元数据。
├── manifest
└── manifest-6758823b-2010-4d06-aef0-3b1b597723d6-0
The schema is: