数据模型和数据存储格式

以列式数据存储格式parquet介绍两者区别。

三个概念:

  1. 存储格式,是数据的二进制组织表示形式,如parquet

  2. 数据对象转换器,其任务是在外部对象模型和Parquet的内部数据类型之间进行映射。

  3. 对象模型,它们是数据的内存表示形式。AvroThriftProtocol BufferHivePig都是对象模型的示例。

三者关系用图表说明:


image.png

Avro,Thrift和Protocol Buffer都有自己的存储格式,但是Parquet不会以任何方式使用它们。而是将它们的对象映射到Parquet数据模型,parquet使用自己的文件格式进行序列化,所以parquet不能读取avor存储格式的数据。

让我们检查一下将Avro对象写入Parquet时会发生什么:


image.png
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容