以列式数据存储格式parquet介绍两者区别。
三个概念:
存储格式,是数据的二进制组织表示形式,如parquet
数据对象转换器,其任务是在外部对象模型和Parquet的内部数据类型之间进行映射。
对象模型,它们是数据的内存表示形式。Avro,Thrift,Protocol Buffer,Hive和Pig都是对象模型的示例。
三者关系用图表说明:
Avro,Thrift和Protocol Buffer都有自己的存储格式,但是Parquet不会以任何方式使用它们。而是将它们的对象映射到Parquet数据模型,parquet使用自己的文件格式进行序列化,所以parquet不能读取avor存储格式的数据。
让我们检查一下将Avro对象写入Parquet时会发生什么: