Hive
Hive是读时模式:
在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。
因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称为“写时模式”(schema on write)。
Hive这种类型的数据处理模式对数据的验证并在不加载数据时进行,而在查询时进行。这称为“读时模式”(schema on read)
Hive会为每个数据库创建一个目录。数据库中的表会以这个数据库目录的子目录形式存储(default库例外)
数据库所在的目录位于属性hive.metastore.warehouse.dir所指的顶层目录之后,文件目录名是以.db结尾的
外部表
关键字EXTENAL指明外部表,LOCATION...字句指明数据在哪个路径下
删除外部表时不会删除掉这份数据,元数据会被删除
分区表
改变了Hive对数据存储的组织方式 PARTITIONED BY ,会创建好可以反映分区结构的子目录
strict严格模式:
1、对分区表进行查询而WHERE没有加分区过滤,将会禁止提交这个任务
2、ORDER BY语句的查询必须使用limit语句
3、笛卡尔积
STORED AS TEXTFILE: 文本文件格式存储数据(默认)
STORED AS SEQUENCEFILE/RCFILE: 二进制编码和压缩来优化磁盘空间以及IO带宽性能
Hive总是按照从左到右的顺序执行
a join b join c:启动一个MapReduce job对表a表b进行连接操作,然后再启动一个MapReduce job将其输出和c进行连接操作,
如果每个ON子句都使用相同连接键则只会产生一个MapReduce job
join时大表放右边
map-side join :有一个表足够小到可以完全载入到内存中,这样可以减少reduce过程,有时甚至可以减少map task任务
Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。
1、行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。
2、列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。
3、页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。