Flink运行时的组件 Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager),资源管理器(ResourceM...

Flink运行时的组件 Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager),资源管理器(ResourceM...
数据集市 数据集市 (Data Market) ,现在市面上的公司和书籍对数据集市有不同的概念。 数据集市是一种微型的数据仓库,它通常有更少的数据,更少的主题...
SKU sku = Stock Keeping Unit (库存量基本单位) 现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的 SKU 号 SPU spu (Sta...
在 HDFS 上删除文件,可以使用以下命令 hadoop fs -rm -r -skipTrash /path_to_file/file_name 在HDFS 上删除文件夹,...
创建LZO文件索引,LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个
什么是拉链表 拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。 如果当前信息至今有效,在生效结束日期中填入一...
concat_ws 函数 concat_ws 函数在连接字符串的时候,只要有一个字符串不是NULL,就不会返回NULL,concat_ws 函数需要指定分隔符。 hive>...
concat 函数 concat 函数在连接字符串的时候,只要其中一个是NULL,那么将返回NULL hive> select concat('a','b'); ab hi...
UDF 函数特点: 一行进一行出。简称,一进一出 自定义UDF函数,根据传入进来的key,获取对应的value值 UDTF 函数特点:多行进多行出 (解析事件字段) 1.自定...