IP属地:新疆
在实时计算里,最出名的是几个框架应该就是spark streaming 、storm和flink ,最近两年各大互联网大厂纷纷切到flink,为...
1.客户端通过调用FileSyste 对象的open()方法来打开希望读取的文件,对于Hdfs来说,这个对象是DistributedFileS...
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系...
不知什么原因,大部分发的简书都被封了!
纳尼?纳尼?纳尼? 1.什么是map的数据本地化优化? Hadoop 在存储有输入数据(hdfs中的数据)的节点上运行map任务,可以获得最佳性...
什么是缓慢变化维?缓慢变化维有多少种处理方法?缓慢变化维,即同一维表中属性随时间发生变化,那对于这种变化的维度,在数据仓库建设时有多少种处理方法...
简介:Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入A...
最近终于有点时间了,东拼西凑的设计了一个日期维表,也是数仓设计时比较常用的。表结构如下: dt string COMMENT '日历日期',lu...
Map Reduce 执行过程是数仓hql调优所必须熟知的,也是初高级数仓工程师面试基本必问的一块内容,所以为了面包,巩固学习一下。 Map R...