一、Shuffle描述 Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数...
一、Shuffle描述 Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数...
Shuffle过程是MapReduce的核心,描述着数据从map task输出到reduce task输入的这段过程。 Hadoop的集群环境,大部分的map task和re...
1. 避免使用子查询 由于子查询会产生大量的临时表也没有索引,所以会消耗过多的CPU和IO资源,产生大量的慢查询 【子查询性能差的原因】 2. in 查询的避免(我经理,所...
3、Pandas 数据结构 - DataFrame DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。Data...
今天刚创建了一个表,为订单号创建了唯一索引。在测试同学测试的过程中,看了一下数据,竟然有重复订单号?怎么想都想不明白,问了另一个大牛,他告诉我: 因为分库分表了。唯一键只能保...
一、背景 在使用Hive的数据开发工作中,为了处理复杂的业务需求,经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间,提高工作效率,现将Hive行列互转的操作方法...
一. Apache Atlas简介 1.1 简介 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行了处理,而数据的血缘...
一、RDD是什么? RDD是一个弹性可复原的分布式数据集!RDD是一个逻辑概念,一个RDD中有多个分区,一个分区在Executor节点上执行时,他就是一个迭代器。 一个RDD...
时间语义 上图是数据流式处理过程,涉及到两个重要的时间点:事件时间(Event Time)和处理时间(Processing Time)。 事件时间(Event Time):即...
Flink 的窗口分类: 1.Flink 的窗口分类如下图: 2. 窗口的详细介绍:
split逻辑切分: 这里的分片不是物理分片,输入分片存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数据 例如10MB文件,切分10各1MB小文件,0-1MB位置...
Hadoop 2.x引入了一种新的执行机制。这种新机制(MR 2)建立在一个名为YARN的系统上。而用于执行的框架通过 “mapreduce.framework.name” ...
数据仓库VS数据库 数据仓库的定义: 数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成...
文章转载自:https://www.hollischuang.com/archives/666 2000年7月,加州大学伯克利分校的Eric Brewer教授在ACM POD...
1、rowkey设计有哪三原则? ①长度原则:rowkey是二进制码流。10-100个字节。 ②散列原则:rowkey是按照字典序存储的。利用该规则,将数据均衡的分到不同...
字符串(K-V) 字符串(K-V)是我们在Redis中使用最多的一个类型,其中V的值不能超过512M,甚至很多人用Redis只用这个类型。如果只是单纯的使用K-V其实是并没有...
spark安装教程http://dblab.xmu.edu.cn/blog/install-hadoop/,问题解决https://www.cnblogs.com/woofw...
数据仓库三范式简要概括一下是什么意思 数据仓库三范式是一种规范,用于指导数据仓库设计的优化。它包括以下三个范式: 第一范式(1NF):确保每个数据表都有一个主键,并且每个字段...
维度表是数据仓库中的一种重要表,用于存储描述性信息,如产品、地理位置、时间等。维度表的维护和更新是数据仓库中的一个关键任务,确保了数据的准确性和完整性。下面是一些常见的维度表...
面试官有可能这么问:1.Flink中对窗口的支持包括哪几种?说说他们的使用场景 flink支持两种划分窗口的方式(time和count) 如果根据时间划分窗口,那么它就是一个...