d640bb7081d8 - 简书

发简信

1
关注
0
粉丝
2
文章
985

字数
0

收获喜欢
1

总资产

IP属地：上海

d640bb7081d8

MapReduce：详细介绍Shuffle的执行流程
一、Shuffle描述 Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.shuffle(List)方法，它会随机地打乱参数...

吃货大米饭
1515 0 1
d640bb7081d8

MR的shuffle机制
Shuffle过程是MapReduce的核心，描述着数据从map task输出到reduce task输入的这段过程。 Hadoop的集群环境，大部分的map task和re...

MOOJ
2729 0 9

d640bb7081d8

MySQL慢查询八戒（寻常之见）
1. 避免使用子查询由于子查询会产生大量的临时表也没有索引，所以会消耗过多的CPU和IO资源，产生大量的慢查询【子查询性能差的原因】 2. in 查询的避免（我经理，所...

歩羡仙
481 8 6
d640bb7081d8

pandas2
3、Pandas 数据结构 - DataFrame DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。Data...

三块给你买麻糬_31c3
555 0 9
d640bb7081d8

加了唯一索引，但数据还是有重复的，原来如此。
今天刚创建了一个表，为订单号创建了唯一索引。在测试同学测试的过程中，看了一下数据，竟然有重复订单号？怎么想都想不明白，问了另一个大牛，他告诉我：因为分库分表了。唯一键只能保...

王月亮17
633 0 10
d640bb7081d8

Hive中的行转列，列转行
一、背景在使用Hive的数据开发工作中，为了处理复杂的业务需求，经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间，提高工作效率，现将Hive行列互转的操作方法...

LiuPineapple
14076 0 3
d640bb7081d8

Atlas介绍
一. Apache Atlas简介 1.1 简介在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。大部分公司只是单纯的对数据进行了处理，而数据的血缘...

只是甲
4202 0 2

d640bb7081d8

Spark中RDD是什么
一、RDD是什么？ RDD是一个弹性可复原的分布式数据集！RDD是一个逻辑概念，一个RDD中有多个分区，一个分区在Executor节点上执行时，他就是一个迭代器。一个RDD...

atdoking
551 0 1
d640bb7081d8

第六章 Flink中的时间和窗口
时间语义上图是数据流式处理过程，涉及到两个重要的时间点：事件时间（Event Time）和处理时间（Processing Time）。事件时间（Event Time）：即...

井底蛙蛙呱呱呱
2613 0 7
d640bb7081d8

Flink 的窗口
Flink 的窗口分类： 1.Flink 的窗口分类如下图： 2. 窗口的详细介绍：

wudl
99 0 2
d640bb7081d8

mr执行过程及运行原理
split逻辑切分：这里的分片不是物理分片，输入分片存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数据例如10MB文件，切分10各1MB小文件，0-1MB位置...

xuanxing123
2854 0 3
d640bb7081d8

MR作业提交流程分析
Hadoop 2.x引入了一种新的执行机制。这种新机制（MR 2）建立在一个名为YARN的系统上。而用于执行的框架通过 “mapreduce.framework.name” ...

liuzx32
2707 0 2

d640bb7081d8

数据仓库之Hive快速入门 - 离线&实时数仓架构
数据仓库VS数据库数据仓库的定义: 数据仓库是将多个数据源的数据经过ETL（Extract（抽取）、Transform（转换）、Load（加载））理之后，按照一定的主题集成...

端碗吹水
1723 0 11
d640bb7081d8

分布式系统的CAP理论
文章转载自：https://www.hollischuang.com/archives/666 2000年7月，加州大学伯克利分校的Eric Brewer教授在ACM POD...

晓阳emmm
762 0 5
d640bb7081d8

hbase的优化
1、rowkey设计有哪三原则? ①长度原则：rowkey是二进制码流。10-100个字节。 ②散列原则：rowkey是按照字典序存储的。利用该规则，将数据均衡的分到不同...

becooner
587 0 1
d640bb7081d8

Redis的几种数据模型及应用场景
字符串(K-V) 字符串(K-V)是我们在Redis中使用最多的一个类型，其中V的值不能超过512M，甚至很多人用Redis只用这个类型。如果只是单纯的使用K-V其实是并没有...

迦若莹
1004 0 2
d640bb7081d8

1spark执行流程
spark安装教程http://dblab.xmu.edu.cn/blog/install-hadoop/，问题解决https://www.cnblogs.com/woofw...

barriers
501 0 1

d640bb7081d8

数据仓库建模的三范式
数据仓库三范式简要概括一下是什么意思数据仓库三范式是一种规范，用于指导数据仓库设计的优化。它包括以下三个范式：第一范式（1NF）：确保每个数据表都有一个主键，并且每个字段...

93 0 0
d640bb7081d8

维度表的维护和更新
维度表是数据仓库中的一种重要表，用于存储描述性信息，如产品、地理位置、时间等。维度表的维护和更新是数据仓库中的一个关键任务，确保了数据的准确性和完整性。下面是一些常见的维度表...

153 0 0
d640bb7081d8

Flink中的5种窗口使用场景
面试官有可能这么问:1.Flink中对窗口的支持包括哪几种？说说他们的使用场景 flink支持两种划分窗口的方式（time和count）如果根据时间划分窗口，那么它就是一个...

bigdata张凯翔
4022 0 1

暂无个人介绍