Flume flume细节 Hive 数据倾斜Hive优化 Hive分区表新增字段为null的bug及解决方法 SparkSql 数据倾斜spark 数据倾斜 SparkSt...
Flume flume细节 Hive 数据倾斜Hive优化 Hive分区表新增字段为null的bug及解决方法 SparkSql 数据倾斜spark 数据倾斜 SparkSt...
作为一名月薪不高的普通女生,没钱整容,不会修图的情况下,我们要如何一步步变美变成女神呢?看看这篇文章吧,月野大兔亲身经历总结的哟! 一共四大篇章,分别为外型改造篇/内在建设篇...
为获得更好的阅读体验,建议您访问原文地址:传送门前言:在之前的文章里面已经了解到了「消息队列」是怎么样的一种存在(传送门),Kafka 作为当下流行的一种中间件,我们现在开始...
很多人面试的时候被问到一个让人特别手足无措的问题:你的系统如何支撑高并发? 大多数同学被问到这个问题压根儿没什么思路去回答,不知道从什么地方说起,其实本质就是没经历过一些真正...
1. 数据仓库 1.1. 基本概念 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decis...
什么是 Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的...
MapReduce 排序和序列化 序列化 (Serialization) 是指把结构化对象转化为字节流 反序列化 (Deserialization) 是序列化的逆过程. 把字...
1:修改hadoop的mapred-site.xml文件 在mapred-site.xml中添加以下内容 2:将修改后的文件分发到另外两台主机 3:重启hadoop集群 4:...
MapReduce 分区 分区概述 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理 例如: 为了数据的统计, ...
Hadoop-Mapreduce 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之...
Hadoop 核心-HDFS 读是并行的,写是顺序的。所以写很慢。 1:HDFS 的 API 操作 1.1 配置Windows下Hadoop环境 在windows系统需要配置...
Hadoop 核心-HDFS 1. HDFS概述 1.1 介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件...
Hadoop 1、 Hadoop的介绍 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量...
1. zookeeper的数据模型 ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层 次的命名空间,都是采用树形层次结构. ZooKeeper 树...
Zookeeper 1 Zookeeper 的概述 Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题 2:Zo...
1.服务器基本介绍 服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。 在网络环境下,根据...