1. 数据仓库 1.1. 基本概念 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,...
什么是 Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将S...
MapReduce 排序和序列化 序列化 (Serialization) 是指把结构化对象转化为字节流 反序列化 (Deserializatio...
1:修改hadoop的mapred-site.xml文件 在mapred-site.xml中添加以下内容 2:将修改后的文件分发到另外两台主机 ...
MapReduce 分区 分区概述 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处...
Hadoop-Mapreduce 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapRe...
Hadoop 核心-HDFS 读是并行的,写是顺序的。所以写很慢。 1:HDFS 的 API 操作 1.1 配置Windows下Hadoop环境...
Hadoop 核心-HDFS 1. HDFS概述 1.1 介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在...
Hadoop 1、 Hadoop的介绍 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、...