1 初识 Scala 1.1 Scala 概述 Scala 是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 是运行于 Java 平台...
1 Elasticsearch 简介 1.1 什么是 Elasticsearch? Elasticsearch是一个基于 Apache Lucene 的开源搜索引擎。无论在开...
1 概述 什么是 ClickHouse? ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),主要用于在线分析处理查询(OLAP),能够...
1 简介 Hue 是什么? Hue=Hadoop User Experience(Hadoop 用户体验),直白来说就一个开源的 Apache Hadoop UI 系统,它是...
1 概述 1.1 什么是 Impala? Cloudera 公司推出,提供对 HDFS、Hbase 数据的高性能、低延迟的交互式 SQL 查询功能。 基于 Hive,使用内存...
0、准备工作 关闭防火墙 禁止交换 禁用大页面 1、JDK 卸载现有 Java 解压到 /opt/module 目录 配置环境变量 刷新配置 测试是否安装成功 2、MySQL...
yyK## 1 Kylin 概述 1.1 Kylin定义 Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维...
1 Azkaban 概述 1.1 为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成:shell,java,mr、hive 等 各任务单元之间存在时间...
1 Oozie 简介 一个基于工作流引擎的开源框架,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调,主要用于定时调度任务,多任务可以按照执行的逻...
1 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop 与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到 HDFS 中,也可以将 H...
1 高可用 在 HBase 中 HMaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个...
1 HBase 概述 1.1 什么是 HBase? HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上...
1.Kafka中的ISR、AR代表什么? ISR:与leader保持同步的follower集合 AR:分区的所有副本 2.Kafka中的HW、LEO分别代表什么? LEO:每...
1 Kafka概述 1.1 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 应用场景: 解耦 异步 削峰 1.2 消息队列 1.2...
1Flume概述 1.1 定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统; Flume基于流式架构,灵活简单。 1.2...
1 Fetch 抓取 Fectch 抓取是指对某些情况下的查询不必使用 MapReduce 计算 将 hive.fetch.task.conversion 设置成 more,...
1 Hive 基本概念 1.1 什么是 Hive? Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具...