一、Flink 简介 Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink 被设计为运...
一、Flink 简介 Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink 被设计为运...
一、Apache Storm 简介 1、基本概念 Storm 为分布式实时计算提供了一组通用原语,可被用于 “流处理” 之中,实时处理消息并...
一、什么是 Flume? 1、Flume 是做什么的? Flume 是 Cloudera 开发的一个高可用、高可靠、分布式的海量日志采集、聚...
一、数据采集引擎 在 Hadoop 生态圈中,数据采集引擎负责直接对数据源进行数据采集,常用的有 Sqoop 和 Flume,Sqoop 应...
一、Pig 1、简介 Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语...
一、数据分析引擎 大数据的终极目标,是使用 SQL 语句来处理大数据,这样就能方便不知道怎么编程的数据分析人员进行数据分析。要实现这个目标,...
一、大数据背景 1、什么是大数据 随着信息化时代的发展,企业对数据的处理面临三大问题。 第一是数据的急剧增长,一些大型的企业每天都会产生...
一、背景 MapReduce 是谷歌大数据 “三驾马车” 的第二篇论文,它是一个分布式计算编程模型,主要是为了解决 “Page Rank” ...
1、下载数据 通过 ftp://ftp.ncdc.noaa.gov/pub/data/noaa 可以下载《hadoop权威指南》第4版的数据...
一、背景和作用 Yarn 是 Hadoop 的资源管理系统,用于取代 MapReduce1 的资源调度,改善 MapReduce 的实现,并...
专题公告
bigdata