240 投稿
收录了11篇文章 · 1人关注
  • Resize,w 360,h 240
    大数据计算引擎 —— Flink

    一、Flink 简介   Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink 被设计为运...

  • Resize,w 360,h 240
    流式计算引擎 —— Storm

    一、Apache Storm 简介 1、基本概念   Storm 为分布式实时计算提供了一组通用原语,可被用于 “流处理” 之中,实时处理消息并...

  • Resize,w 360,h 240
    日志采集引擎 —— Flume

    一、什么是 Flume? 1、Flume 是做什么的?   Flume 是 Cloudera 开发的一个高可用、高可靠、分布式的海量日志采集、聚...

  • Resize,w 360,h 240
    数据采集引擎 —— Sqoop

    一、数据采集引擎   在 Hadoop 生态圈中,数据采集引擎负责直接对数据源进行数据采集,常用的有 Sqoop 和 Flume,Sqoop 应...

  • Resize,w 360,h 240
    数据分析引擎 —— Pig

    一、Pig 1、简介   Pig是一个基于Apache Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语...

  • Resize,w 360,h 240
    数据仓库 —— Hive

    一、数据分析引擎   大数据的终极目标,是使用 SQL 语句来处理大数据,这样就能方便不知道怎么编程的数据分析人员进行数据分析。要实现这个目标,...

  • Resize,w 360,h 240
    分布式列式数据库 —— HBase

    一、大数据背景 1、什么是大数据   随着信息化时代的发展,企业对数据的处理面临三大问题。   第一是数据的急剧增长,一些大型的企业每天都会产生...

  • Resize,w 360,h 240
    分布式计算模型 —— MapReduce

    一、背景   MapReduce 是谷歌大数据 “三驾马车” 的第二篇论文,它是一个分布式计算编程模型,主要是为了解决 “Page Rank” ...

  • Resize,w 360,h 240
    NCDC气象大数据处理

    1、下载数据   通过 ftp://ftp.ncdc.noaa.gov/pub/data/noaa 可以下载《hadoop权威指南》第4版的数据...

  • Resize,w 360,h 240
    Hadoop的资源管理系统 —— Yarn

    一、背景和作用   Yarn 是 Hadoop 的资源管理系统,用于取代 MapReduce1 的资源调度,改善 MapReduce 的实现,并...

专题公告

bigdata