从 Hadoop 开始

前言

先简单介绍下,Android 9 年老手,从事于大数据行业做 SDK 数据埋点采集,涉及到 Android、iOS、Web、小程序几端。
平时耳濡目染也经常听到一些大数据后端的术语,如 Hadoop、Kafka、Hive、Flink 等,虽然经常打交道,但总是一知半解。身处于大数据浪潮背景下,学习基础的大数据知识显得越加重要。

规划

那么第一步应该怎么走?


学些的渠道和途径千变万化,比如视频学习、看书、上手真实项目等。这里我比较推荐看书和体系化的教程,不推荐视频。我选择的是 github 上推荐的学习路线。
目的是先入门,能做最基本的 demo 项目;后续如果要进一步深耕,会选择买书来看。

大数据

我们首先看下大数据数据基本处理流程:


数据流

由业务衍生出来的框架如下:

  1. 日志收集框架:Flume、Logstash、Filebeat
  2. 分布式文件存储系统:Hadoop HDFS
  3. 数据库系统:Mongodb、HBase
  4. 分布式计算框架:
  • 批处理框架:Hadoop MapReduce
  • 流处理框架:Storm
  • 混合处理框架:Spark、Flink
  1. 查询分析框架:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix
  2. 集群资源管理器:Hadoop YARN
  3. 分布式协调服务:Zookeeper
  4. 数据迁移工具:Sqoop
  5. 任务调度框架:Azkaban、Oozie
  6. 集群部署和监控:Ambari、Cloudera Manager

经上述不完全枚举,可见如果要完整学习完毕,还是需要花费大量的时间与精力。经过一些大数据行业前辈以及自己的理解,接下来我会从这几个框架入手:

  • Hadoop
  • Flink
  • HBase
  • Hive
  • Kafka

而 Hadoop 本身又是很多框架的基础,我们就从 Hadoop 开始吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容