大数据这块的学习,主要分为两个方向。
离线数据仓库
1.离线数据仓库需要掌握的内容为:
Hadoop(HDFS,MapReduce,YARN)
Hive(重点)
Spark(Spark 会用及了解原理)
Oozie(工具,会用即可)
离线数仓建设(搭建数仓,数仓建模规范,概念的东西,了解即可)
维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模,了解即可)
2.实时数据仓库需要掌握的内容为:
Hadoop(HDFS,MapReduce,YARN)
Kafka(重点,消息队列要求掌握)
Flink(实时计算框架要求掌握)
HBase(会用,了解原理)
Druid(会用,了解原理)
实时数仓架构(两种数仓架构:Lambda架构和Kappa架构,了解即可)
然后需要的语言,前期基本上 JAVA 就可以了。