一、背景 事实表通常存储在kafka中,维表通常存储在外部设备中(比如MySQL,HBase)。对于每条流式数据,可以关联一个外部维表数据源,为...
一、背景 传统数仓分为离线和实时两个部分 离线部分属于业务驱动,固定的计算逻辑,通过定时调度,最后产出报表; 实时部分属于需求驱动,需要灵活开发...
一、Environment 1.getExecutionEnvironment 创建一个执行环境,表示当前执行程序的上下文。 如果程序是独立调用...
调优的思路依赖平时工作中不断总结所形成的丰富经验。而这些是很难直接从知识文档中获取的,应当具体问题具体分析,本文对Spark调优进行归纳总结,缩...
Spark最一开始使用Akka作为内部通信部件,在Spark1.3为了解决大数据的传输问题,引入Netty通信框架,到了1.6版本Spark已经...
Kafka是一个分布式消息队列,为处理实时数据提供一个统一、高吞吐量、低等待的平台,提供了类似于JMS的特性,但是它并不是JMS规范的实现. J...
问题:1.RDD中基本所有的数据都是存储都在堆内存里,这部分数据是通过jvm中的GC管理的,进行Spark操作的时候可能会出现资源不一致的问题,...
系统中有多个任务同时存在称之为“并发”,并发设计已然成为大规模集群框架的必要特征,本文简单的介绍Scala和golang的并发模型的设计,重点在...
前言:Hadoop集群用久了以后,我们会发现一个问题,HDFS节点间的数据不平衡,尤其在新增和下架节点、或者人为干预副本数量的时候,多的达到80...