JobManager 控制一个应用程序执行的主进程,每个应用程序将由不同的JobManager控制执行。JobManager会先接收到要执行的应...
执行的几个阶段 Driver是用户编写的数据处理逻辑,包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群...
一个应用程序要从Kafka主题读取消息,需要创建一个消费者对象,订阅主题并接收消息。单个消费者跟不上消息生成速度,对消费者横向扩展,可使用多个消...
生产者向Kafka发送消息,需要创建一个ProducerRecord对象,包含目标主题和要发送的内容,还可指定键或分区。(Topic,Parti...
Kafka使用Zookeeper保存集群的元数据信息和消费者信息。每个broker都有一个标识符,broker.id,这个值在整个Kafka集群...
Hive是将一个现有的数据基础架构转移到Hadoop上,而这个基础架构是基于传统关系型数据库和结构化查询语句的(SQL)。Hadoop对Hive...
spark本身是基于批处理模式的原因,并不能完美高效处理原生的数据流,因此对流式处理计算支持较弱。有状态流计算架构,状态就是计算过程中产生的中间...
索引是存储引擎用于快速找到记录的一种数据结构。在数据量较小且负载较低时,不恰当的索引对性能的影响可能还不明显,但当数据量逐渐增大时,性能会急剧下...
选择优化的数据类型 尽量使用可以正确存储数据的最小数据类型。要确保没有低估需要存储的值的范围,在schema中的多个地方增加数据类型的范围是非常...