240 发简信
IP属地:北京
  • Flink架构

    JobManager 控制一个应用程序执行的主进程,每个应用程序将由不同的JobManager控制执行。JobManager会先接收到要执行的应...

  • 《Spark技术内幕》阅读笔记1

    执行的几个阶段 Driver是用户编写的数据处理逻辑,包含用户创建的SparkContext。SparkContext是用户逻辑与Spark集群...

  • Kafka消费者

    一个应用程序要从Kafka主题读取消息,需要创建一个消费者对象,订阅主题并接收消息。单个消费者跟不上消息生成速度,对消费者横向扩展,可使用多个消...

  • Kafka生产者

    生产者向Kafka发送消息,需要创建一个ProducerRecord对象,包含目标主题和要发送的内容,还可指定键或分区。(Topic,Parti...

  • Kafka重要设置

    Kafka使用Zookeeper保存集群的元数据信息和消费者信息。每个broker都有一个标识符,broker.id,这个值在整个Kafka集群...

  • Hive基础总结

    Hive是将一个现有的数据基础架构转移到Hadoop上,而这个基础架构是基于传统关系型数据库和结构化查询语句的(SQL)。Hadoop对Hive...

  • flink简介

    spark本身是基于批处理模式的原因,并不能完美高效处理原生的数据流,因此对流式处理计算支持较弱。有状态流计算架构,状态就是计算过程中产生的中间...

  • 创建高性能索引

    索引是存储引擎用于快速找到记录的一种数据结构。在数据量较小且负载较低时,不恰当的索引对性能的影响可能还不明显,但当数据量逐渐增大时,性能会急剧下...

  • Schema与数据类型优化

    选择优化的数据类型 尽量使用可以正确存储数据的最小数据类型。要确保没有低估需要存储的值的范围,在schema中的多个地方增加数据类型的范围是非常...