240 发简信
IP属地:上海
  • Map类型:ClickHouse中对动态字段的支持

    背景介绍 在交互式分析场景下,很多时候除了固定字段之外,还会有一些动态字段的需求。比如,在游戏场景下,需要动态存储用户每个游戏的play时长。 ...

  • ClickHouse复制表同步机制浅析

    ReplicatedMergeTree是ClickHouse最常用的表引擎之一,该引擎和MergeTree一样都继承自MergeTreeData...

  • Resize,w 360,h 240
    Calcite源码学习之VolcanoPlanner

    因为工作中用到calcite做SQL query engine,所以对calcite的源代码做了一些研究,其中VolcanoPlanner是非常...

  • Resize,w 360,h 240
    Spark InsertIntoHiveTable如何commit结果数据

    在maintain我们的daily spark jobs时,发现有的时候一些spark jobs在insert数据到hive table时会在所...

  • Resize,w 360,h 240
    Spark Streaming限流反压机制源码剖析

    本文基于spark streaming通过direct mode访问kafka的场景,从源码出发分析spark streaming如何实现数据读...

  • Resize,w 360,h 240
    Spark TaskMemoryManager如何为task分配执行内存?

    本文讨论跟执行内存密切相关的一个组件:TaskMemoryManager(下文简称TMM)。TMM是tungsten内存管理机制的核心实现类(t...

  • Resize,w 360,h 240
    Spark存储内存在哪些地方用到?

    漫谈Spark内存管理(一)有提到问题:“ Spark中用到内存的地方有哪些?存储内存主要消耗在哪些地方?执行内存主要消耗在哪些地方?”。本文就...

  • Resize,w 360,h 240
    Spark的join什么情况下可以避免shuffle?

    Spark的join操作可能触发shuffle操作。shuffle操作要经过磁盘IO,网络传输,对性能影响比较大。本文聊一聊Spark的join...

  • Resize,w 360,h 240
    Spark自建的逻辑内存管理器是怎么申请和释放内存的?

    在漫谈Spark内存管理(一)中,概述了Spark内存管理做的事情,并着重对unroll memory的概念做了解释及分析。本文继续讨论Spar...