旺旺鸽不鸽 - 简书

IP属地：上海

Map类型：ClickHouse中对动态字段的支持
背景介绍在交互式分析场景下，很多时候除了固定字段之外，还会有一些动态字段的需求。比如，在游戏场景下，需要动态存储用户每个游戏的play时长。 ...

0.2 10381 0 2
ClickHouse复制表同步机制浅析
ReplicatedMergeTree是ClickHouse最常用的表引擎之一，该引擎和MergeTree一样都继承自MergeTreeData...

4772 0 1

Calcite源码学习之VolcanoPlanner
因为工作中用到calcite做SQL query engine，所以对calcite的源代码做了一些研究，其中VolcanoPlanner是非常...

2891 0 0
Spark InsertIntoHiveTable如何commit结果数据
在maintain我们的daily spark jobs时，发现有的时候一些spark jobs在insert数据到hive table时会在所...

3551 0 2
Spark Streaming限流反压机制源码剖析
本文基于spark streaming通过direct mode访问kafka的场景，从源码出发分析spark streaming如何实现数据读...

0.6 1690 2 4
Spark TaskMemoryManager如何为task分配执行内存？
本文讨论跟执行内存密切相关的一个组件：TaskMemoryManager（下文简称TMM）。TMM是tungsten内存管理机制的核心实现类（t...

0.2 2154 0 3
Spark存储内存在哪些地方用到？
漫谈Spark内存管理(一)有提到问题：“ Spark中用到内存的地方有哪些？存储内存主要消耗在哪些地方？执行内存主要消耗在哪些地方？”。本文就...

0.3 2258 0 3

Spark的join什么情况下可以避免shuffle？
Spark的join操作可能触发shuffle操作。shuffle操作要经过磁盘IO，网络传输，对性能影响比较大。本文聊一聊Spark的join...

0.4 5297 0 4
Spark自建的逻辑内存管理器是怎么申请和释放内存的？
在漫谈Spark内存管理(一)中，概述了Spark内存管理做的事情，并着重对unroll memory的概念做了解释及分析。本文继续讨论Spar...

1.5 1973 1 2