小段DSH12138

IP属地：辽宁

Spark[四]——Spark并行度
Spark并行度指在Spark作业中，各个Stage中task的数量，也就代表了Spark作业在各个阶段的并行度。合理设置并行度可以从以下几个方...

6128 0 0
Spark踩坑vlog-推测执行spark.speculation
@TOC[Spark%E8%B8%A9%E5%9D%91vlog-%E6%8E%A8%E6%B5%8B%E6%89%A7%E8%A1%8Cspa...

5000 0 0

Protobuf结合Spark Structured Streaming使用
背景在项目开发中对流式数据使用Spark Structured Streaming进行处理，处理流程为：消息中间件(source) -> Sp...

3895 0 0
Spark流处理中的广播变量
背景前段时间做的是一个流式项目里，场景为：对于流式数据，使用过滤规则进行实时过滤并产出结果数据。流式数据为源源不断的IP，筛选出在合格IP集合...

3744 0 0
Spark踩坑vlog——join时shuffle的大坑
业务背景项目中将两个表进行join，一个大表，一个小表，在平时200 executor-core * 20G executor-memory的...

5045 0 0
Spark踩坑vlog——使用外部存储减轻join时数据负担
背景此次需要将10张表[A、B、C、D、E、F、G、H、I、J]的数据union与表∂中的一个字段进行join，以达到筛选数据的目的；其中表A...

1046 0 0