240 发简信
IP属地:辽宁
  • Spark[四]——Spark并行度

    Spark并行度指在Spark作业中,各个Stage中task的数量,也就代表了Spark作业在各个阶段的并行度。合理设置并行度可以从以下几个方...

  • Spark踩坑vlog-推测执行spark.speculation

    @TOC[Spark%E8%B8%A9%E5%9D%91vlog-%E6%8E%A8%E6%B5%8B%E6%89%A7%E8%A1%8Cspa...

  • Protobuf结合Spark Structured Streaming使用

    背景 在项目开发中对流式数据使用Spark Structured Streaming进行处理,处理流程为:消息中间件(source) -> Sp...

  • Spark流处理中的广播变量

    背景 前段时间做的是一个流式项目里,场景为:对于流式数据,使用过滤规则进行实时过滤并产出结果数据。流式数据为源源不断的IP,筛选出在合格IP集合...

  • Spark踩坑vlog——join时shuffle的大坑

    业务背景 项目中将两个表进行join,一个大表,一个小表,在平时200 executor-core * 20G executor-memory的...

  • Spark踩坑vlog——使用外部存储减轻join时数据负担

    背景 此次需要将10张表[A、B、C、D、E、F、G、H、I、J]的数据union与表∂中的一个字段进行join,以达到筛选数据的目的;其中表A...