240 发简信
IP属地:四川
  • 120
    Spark之SortShuffle

    SortShuffleManager两种运行机制 SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制;普通机制: b...

  • Spark-streaming监控批次处理信息

    实时任务监控原因 在实时任务执行的过程中,由于数据突然激增或网络阻塞等情况,使得任务数据堆积或失败等 解决办法 通过实现SparkListener和StreamingList...

  • 120
    Spark-sql优化器之PruneFileSourcePartitions修改

    问题 在spark-sql中使用此种 partition BETWEEN 'start' AND 'end' OR (partition = 'other' AND colu...

  • 120
    Spark-sql读取hive分区表限制分区过滤条件及限制分区数量

    问题描述 在开发过程中使用spark去读取hive分区表的过程中(或者使用hive on spark、nodepad开发工具),部分开发人员未注意添加分区属性过滤导致在执行过...

  • 120
    Spark-sql中时间格式类型推导问题

    在使用Spark-sql开发过程中有时候没有注意数据类型,导致程序本身进行数据类型推导,使得任务执行能正常执行(无报错信息)但程序无数据输出; 例如执行如下代码 由...

  • [Spark SQL] 源码解析之Analyzer

    前言 由前面博客我们知道了SparkSql整个解析流程如下: sqlText 经过 SqlParser 解析成 Unresolved LogicalPlan; analyze...