Spark 自定义聚合函数-求中位数

自定义聚合函数的场景

业务需要统计最接近两年某商品在门店销售价格的中位数

由于spark 原生并不支持这样的聚合操作,所这个时候自定义聚合函数产生了。
中位数:所有输入数据排序,取中间的一个结果,或者中间两个结果的平均数。

自定义聚合函数开发步骤

1、 自定义类 class,并且继承 UserDefinedAggregateFunction。
2、 重写父类方法、、以及属性。
3、 注册自方法 使用 session.udf.register。

实现类
package cn.harsons.mbd.fun

import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._

import scala.collection.mutable.ListBuffer

/**
  * 自定义聚合函数
  *
  * @author liyabin
  * @date 2020/3/11 0011
  */
class Middle extends UserDefinedAggregateFunction {

  /**
    * 分割字符串
    */
  val split_str = "_"

  // 输入值 类型
  override def inputSchema: StructType = StructType(StructField("data", DoubleType) :: Nil)

  // 缓冲类型
  override def bufferSchema: StructType = StructType(StructField("middle", StringType) :: Nil)

  // 返回值类型
  override def dataType: DataType = DoubleType

  //对于数据一样的情况下 返回值时候一样
  override def deterministic: Boolean = true

  /**
    * 初始化时调用
    *
    * @param buffer
    */
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer.update(0, "")
  }

  /**
    * 一个节点统计操作,每次输入一行记录。需要根据旧的缓冲和新来的数据 做逻辑处理
    *
    * @param buffer 缓冲引用
    * @param input  新的值
    */
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer.update(0, buffer.get(0).asInstanceOf[String] + split_str + input.getDouble(0).toString)
  }

  /**
    * 多条记录时如何处理 -》 其实就是两个Node计算出来的结果合并操作
    *
    * @param buffer1 节点一的缓冲区
    * @param buffer2 节点二缓冲区
    */
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1.update(0, buffer1.get(0).asInstanceOf[String] + split_str + buffer2.get(0).asInstanceOf[String])
  }

  /**
    * 最后输出 即 函数输出。 这里作用主要是取中位数。
    *
    * @param buffer 汇集后的缓冲区
    * @return
    */
  override def evaluate(buffer: Row): Any = {

    val str = buffer.get(0).asInstanceOf[String]
    val arrays = str.split(split_str)
    val list = new ListBuffer[Double]
    for (str <- arrays) {
      if (str != null && !str.isEmpty) {
        list.append(str.toDouble)
      }
    }
    if (list.isEmpty) {
      return null
    }
    val sorted = list.sorted
    var size = sorted.size
    size = sorted.size
    // 偶数
    if (size % 2 == 0) {
      val middle_first = size / 2
      val middle_second = (size / 2) - 1
      (sorted(middle_first) + sorted(middle_second)) / 2
    } else {
      sorted(size / 2)
    }
  }
}

执行查询
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[2]").getOrCreate()
    val middle = spark.udf.register("middle", new Middle)
    val data = spark.createDataFrame(Seq(
      ("篮球", 56.0), ("足球", 66.0), ("高尔夫", 666.0),
      ("篮球", 57.0), ("足球", 166.0), ("高尔夫", 424.0),
      ("篮球", 58.0), ("足球", 266.0), ("高尔夫", 369.0),
      ("篮球", 59.0), ("足球", 111.0), ("高尔夫", 99.0),
      ("篮球", 66.0), ("足球", 99.0), ("高尔夫", 100.0))).toDF("name", "price")
    data.createOrReplaceTempView("orders")
    spark.sql("select name , middle(price) as  middlePrice from orders group by name ").show(10)
    spark.stop()
  }
结果输出
image.png
踩过的坑

楼主也是刚接触Spark,刚接触这个自定义函数时使用的是强类型自定义聚合函数。当时是想着使用ListBuffer 还缓冲列中所有结果,发现使用ListBuffer Spark 在生成代码时会报错,类型不支持。后面改成弱类型的ObjectType 也是报错。最终无奈之下只能用String 拼接。拼接完后在切割。如果大佬有好的解决办法还请赐教 !

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容