QuantileDiscretizer用法

QuantileDiscretizer(分位数离散化)将一列连续型的数据列转成分类型数据。通过取一个样本的数据,并将其分为大致相等的部分,设定范围。其下限为 -Infinity(负无穷大) ,上限为+Infinity(正无穷大)。

通过设置numBuckets(桶数目)来所需离散的数目。但如果样本数据只划分了3个区间,此时设置numBuckets为4,则仍只划分为3个区间。代码如下:

object QuantileDiscretizerExample {
  def main(args: Array[String]) {
    val spark = SparkSession.builder().master("local[*]").appName("QuantileDiscretizerExample").getOrCreate()
    val sc = spark.sparkContext
    val sqlContext = spark.sqlContext
    import sqlContext.implicits._

    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
    val df = sc.parallelize(data).toDF("id", "hour")
    df.show()
    val discretizer = new QuantileDiscretizer()
      .setInputCol("hour")
      .setOutputCol("result")
      .setNumBuckets(3)

    val result = discretizer.fit(df).transform(df)
    result.show()

    sc.stop()
  }
}

其结果如下:


+---+----+------+
| id|hour|result|
+---+----+------+
|  0|18.0|   2.0|
|  1|19.0|   2.0|
|  2| 8.0|   1.0|
|  3| 5.0|   1.0|
|  4| 2.2|   0.0|
+---+----+------+
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容