QuantileDiscretizer用法

QuantileDiscretizer（分位数离散化）将一列连续型的数据列转成分类型数据。通过取一个样本的数据，并将其分为大致相等的部分，设定范围。其下限为 -Infinity(负无穷大) ，上限为+Infinity(正无穷大)。

通过设置numBuckets（桶数目）来所需离散的数目。但如果样本数据只划分了3个区间，此时设置numBuckets为4，则仍只划分为3个区间。代码如下：

object QuantileDiscretizerExample {
  def main(args: Array[String]) {
    val spark = SparkSession.builder().master("local[*]").appName("QuantileDiscretizerExample").getOrCreate()
    val sc = spark.sparkContext
    val sqlContext = spark.sqlContext
    import sqlContext.implicits._

    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
    val df = sc.parallelize(data).toDF("id", "hour")
    df.show()
    val discretizer = new QuantileDiscretizer()
      .setInputCol("hour")
      .setOutputCol("result")
      .setNumBuckets(3)

    val result = discretizer.fit(df).transform(df)
    result.show()

    sc.stop()
  }
}

其结果如下：


+---+----+------+
| id|hour|result|
+---+----+------+
|  0|18.0|   2.0|
|  1|19.0|   2.0|
|  2| 8.0|   1.0|
|  3| 5.0|   1.0|
|  4| 2.2|   0.0|
+---+----+------+

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

QuantileDiscretizer用法

QuantileDiscretizer用法

相关阅读更多精彩内容

友情链接更多精彩内容