QuantileDiscretizer
(分位数离散化)将一列连续型的数据列转成分类型数据。通过取一个样本的数据,并将其分为大致相等的部分,设定范围。其下限为 -Infinity(负无穷大) ,上限为+Infinity(正无穷大)。
通过设置numBuckets
(桶数目)来所需离散的数目。但如果样本数据只划分了3个区间,此时设置numBuckets
为4,则仍只划分为3个区间。代码如下:
object QuantileDiscretizerExample {
def main(args: Array[String]) {
val spark = SparkSession.builder().master("local[*]").appName("QuantileDiscretizerExample").getOrCreate()
val sc = spark.sparkContext
val sqlContext = spark.sqlContext
import sqlContext.implicits._
val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
val df = sc.parallelize(data).toDF("id", "hour")
df.show()
val discretizer = new QuantileDiscretizer()
.setInputCol("hour")
.setOutputCol("result")
.setNumBuckets(3)
val result = discretizer.fit(df).transform(df)
result.show()
sc.stop()
}
}
其结果如下:
+---+----+------+
| id|hour|result|
+---+----+------+
| 0|18.0| 2.0|
| 1|19.0| 2.0|
| 2| 8.0| 1.0|
| 3| 5.0| 1.0|
| 4| 2.2| 0.0|
+---+----+------+