DataFrame添加列

场景需求: 将SparkSQL计算的结果数据保存到MySQL,但是计算数据里面缺少into_time字段。通过withColumn和UDF实现新加字段。

SparkSession spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate();
    JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());

    /*
     * 注册一个UDF函数,获取当前时间
    */
    final String nowTime = DateUtils.getNowTime();
    spark.udf().register("gettime", new UDF1<Object, String>() {
        private static final long serialVersionUID = 1L;
        @Override
        public String call(Object t1) throws Exception {
            return nowTime;
        }
    }, DataTypes.StringType);
    
    Dataset<Long> df = spark.range(10);
    df.withColumn("into_time", org.apache.spark.sql.functions.callUDF("gettime", df.col("id"))).show();
    //withColumn(String colName,Column col)
    //第一个参数是需要新加字段的字段名
    //第二个参数需要从当前DF对象的某一个字段来获取
    //这里因为需要的是一个时间,输入跟输出并没有关系,所以使用一个自定义的UDF,将id输入UDF,返回值为当前时间。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 今天看到一位朋友写的mysql笔记总结,觉得写的很详细很用心,这里转载一下,供大家参考下,也希望大家能关注他原文地...
    信仰与初衷阅读 10,165评论 0 30
  • .数据库 数据库的发展: 文件系统(使用磁盘文件来存储数据)=>第一代数据库(出现了网状模型,层次模型的数据库)=...
    小Q逛逛阅读 4,596评论 0 2
  • 一、MySQL优化 MySQL优化从哪些方面入手: (1)存储层(数据) 构建良好的数据结构。可以大大的提升我们S...
    宠辱不惊丶岁月静好阅读 7,257评论 1 8
  • 1 Spark Streaming Spark Streaming is an extension of the ...
    wong11阅读 12,741评论 0 5
  • 一斛珠 送别 词/老财神(霍胜泽) 残阳如血,秋蝉树上声音咽。手牵紧紧相依别,脉脉深情,有火机相捏。 远视情郎...
    老财神阅读 2,669评论 0 2