dataframe 的基本操作

package bl.test.spark

import org.apache.spark.sql.SparkSession

object DataFrameApp {
  def main(args: Array[String]) {

    val spark = SparkSession.builder().appName("DataFrameApp")
      .master("local[2]").getOrCreate()

    val peopleDF = spark.read.format("json").load("file:////home/zy/Desktop/success.json")

    //输出dataframe对应的schema信息
    //peopleDF.printSchema()
    //展示前100条
    //peopleDF.show(100)
    //只显示IMEI字段的前20条
    //peopleDF.select("IMEI").show()
    //查询某几个列的数据 并且计算
    //peopleDF.select(peopleDF.col("IMEI"),(peopleDF.col("TaskID")+10).as("TaskID2")).show()
    //根据某一列的值进行过滤
    peopleDF.filter((peopleDF.col("TaskID")>20)).show()

    //根据某一列进行分组 在进行聚合操作 select TaskID,count(1) from table group by TaskID
    peopleDF.groupBy("TaskID").count().show()
    spark.stop()
  }
}

最后编辑于：2018.09.08 15:46:02

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文

dataframe 的基本操作

相关阅读更多精彩内容

友情链接更多精彩内容