spark sql基础

DataFrame json读取数据

//读取json文件
spark.read.json("input/user.json")
//可以是 csv,fomat,jdbc,json,load,option,parquet,schema,table,text,textFile
//读取的自动转换成dataFrame对象
val df=spark.read.json("input/user.json")
//转换后的数据读取 以表的形式
df.show

DataFrame 以临时视图读取数据

//形成一张临时user视图(视图只能查询)
df.createOrReplaceTempView("user")
//全查表
spark.sql("select * from user").show
spark.sql("select count(1) from user").show

DLS语法

//查看DataFrame的schema信息
df.printSchema
//只看username列的数据
df.select("username").show()
//查询的年龄列+1,使用$表示值的引用,如果是直接写age表示列名,无法计算
df.select($"age"+1).show
//使用单引号 可直接取值计算 代替$
import spark.implicits._ //倒入隐式计算 支持值的计算
df.select(‘age+1).show
//过滤年龄值大于20的数据
df.filter('age>20).show
//按照age分组查询,并且展示每个分组的数量
df.groupBy("age").count.show
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容