Spark-DataSet学习

1.DataSet相关概念

Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优点(优化后的执行引擎)。Dataset可以通过JVM对象来构造,然后通过transformation类算子(map,flatMap,filter等)来进行操作。Scala和Java的API中支持Dataset,但是Python不支持Dataset API。不过因为Python语言本身的天然动态特性,Dataset API的不少feature本身就已经具备了(比如可以通过row.columnName来直接获取某一行的某个字段)。R语言的情况跟Python也很类似。

Dataframe就是按列组织的Dataset。在逻辑概念上,可以大概认为Dataframe等同于关系型数据库中的表,或者是Python/R语言中的data frame,但是在底层做了大量的优化。Dataframe可以通过很多方式来构造:比如结构化的数据文件,Hive表,数据库,已有的RDD。Scala,Java,Python,R等语言都支持Dataframe。在Scala API中,Dataframe就是Dataset[Row]的类型别名。在Java中,需要使用Dataset<Row>来代表一个Dataframe。

2.DataSet操作

  • collect:将分布式存储在集群上的分布式数据集(比如dataset),中的所有数据都获取到driver端来
  • first:获取数据集中的第一条数据
  • persist()/cache():持久化,如果要对一个dataset重复计算两次的话,那么建议先对这个dataset进行持久化再进行操作,避免重复计算
  • createTempView("employee")
  • explain():答应执行计划,dataframe/dataset,比如执行了一个sql语句获取的dataframe,实际上内部包含一个logical plan,逻辑执行计划,设计执行的时候,首先会通过底层的catalyst optimizer,生成物理执行计划,比如说会做一些优化,比如push filter,还会通过whole-stage code generation技术去自动化生成代码,提升执行性能
  • DataSet.write.save:将数据保存到指定目录
  • printSchema():打印结构
  • 将DataFrame转化为DataSet
case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)
val employeeDS=employee.as[Employee]
  • coalesce和repartition:都是用来重新定义分区的,区别在于:coalesce,只能用于减少分区数量,而且可以选择不发生shuffle,repartiton,可以增加分区,也可以减少分区,必须会发生shuffle,相当于是进行了一次重分区操作
  • distinct和dropDuplicates:都是用来进行去重的,distinct,是根据每一条数据,进行完整内容的比对和去重, dropDuplicates,可以根据指定的字段进行去重
val employeeDistinct=employeeDS.distinct()
 employeeDistinct.show()
 val employeeDropDup=employeeDS.dropDuplicates(Seq("name"))
 employeeDropDup.show()
  • except:获取在当前dataset中有,但是在另外一个dataset中没有的元素
  • filter:根据我们自己的逻辑,如果返回true,那么就保留该元素,否则就过滤掉该元素
  • intersect:获取两个数据集的交集
employeeDS.except(employeeDS2).show()
employeeDS.intersect(employeeDS2).show()
employeeDS.filter(employee=>employee.age>35).show()
  • map:将数据集中的每条数据都做一个映射,返回一条新数据
  • flatMap:数据集中的每条数据都可以返回多条数据
  • mapPartitions:一次性对一个partition中的数据进行处理
employeeDS.map(employee=>(
  employee.name,employee.salary,employee.salary+1000
)).show()
employeeDS.flatMap(employee=>Seq(
    (employee.name,employee.salary,employee.salary+1000),
    (employee.name,employee.salary,employee.salary+2000)
    )).show()
employeeDS.mapPartitions(employee=>{
  val result=scala.collection.mutable.ArrayBuffer[(String,Long,Long)]()
  while(employee.hasNext){
    var temp=employee.next()
    result += ((temp.name,temp.salary,temp.salary+5000))
  }
  result.iterator
}).show()
  • joinWith,两个DataSet关联,指定关联条件
employee.joinWith(department, $"deptId" === $"id").show()
  • sort:排序
employeeDS.sort($"salary".desc).show()
  • randomSplit/sample
val employeeDSArr=employeeDS.randomSplit(Array(3,10,20))
employeeDSArr.foreach(ds=>ds.show())
employeeDS.sample(false, 0.3).show()
  • groupBy/agg/avg/sum/max/min/count/countDistinct
employee
    .join(department, $"depId" === $"id")  
    .groupBy(department("name"))
    .agg(avg(employee("salary")), sum(employee("salary")), max(employee("salary")), min(employee("salary")), count(employee("name")), countDistinct(employee("name")))
    .show()
  • collect_list/collect_set:collect_list就是将一个分组内,指定字段的值都收集到一起,不去重,collect_set,同上,但是唯一的区别是,会去重
/**
[1,WrappedArray(Leo, Jack),WrappedArray(Jack, Leo)]
[3,WrappedArray(Tom, Kattie),WrappedArray(Tom, Kattie)]
[2,WrappedArray(Marry, Jen, Jen),WrappedArray(Marry, Jen)]
*/
     employee.groupBy(employee("depId"))
     .agg(collect_list(employee("name")),collect_set(employee("name")))
     .collect()
     .foreach(println)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容