前段时间买的《Spark SQL内核剖析》,这两天开始读,记些笔。笔记内容纯属本人YY,如有错误与书的作者无关。
因为没接触过Shark,因此这里就简单带过一下Spark SQL的背景吧。Spark SQL的前身是Shark, 又叫"Hive On Spark" 。Shark通过将hive SQL转换成RDD的代码,运行在Spark上。随着Spark的发展,Shark对Hive代码的依赖(SQL解析,生成逻辑计划等等都是用的hive的实现)制约了SQL在Spark上的发展,于是抛弃了Shark,吸收了Shark的优点,整了个Spark SQL出来。
Spark SQL中有两个重要的数据结构,DataFrame 与 Dataset。以前编写的Spark的程序(使用类似textfile、map、reduceByKey这些API,称之为RDD编程),而Spark SQL则是基于DataFrame与Dataset编程。