登录注册写文章

DeltaLake批处理：数据表的读取与写入

一个懒散的人

DeltaLake批处理：数据表的读取与写入

DeltaLake支持大部分由Spark DataFrame提供的Opition选项

SparkSession的配置

import org.apache.spark.sql.SparkSession
val spark = SparkSession
  .builder()
  .appName("demo")
  .master("demo")
  .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
  .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
  .getOrCreate()

创建表

DeltaLake支持通过路径或者元数据查询表，如下:

spark.table("events")      // 通过元数据查询

spark.read.format("delta").load("/delta/events")  // 通过路径查询

import io.delta.implicits._
spark.read.delta("/delta/events")

DeltaLake读取分区表，如下:

df.write.format("delta").partitionBy("date").saveAsTable("events")      // create table in the metastore

df.write.format("delta").partitionBy("date").save("/delta/events")  // create table by path

DeltaLake也支持读取比较旧的数据快照，如下：

spark.read.format("delta").option("versionAsOf","0")  // _delta_log下的0，1，2是版本号
spark.read.format("delta").load("/path/to/my/table@v1") # @v1就是第一个版本

DeltaLake目录下为：

image.png

最后编辑于：2021.06.16 11:17:03

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spark文档 - SQL编程指南
预览 Spark SQL是Spark用于结构化数据处理的模块。不同于基本的RDD API，Spark SQL AP...
sakersun阅读 1,342评论 0赞 2
Spark SQL DataFrame和DataSet
翻译自Spark官网。一、Spark Sql 历史大数据主要包括三类操作：1、长时间运行的批量数据处理。2...
尧字节阅读 15,805评论 2赞 11
第八篇|Spark SQL百万级数据批量读写入MySQL
Spark SQL读取MySQL的方式 Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。...
大数据技术与数仓阅读 2,347评论 0赞 11
送你一个晚安故事
我是黑夜里大雨纷飞的人啊 1 “又到一年六月，有人笑有人哭，有人欢乐有人忧愁，有人惊喜有人失落，有的觉得收获满满有...
陌忘宇阅读 8,605评论 28赞 53
信任重要性
信任包括信任自己和信任他人很多时候，很多事情，失败、遗憾、错过，源于不自信，不信任他人觉得自己做不成，别人做不...
吴氵晃阅读 6,227评论 4赞 8

1赞2赞

赞赏

手机看全文