Spark Sql 源码剖析(三):Analyzer

当一条 sql 语句被 SparkSqlParser 解析为一个 unresolved logicalPlan 后,接下来就会使用 Analyzer 进行 resolve。所谓的 resolve 也就是在未解析的 db、table、function、partition 等对应的 node 上应用一条条 Rule(规则)来替换为新的 node,应用 Rule 的过程中往往会访问 catalog 来获取相应的信息。

先来看看在解析过程中涉及到的几个主要类,以便为之后的详细分析做好铺垫。

一、主要类

上图(省略了诸多成员,方法)列举了解析一个 unresolved logicalPlan 时涉及的主要类及其之间的关系,其中 Analyzer 是解析的入口,其定义如下:

class Analyzer(
    catalog: SessionCatalog,
    conf: SQLConf,
    maxIterations: Int)
  extends RuleExecutor[LogicalPlan] with CheckAnalysis

先来看看几个主要的相关的类

1.1、SessionCatalog

SparkSession 使用的 catalog,是 spark 与底层 megastore(比如 Hive Metastore)的桥梁,并管理着 SparkSession 的临时表、view 以及函数。由于会有并发访问,该类是线程安全的。
如上图中该类的构造函数,该类借助 ExternalCatalog、GlobalTempViewManager、FunctionRegistry、FunctionResourceLoader 等类型的成员实现对 db、table、partition、function 的 CURD 等功能

1.1.1、ExternalCatalog

catalog 接口,包含 functions、partitions、tables 和 databases。仅适用于非临时的项目,线程安全。这是一个用来与外部系统交互的 external catalog(比如与 Hive Megastore 交互的实现是 HiveExternalCatalog,你也可以实现自己的 meta store 及相应的 ExternalCatalog)。当 database 不存在的时候,要抛出 NoSuchDatabaseException。主要包含以下几类方法:

  • database 相关:checkExists、create、alter、list、drop、alter、use database
  • table 相关:checkExists、create、alter、list、drop、alter schema、rename
  • partition 相关:load(加载数据到一个 partition)、load 动态分区、create、drop、rename、alter、get、list
  • function 相关:create、drop、alter、rename、checkExists、list

1.1.2、GlobalTempViewManager

一个线程安全的全局的 temp views 的 manager,提供对其原子的操作,比如 create、update、remove 等。注意,view 的名字是大小写敏感的。其包含对于 temp view 的方法:

  • get
  • create
  • update
  • remove
  • rename
  • list
  • clear

1.1.3、FunctionRegistry

Analyzer 用来查找 UDF 的 catalog,线程安全并且对 db name 大小写敏感。包含 function 相关的方法:

  • register
  • create or replace
  • look up
  • list
  • drop
  • checkExists
  • clear

1.1.4、FunctionResourceLoader

用来加载一个函数要使用的资源

1.2、RuleExecutor

定义了一个 rules 执行框架,即怎么把一批批规则应用在一个 plan 上得到一个新的 plan。具体是怎么做的,会在下面详细展开。

1.3、SQLConf

用来 get、set SQL 相关的配置、参数。其伴生 object 包含了 spark sql 的所有参数及其类型、说明、默认值。而 class SQLConf 提供了这些参数、配置的 getter、setter 方法。

1.4、CheckAnalysis

用于对 plan 做一些解析,如果解析失败则抛出用户层面的错误

二、如何解析

整个解析过程就是 Analyzer 通过继承或者包含实例的方式将这些类串起来,去 catalog 中查询信息并应用一系列规则来将一个 unresolved logicalplan 最终转变为一个新的 resolved plan 的过程。

2.1、规则是如何执行的?

2.1.1、Rule

在说明规则是如何执行之前,先说明什么是规则?规则均继承了 abstract class Rule,包含了一个 name 方法及 def apply(plan: TreeType): TreeType 方法,调用 apply 方法将一个 plan 转换成一个新的 plan,这个新的 plan 往往与原来的 plan 有一些不同,也有可能与执行规则前相同。

2.1.2、RuleExecutor

要把一个 unresolved logicalPlan 解析为一个 resolved logicalPlan,需要执行大量规则。那么,这么多规则是如何组织的?执行顺序是怎么样的?这些问题都能在 RuleExecutor 类中找到答案。

2.1.2.1、Batch

类 RuleExecutor 看名字就知道是用来 execute rule 的。在其内部定义了一个 Batch 类,用来表示 a batch of rules,即一组同类的不定长规则:

case class Batch(name: String, 
                strategy: Strategy, 
                rules: Rule[TreeType]*)

其中,strategy: Strategy 即规则的执行策略,表示 Batch 最大执行次数。 如果执行了 maxIterations 次之前达到收敛点(在这里是执行规则后 plan 没有变化),也将停止,不再继续执行 Batch。而每个 Batch 的 maxIterations 都是经验值。

RuleExecutor 包含了一个 protected def batches: Seq[Batch] 方法,用来获取一系列 Batch,这些 Batch 都会在 execute 中执行。所有继承 RuleExecutor(Analyzer 和 Optimizer)都必须实现该方法,即提供自己的 Seq[Batch]。如果需要新增规则,只需要新增 Batch 或者再某个 Batch 中新增规则即可。整体的框架不用动。

2.1.2.2、RuleExecutor#execute

让我们来看看 Batch 和 rule 具体是怎么执行的,即 RuleExecutor#execute(plan: TreeType): TreeType 的逻辑:

有几个关键点:

  • Batch 都是连续执行的
  • Batch 中的 rules 也是连续执行的
  • 当 Batch 执行的次数达到其规定的最大执行次数或执行该 Batch 并未修改 plan,则不再继续运行该 batch

三、Analyzer 的 Seq[Batch]

Analyzer 的 Seq[Batch] 如下:

lazy val batches: Seq[Batch] = Seq(
    Batch("Hints", fixedPoint,
      new ResolveHints.ResolveBroadcastHints(conf),
      ResolveHints.RemoveAllHints),
    Batch("Simple Sanity Check", Once,
      LookupFunctions),
    Batch("Substitution", fixedPoint,
      CTESubstitution,
      WindowsSubstitution,
      EliminateUnions,
      new SubstituteUnresolvedOrdinals(conf)),
    Batch("Resolution", fixedPoint,
      ResolveTableValuedFunctions ::
      ResolveRelations ::
      ResolveReferences ::
      ResolveCreateNamedStruct ::
      ResolveDeserializer ::
      ResolveNewInstance ::
      ResolveUpCast ::
      ResolveGroupingAnalytics ::
      ResolvePivot ::
      ResolveOrdinalInOrderByAndGroupBy ::
      ResolveAggAliasInGroupBy ::
      ResolveMissingReferences ::
      ExtractGenerator ::
      ResolveGenerate ::
      ResolveFunctions ::
      ResolveAliases ::
      ResolveSubquery ::
      ResolveSubqueryColumnAliases ::
      ResolveWindowOrder ::
      ResolveWindowFrame ::
      ResolveNaturalAndUsingJoin ::
      ExtractWindowExpressions ::
      GlobalAggregates ::
      ResolveAggregateFunctions ::
      TimeWindowing ::
      ResolveInlineTables(conf) ::
      ResolveTimeZone(conf) ::
      TypeCoercion.typeCoercionRules(conf) ++
      extendedResolutionRules : _*),
    Batch("Post-Hoc Resolution", Once, postHocResolutionRules: _*),
    Batch("View", Once,
      AliasViewChild(conf)),
    Batch("Nondeterministic", Once,
      PullOutNondeterministic),
    Batch("UDF", Once,
      HandleNullInputsForUDF),
    Batch("FixNullability", Once,
      FixNullability),
    Batch("Subquery", Once,
      UpdateOuterReferences),
    Batch("Cleanup", fixedPoint,
      CleanupAliases)
  )
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容

  • 数组是一种可变的、可索引的数据集合。在Scala中用Array[T]的形式来表示Java中的数组形式 T[]。 v...
    时待吾阅读 948评论 0 0
  • CatalystCatalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架...
    Codlife阅读 2,665评论 0 5
  • 1.HashMap是一个数组+链表/红黑树的结构,数组的下标在HashMap中称为Bucket值,每个数组项对应的...
    谁在烽烟彼岸阅读 1,020评论 2 2
  • 最美的温柔 你如明月娇 我在风中笑 梦里依稀在今宵 最美的温柔 你如清风徐徐来 念卿化作雨 莲花处处开 最美的温柔...
    文山鹿阅读 126评论 2 5
  • 世界是如此广袤无垠,语文教学的领域更是如此,一个人对它的认识是那么微小,那么碎片,如果自以为自己的认识就是全世...
    晚起画蛾眉阅读 113评论 0 0