Spark列级血缘(字段级别血缘)开发与实现

介绍

  • 背景

    由于一直苦于尝试追踪spark的列级血缘,所以出于个人目的对spark源代码进行了修改,并且在github上独立了一个项目(Ushas)。
    传统数据治理中针对spark的表级别血缘判断虽然能一定程度上解决数据的依赖关系,但是对于精确到字段之间的关系识别则显得捉襟见肘。开发此项目的用意是为了能够加强spark在列级血缘上的追踪优势。

知识铺垫

我们做的事

软件架构

  • [module]assembly

    assembly模块是为了能够更加方便的获取打包内容,这里移植了spark的原生代码,可以一键自动化打包,在target/scala目录下获取所有jar包
  • [module]dev

    dev模块是为了配置checkstyle的代码规范检测,spark有内置的scala代码规范要求,我们这里也沿用了他的所有要求,输出目录为target/checkstyle-output.xml
  • [module]examples

    example模块是为了提供列级血缘的应用范例
  • [directory]sql

    sql里面包含所有的spark catalyst解析,列级血缘的主要工作都集中在sql包含的三个模块上

安装教程

  1. idea maven 对spark-catalyst module 进行Gnerated Source Code 生成sqlbase.g4的语法树文件

  2. 在跑样例文件时,先设置参数 -DLocal ,再设置 Include with provided scope,用默认本地形式和本地包运行spark

  3. 样例文件位置 examples/src/main/scala/org/apache/spark/examples/lineage/SparkLineageExample.scala

  4. 打包时,如果需要添加hive的插件支持,需要在spark profile中勾选hive

  5. 因为本身就是spark的项目中进行的分离,所以只需要将 spark-hive_2.12-3.1.2.jar,spark-catalyst_2.12-3.1.2.jar 进行替换,即可完成列级血缘的快速部署

效果展示

  1. 准备样例sql : select * from (select substr(a+1,0,1) as c,a+3 as d from (select 1 as a,2 as b))

  2. 样例输出:

c#2
+- c#2
   +- Alias ( substring(cast((a#0 + 1) as string), 0, 1) AS c#2 )
      +- a#0
         +- Alias ( 1 AS a#0 )
  1. 在spark-shell中如何查看列级血缘(API方法)

    df.queryExecution.analyzed.lineageChildren(0).treeString

  2. 在pyspark中如何查看列级血缘(API方法)

    df._jdf.queryExecution().analyzed().lineageChildren().apply(0).treeString()

项目(有用的话可以star一下哦!)

https://github.com/frankyu8/ushas

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容