Hive表血缘关系获取

hive血缘关系获取比较容易,方案也比较成熟。

org.apache.hadoop.hive.ql.tools.LineageInfo 表级别血缘

利用LineageInfo分析HiveQL中的表级别血缘关系

这个类中本身带main方法,可以独立启动,将sql语句作为参数传入

public static void main(String[] args) throws IOException, ParseException,
      SemanticException {

    String query = args[0];

    LineageInfo lep = new LineageInfo();

    lep.getLineageInfo(query);

    for (String tab : lep.getInputTableList()) {
      System.out.println("InputTable=" + tab);
    }

    for (String tab : lep.getOutputTableList()) {
      System.out.println("OutputTable=" + tab);
    }
  }

hive源码已给出很好的代码示例,直接用就行了。
要注意的是,源码对CREATE_TABLE_AS, LOAD这样的语法似乎并不支持
可根据org.apache.hadoop.hive.ql.tools.LineageInfo#process方法中代码增加自己的逻辑

org.apache.hadoop.hive.ql.hooks.LineageLogger 字段级别血缘

利用LineageLogger分析HiveQL中的字段级别血缘关系

这是hive提供的一个Hook,使用也很简单


我参照的是第二种方式,做了自己关于表级别的探索。
同时在LineageLogger 的源思路上做了些许改变

  • 对LOAD这个语法做支持,我认为外部到Hive也是数据流向的一部分
  • 对没有输出目标的简单查询语句做了屏蔽

代码如下

pom依赖

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>2.3.4</version>
</dependency>
public class LineageHook implements ExecuteWithHookContext {

    private static final HashSet<String> OPERATION_NAMES = new HashSet<String>();
    private static final HashSet<String> INPUTS = new HashSet<String>();
    private static final HashSet<String> OUTPUTS = new HashSet<String>();

    static {
        OPERATION_NAMES.add(HiveOperation.QUERY.getOperationName());
        OPERATION_NAMES.add(HiveOperation.CREATETABLE_AS_SELECT.getOperationName());
        OPERATION_NAMES.add(HiveOperation.ALTERVIEW_AS.getOperationName());
        OPERATION_NAMES.add(HiveOperation.CREATEVIEW.getOperationName());
        OPERATION_NAMES.add(HiveOperation.LOAD.getOperationName());//在原有基础上,开放load语句
    } 

    public void run(HookContext hookContext) throws Exception {

        INPUTS.clear();
        OUTPUTS.clear();

        QueryPlan plan = hookContext.getQueryPlan();
        LineageCtx.Index index = hookContext.getIndex();
        SessionState ss = SessionState.get();
        if (ss != null && index != null
                && OPERATION_NAMES.contains(plan.getOperationName())
                && !plan.isExplain()) {

            System.out.println(plan.getOperationName());

            //输出
            for (WriteEntity output : plan.getOutputs()) {
                Entity.Type entityType = output.getType();
                if (entityType == Entity.Type.TABLE
                        || entityType == Entity.Type.PARTITION
                        || entityType == Entity.Type.LOCAL_DIR //放行LOCAL_DIR 
                        || entityType == Entity.Type.DFS_DIR //放行DFS_DIR  
                        ) {
                    Table trgTb = output.getTable();
                    String trgTbName = null;
                    if (trgTb!=null) {
                        trgTbName = trgTb.getDbName()+"."+trgTb.getTableName();
                    }else {
                        trgTbName = output.getD().toString();
                        //hdfs://master:8020/tmp/hive/admin/27808155-878a-4446-9c4e-a2f3388301fc/hive_2020-06-19_16-47-52_939_789950828629061887-1/-mr-10001
                        if (trgTbName.matches("hdfs://.+/tmp/hive/.+")) {// 过滤MR中间临时落地数据的路径
                            continue;
                        }
                    }
//                    System.out.println("target table "+trgTbName);l
                    if (OUTPUTS.contains(trgTbName)) {
                        continue;
                    }else {
                        OUTPUTS.add(trgTbName);
                    }
                    break;
                }
            }

            if (OUTPUTS.size()==0) {//如果没有输出,不获取输入,相当于屏蔽了无输出的简单Query
                return;
            }

            //输入
            for (ReadEntity input : plan.getInputs()) {
                Entity.Type entityType = input.getType();
                if (entityType == Entity.Type.TABLE
                        || entityType == Entity.Type.PARTITION
                        || entityType == Entity.Type.LOCAL_DIR
                        || entityType == Entity.Type.DFS_DIR
                        ) {
                    Table srcTb = input.getTable();

                    String srcTbName = null;
                    if (srcTb!=null) {
                        srcTbName = srcTb.getDbName()+"."+srcTb.getTableName();
                    }else {
                        srcTbName = input.getD().toString();
                        if (srcTbName.matches("hdfs://.+/tmp/hive/.+")) {
                            continue;
                        }
                    }
                    INPUTS.add(srcTbName);  //用HashSet装输入源名称,因为多分区输入时会有多个ReadEntity 这些Entity表名是相同的
//                    System.out.println("src table "+srcTbName);
                }
            }

            for (String input : INPUTS) {
                System.out.println("INPUT="+input);
            }

            for (String output : OUTPUTS) {
                System.out.println("OUTPUT="+output);
            }
        }
    }
}

实验开始

  1. Hive Cli开启
  2. set hive.exec.pre.hooks=LineageHook
insert overwrite table gdm.gdm_cus_tag_di partition (dt)
select tmp.user_id, tag_name, tmp.act_type, sum(tmp.cnt) as cnt, tmp.dt from 
(select a.user_id as user_id, b.tags as tags, 2 as act_type, a.match_cnt as cnt, a.dt as dt 
from fdm.fdm_cms_matches_da b, gdm.gdm_cus_match_di a where a.match_id = b.match_id and a.dt='2020-05-25'
union all
select a.user_id as user_id, b.tags as tags, 1 as act_type, a.game_cnt as cnt, a.dt as dt 
from fdm.fdm_cms_subgame_public_da b, gdm.gdm_cus_game_di a where a.game_id = b.game_id and a.dt='2020-05-25'
union all
select a.user_id as user_id, b.tags as tags, 3 as act_type, a.sign_cnt as cnt, a.dt as dt
from fdm.fdm_cms_matches_da b, gdm.gdm_cus_signup_di a where a.match_id = b.match_id and a.dt='2020-05-25'
union all
select a.user_id as user_id, b.tags as tags, 4 as act_type, a.cancel_cnt as cnt, a.dt as dt
from fdm.fdm_cms_matches_da b, gdm.gdm_cus_cl_signup_di a where a.match_id = b.match_id and a.dt='2020-05-25') tmp
lateral view explode(split(tmp.tags, ',')) tagtable as tag_name 
group by user_id, tag_name, act_type, dt;
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/hadoop/output' ROW FORMAT DELIMITED FIELDS TERMINATED by ',' select * from fdm.fdm_cms_matches_da; 
LOAD DATA INPATH '/user/hive/external/mongo_ipt/relation/follow_num/follow_num_sum.csv'
OVERWRITE INTO table bdm.bdm_relation_follow_num_sum_di partition(dt='2020-06-19');

暂时测试几个典型的用例


谢谢本文被我参考的大神

收工!!!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,084评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,623评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,450评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,322评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,370评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,274评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,126评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,980评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,414评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,599评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,773评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,470评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,080评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,713评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,852评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,865评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,689评论 2 354

推荐阅读更多精彩内容