Calcite中定制自已SQL解析器

不想看文章直接访问https://github.com/yuqi1129/schema/tree/master/mysql-protocol
(Java版本的Mysql)、https://github.com/yuqi1129/calcite-test,这里有关于JavaCC使用具体用例

1. 什么Sql Parser

所谓Sql Parser, 就是根据某种特定的定义而生成的Sql 语法解析器。 打个比方: 在计算器中输入 1 + 2 = 之所以可以得到结果3是因为是计算器可以准确地根据上述字符解析出相应的输入参数与算法,进而计算到最终的结果。 如果输入的是1 +- 2 = 计算器可能就会提示错误, 这其实就是类似于SQL中提示语法错误,而在处理SQL的过程与处理上面的例子很类似, 可见我们需要定制相应的语法规则进而解析SQL。

2. Java CC

熟悉ANTRL的同学应该知道.g文件的作用, 在Calcite中与之对就是JavaCC(关于什么是JavaCC,可以自行Google), 通过JavaCC文件Calcite可以定义如何去解析传入的SQL语法

3. Calcite 内置语法解析

现在就以一上简单的例子介绍一下Calcite 默认语法解析

    SchemaPlus rootSchema = Frameworks.createRootSchema(true);
    final FrameworkConfig config = Frameworks.newConfigBuilder()
            .parserConfig(SqlParser.configBuilder()
                    .setParserFactory(SqlParserImpl.FACTORY)
                    .setCaseSensitive(false)
                    .setQuoting(Quoting.BACK_TICK)
                    .setQuotedCasing(Casing.TO_UPPER)
                    .setUnquotedCasing(Casing.TO_UPPER)
                    .setConformance(SqlConformanceEnum.ORACLE_12)
                    .build())
            .build();
                
    
    
    String sql = "select ids, name from test where id < 5 and name = 'zhang'";
    SqlParser parser = SqlParser.create(sql, config.getParserConfig());
    try {
        SqlNode sqlNode = parser.parseStmt();
        System.out.println(sqlNode.toString());
    } catch (Exception e) {
        e.printStackTrace();
    }

以上为Calcite 内置关于parser的过程,详细代码见代码

现在简要的介绍以上代码:

  • parserConfig() 是设置ParserFactory, calcite内置Parser类为SqlParserImpl, 这个类的代码全部是由JavaCC生成,比较大,大约在7w行左右,不要试图去看懂这个类,因为基本上不会有人会看懂(如果有人看懂了,私下交流请你吃饭),也没有必要,后面我们会介绍如何用JavaCC生成对应的Parser类

  • 语法参数设置

    • setCaseSensitive() 大小是写否敏感,比如说列名、表名、函数名
    • setQuoting() 设置引用一个标识符,比如说MySQL中的是``, Oracle中的""
    • setQuotedCasing Quoting策略,不变,变大写或变成小写,代码中的全部设置成变大写
    • setUnquotedCasing 当标识符没有被Quoting后的策略,值同上

    更多可以更以参考Calcite类Lex, 你也可以直接设置成MySQL、Oracle、MySQL_ANSI语法,如果需要定制化的话可以单独设置上面4个参数

  • ParserConfig中其它需要注意的参数

    • setIdentifierMaxLength() 设置标识符的最大长度,如果你的列名、表较长可以相应的加大这个值
    • setConformance() 特定语法支持,比如是否支持差集等

日常使用中,一般使用默认配置即可, 除非对语法有特殊需求

注意: Parser只会解析SQL, 不会去验证SQL是否正确,可能这么说有点矛盾,有人会想parser难道不会检查语法正确与否吗?我的回答是、也不是。上面的例子如果有人执行了之后发现居然可以通过, 而在代码中我们并没有明确表名、列名、列信息之类,为什么不会报错?
因为 Calcite parser 只会识别关键字(Keyword)与标识符(Identifier), 上面Sql关键字有select、from、where、<、=,其他为标识符,即Parsr会规定关键字与标识符的相对位置是否正确,不会关心标识符的值是否存在、是否正确, 至于什么时候会检查标识符--会在Validator阶段

4. 创建自已parser

在3中我们使用Calcite内置的Parser Class, 假如有这样一个需求,要支持"submit job as 'select * from test'", 如果仍使用默认Parser,上述代码就会执行有问题,见代码, 那么如何支持该语法?

第一步: 工程中引入Calcite 的JavaCC文件parser.jj, 如下图

parser.jj

修改config.fmpp中关class 名为自已近parser class 名,如YuqiSqlParserImpl

第二步: 添加对应的SqlSubmit SqlNode, 关于如何扩展SqlNode, 请仔细读阅读 SqlSelect等SqlNode类

public class SqlSubmit extends SqlNode {

    String jobString;

    public SqlSubmit(SqlParserPos pos, String jobString) {
        super(pos);
        this.jobString = jobString;
    }
    
    public String getJobString() {
        return jobString;
    }
}
    

第三步: 修改parser.jj 文件, 添加以下内容

...
import org.apache.calcite.sql.SqlSubmit;
...
...


SqlNode SqlSubmit() :
{
     SqlNode stringNode;
}
{
    <SUBMIT> <JOB> <AS>
    stringNode = StringLiteral()
    {
        return new SqlSubmit(getPos(), token.image);
    }
}


...

SqlNode SqlStmt() :
{
    SqlNode stmt;
}
{
    ...
    
    | stmt = SqlSubmit()
    ...
}


<DEFAULT, DQID, BTID> TOKEN :
{
    ...
    | <SUBMIT: "SUBMIT">
    | <JOB: "JOB">
    ...
}

    

第四步: 引入JavaCC编译插件

详细参考代码中的pom文件

第五步:在代码引入刚刚设置的parser 类

import org.apache.calcite.sql.parser.impl.YuqiSqlParserImpl;
...

public class ParserTest {
...
    .setParserFactory(YuqiSqlParserImpl.FACTORY))
}


第六步:编译整个项目,最终可以在Target目录下可以看到以下文件, 然后将javacc 目录设置成Generated Source Root, 现在你可以愉快的进行测试了


生成的类

最终的结果可以参考文件, 运行时请先mvn编译一下,以后只要修改了Parser.jj文件都要重新编译才能生效

5. 相关问题说明

  1. 由于知道JavaCC读者可以比较少,关于JavaCC,我会专门针对这个出一个分享,如何在Calcite使用JavaCC
  2. 全部的代码在我的github项目中,有需要的读者请自行去fork与阅读(觉得本文有用不要忘了star一下哈)
  3. 由于本人使用Calcite时间不长,其中难免有错误之处,请读者不吝指出,相互学习,也欢迎来交流Calcite, 本人邮件: yuqi4733@gmail.com
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351