基于 JVM 的语言的实现 -- 以 Wit 为例 (一)

前置基础知识点

Febit Wit 简介 -- 惯例吹牛时间

Wit 是我 2013 年开始开发的一个准 JVM 上的语言, 起初的定位是模板引擎,之后慢慢发现, 在语法上可以做的更强大, 于是现在成了一个准脚本引擎.

Wit 语法类似 JavaScript, 在设计的时候也参考了许多. 另外, 他还支持自定义函数,全局变量,Lambda 表达式. 因为是当初并没有把他产品化, 只是将它作为一个与国内某开源作者较劲的产物, 每次觉得那些设计不合适就残忍地大改. 由此, 自认为这是一个, 核心模块轻巧,无第三方依赖,的个人代表作. (

以至于每次发布都会炫耀一下这个 Jar 包才 310 KB

Wit 采用BSD开源协议, 托管在 Github, [我是传送门], Star 少的可怜, 大家多多支持


Show Time

(旁白君: 主演怯(tou)场(lan), 此段跳过, 大家可以移步往期回顾(并没有) , 或者看看这里有什么好东西 --> wit-toys


语言? 太远! 先实现个表达式

我们先来看一下 a + b, 计算过程可分为三步:

  1. 从 a 的地址取实际值 A
  2. 从 b 的地址取实际值 B
  3. 执行加法运算返回
a_b.png

现在复杂一点儿, 我们看一下 a + b + 10, 多了一个操作, 且多了新的类型--直接量,归一化一下,其实可以转换成(a+b) + 10, 在已知条件下, 可以拆解成三步:

  1. 调用已知步骤, 得到 (a+b) 的结果
  2. 取直接量 1 (为什么要取出来? 就像我们切菜, 所有的操作都是要放到砧板上来的)
  3. 执行 "砧板" 上两个数的运算, 把结果返回
a_b_10.png

好了, 现在问题稍微复杂一点儿, 我们来扩充到四则运算, 2 * a + b / 3 + 10, 这里涉及到操作符优先级, 相信大家都能画出来一个处理这个表达式的数形结构

2a_b3_10.png

现在我们继续尝试一下归一化, 上面的可以抽象成两个概念:

表达式 (Expression, expr): a, b, 1, (a+b), (2 * a), (2 * a + b / 3).... 等等,他们在一个数中, 都是为他的更上层提供一个最终结果, 无论是取内存取值, 还是加载一个直接量, 或者是某种上层不关心的操作

操作符(operator, oper): 就像例子中的提到的四则运算, 可以认为是对给定数据的一种算法

现在, 我们用 + 指代其他类似操作符, 以上表达式, 无非不过 expr + expr, 如果继续扩充的话,

expr_expr.png

除此之外 = 也可以看成操作符, 只不过它对左边的表达式要求更高, 必须是一个可赋值的, 如地址引用, 数组的某个位置, Map 的某个索引位置

因此, 赋值也可以写成链式: a = b = (c = 1) + 1, 或者 if(flag = !disabled) { ... }, 只不过大多数规范都不建议这么写

操作符还根据需要的数据的数量分, 单目、二目、三目运算符..., 就像参数传参, 可以传不同数量的参数,

单目操作符 如: 取负, 取反, 取非,自增, 自减 等.

二目操作符 较常见

user.name  // 属性操作符
arr[i]  // 数组操作符
a + b // 部分运算符

说到 三目运算符, 必须得举一个特殊的例子: 条件运算符 exprA ? exprB : exprC , 这个和前面的不同, 不是将三个表达式都算出来之后传给操作符, 实际的逻辑是:

  1. 取 exprA 计算值 A
  2. 如果 A 为真, 执行 exprB 并返回结果
  3. 否则执行并返回 exprC 的结果

简单说,就是根据 exprA 的结果选择执行 exprB 还是 exprC, 其中, 只有一个分支能得到执行的机会

当然 exprA 如果抛异常了, 或者中断退出了, 例如 System.exit(1), 两者都不执行

// 错误理解
var A = exprA() // 副作用 A'
var B = exprB() // 副作用 B'
var C = exprC() // 副作用 C'
if(A){
    return B
} else {
    return C
}
// 实际等价
var A = exprA() // 副作用 A'
if(A){
    return exprB() // 副作用 B'
} else {
    return exprC() // 副作用 C'
}

最后, 还有个容易被大家忽视的概念, 操作符的结合性, 这是个扩中内容, 也就是大部分常见操作符都是自左向右结合的, 但有些相反, 是自右向左

还是以条件运算符 exprA ? exprB : exprC
对于 A ? B : C ? D : E 到底是 (A ? B : C) ? D : E 还是 A ? B : (C ? D : E)

"a" ? "b" : "c"
// -> "b"
("a" ? "b" : "c") ? "d" : "e"
// -> "d"
"a" ? "b" : ( "c" ? "d" : "e")
// -> "b"
"a" ? "b" : "c" ? "d" : "e"
// -> "b"
// 结论: 自右向左

其他的自右向左的操作符我们这里不再展开, 大家可以很容易搜到相关文章


语句(Statement) 的列表构成语法树

一段能改变上线文的独立的逻辑, 即产生了副作用, 就可以认为是 语句
一些 表达式 都可以在完结时产生副作用, 即使丢弃返回值, 这也是语句的一种 -- 表达式语句

像直接量和一些简单的运算, 都不会产生副作用, 通常都不能当做语句

// 非法语句
1;
1 + 2;
a + b;
arr[1];

// 合法语句: 存在副作用
i ++;
a = 1;
func();
arr[1] ++;

// 非法: 最外层操作不具有副作用
a + func();

除此之外还有一些特殊语法类型的语句,

// 变量声明
var a, b, c;
var d, e = 1; // 声明 + 赋值表达式
var [f, g] = [1, 2];  // 声明 + 赋值表达式

// 控制语法
if(flag) { <语句列表> }
for(var i : arr) { <语句列表>}
while(flag) { <语句列表>}
switch(a) { <语句列表> }

// 语法糖
arr = [1, 2, 3, a + b ];
map = {
    id,    // 只提供现有的变量名, 取名作为key, 取值作为值, 等同于 map["id"] = id
    1 : "a",   // 直接量作为 key
    [ -1-1 ] : "e",   // 表达式作为 key, 使用 [] 内的表达式的结果作为key, 等同于 map[-1-1] = "e"
    "x-y-z" : "XYZ",  // 支持最后一个元素冗余逗号
};

// 其他特殊语法
{ <语句列表> }  // 代码块
new_list = native new java.util.ArrayList();  // 导入 java 函数引用

接下来, 我们看一下一个 demo 的语法树的全貌

var map = {
    id: "9527",
    "my name": "Wit",
    [101] : 1,
    [102] : 2,
    [111] : 11
};

var func;
var flag = 0;
func = function(val){
    flag ++;
    if(true){
        echo "aaaa";
        return;
    }
    echo val != "inner";
    echo "\n";
    return null;
};
ast-tree.png

不尽兴的的话, 大家可以自行断点调试, 跟进到 Template 的 ast 字段就可以看到了


如何构建语法树 -- 编译

为了简化编译过程, 我们将其拆成了两个部分
词法解析 (Lexer), 将文本按照规范, 拆成 "单词"(Token), 例如:
println ( "Hello Wit !" ); 将会拆解成

  • 标识符 println
  • 分隔符 (
  • 直接量 Hello Wit !
  • 分隔符 )
  • 分隔符 ;

语法解析 (Parser) : 将 Token 序列按照语法规则生成语法树
例如上面的例子就符合 函数调用语句 的语法

funcExecuteExpr ::= expression:funcExpr LPAREN expression[COMMA]:list COMMA? RPAREN
{: return createMethodExecute(%funcExpr%, 
   StatementUtil.toExpressionArray(%list%), 
   %funcExpr.line%, %funcExpr.column%); :}

expression_statementable ::= funcExecuteExpr:$
statement ::= expression_statementable:$ SEMICOLON

templateAST ::= statement[]:list ?

这里涉及到 编译原理 中的很多知识点, 点到为止, 就不展开了

幸运的是, 我们有工具可以直接生成 Lexer 和 Parser, 我们只需要把我们期望的语法规则描述出来就可以了

Wit 用的是 JFlex + Java CUP (定制版)

大家可以在这里找到语法描述文件, 感兴趣的可以看看 , 不需要了解太多编译原理的知识也能看懂

Lexer.jflex

Parser.cup


语法树的优化

幂等节点消除

这是一个理想的范围, 但起码, 我们能够明确一下几个场景是可以合并的:

  • 只有直接常量参与幂等计算, 如: 1 + 2
  • 通过等价变换, 可以满足上一条的
  • 针对模板消除, 提前把文本字符串序列化成目标编码的字节流
  • 合并相邻的文本输出
  • 即使有不确定值, 但是在前置信息中即可判断 True/False 的部分
  • 空语句消除

特定场景算子实现

  • ForIn vs. ForInNoLoops
  • If vs. IfElse vs. IfNot
  • TryCatchFinally vs. TryFinally

语法树的执行

调用就更简单了, 我们让 StatementExpression 都实现自己的执行接口

Object execute(InternalContext context);

例如条件运算符的实现:

public final class IfOperator extends Expression {

    public Object execute(final InternalContext context) {
        return (ALU.isTrue(ifExpr.execute(context))
            ? leftValueExpr
            : rightValueExpr).execute(context);
    }
}

大家各司其职, 做好自己的事情之后返回一个结果, 或者对上下文 Context 做些变更, 整个事情就解决了

可以认为是一个对语法树的 不完整深度遍历

小结

啰嗦了这么多, 我们已经明确了可行性, 只要补充上细节实现就可以了, 我将会在下篇深入展开这些细节, 希望大家继续关注

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容

  • 第2章 基本语法 2.1 概述 基本句法和变量 语句 JavaScript程序的执行单位为行(line),也就是一...
    悟名先生阅读 4,132评论 0 13
  • 一、Java 简介 Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计...
    子非鱼_t_阅读 4,160评论 1 44
  • Lua 5.1 参考手册 by Roberto Ierusalimschy, Luiz Henrique de F...
    苏黎九歌阅读 13,764评论 0 38
  • 今天是2017年的第一个工作日,公司启动了一个叫“脉动”的项目,来金堂参加为期两天的培训。 这应该是我进太平参加最...
    土川兄一终身建设阅读 658评论 3 2
  • 画一幅春天的画 记录小树的嫩叶 和细微的感动 不经意间的微笑 在唇角上扬的那一刻 生活中的种种繁琐 终于不足以将我...
    禾小he阅读 168评论 1 3