[闲来没事]写个代码解释器

说点闲话

工作已经五年了,自己从c++到php python的过程中,一直都是往高级编程语言的路子走着。学得越深,未知的越多,很多事务如今却觉得知其然不知所以然。回想大学课程里的编译原理,词法分析、句法分析,计算机底程的东西一直觉得很难。以致于在算法设计、架构设计等高难度点的工作上就有点力不从心。我们一直都在学习的路上,却更多时候是在重复的路上。千万行代码,重复的比例自己心知肚明。曾以为自己很懂计算机,却连编译、解释原理都没深刻掌握。 于是,马上动手准备出一个『闲来没事』系列,第一个出品的是代码解释器。接下来可能是各种形态的代码解释器,各种形态的编译器,然后算法等等。涉及的语言不限,更新时间不限,我会尽我所能,还有网友们的意见。然后,虽然都是些娱乐性的小项目,仅供自己和大伙学习,但也会把项目代码发布的GitHub上。这次的玩具是pyScheme

文章首发我的博客: 老白经

什么是代码解释器

我们写的代码要在计算机中执行,都需要翻译成机器语言才能被计算机懂得去执行。教程上对于编译器和解释器的明确定义及区别都很详细,只是能不能被读者理解是另外一回事。我从来不喜欢羞涩难懂的定义,喜欢活泼明了的比喻。

老公老婆是两个不同国家的人,老公只会阿拉伯语言,老婆只会韩语。老公要怎么跟老婆讲话?请一个中间人。中间人有两种,一种解释型的,我们称为解释人;一种编译型的,我们称为编译人。

老公要逗老婆,说一段笑话给她听,这时候解释人和编译人的处理方式不一样。

老公说完笑话,解释人就把口译给老婆听,老婆很开心。老婆还想再听一次那个笑话,老公再讲一次,解释人又要再口译一次。累!

编译人听完笑话,把翻译结果用录音机录下来,给她老婆。老婆还想听那个笑话的时候,听录音就好了。如果老公的笑话一直不换,显然编译人的做法是更有效率的。

OK,所谓解释和编译就是有没有录音机的区别。我们讲的解释器就是没有录音机的解释人,它要把我们的话解释给计算机听,即使我们说的话一样的,也还需要它解释一次。

常见的编译型语言有C、C++、Pascal等。 常见的解释型语言有PHPPythonJavaScript等。

词法分析最简单的语言 Scheme

这是本文的主角,Scheme是Lisp语言的一个重要分支,它是极简主义哲学在编译语言里面的极品。Lisp的设计初衷是用来进行学校内教学的,谁知道会火。废话少点... 当然我没精力把Scheme所有的语法、功能都实现了,都实现了你们也没精力看吧。好吧,学习就应该从小麻雀开始,虽小五脏俱全。解释型语言的步骤:词法分析、句法分析、执行。真的只有三步,一个解释型语言很简单的。

我们继续看我们的项目,初学者别太难,所以我们虽然也是三步,却是:简单词法分析、简单句法分析、简单执行。简单的错误提示和错误处理,简单的类型,简单的操作。我希望我的文章和代码会显示简单,好明白。

我们的解释器

上节讲到Scheme,是的,我们要写一个Scheme语言的解释器,只是不会得Scheme那么强大,那没有意义,我们的目的是学习怎么写一个解释器。

首先,明确我们的可以写怎么样的代码。写怎么样的代码是一个代码设计人做的事情,其中水是非常深的,比如有没有Class、支持什么Types、怎么定义变量、怎么定义函数等,你想得越复杂这个解释器(编译器)的词法、句法分析就越复杂。当然,我是个挑软柿子捏的人,Scheme的词法和句法法分析是最简单的,所以我才拿它当例子。我们来假设以下是一个解释器的输入输出过程。>>代表输入,<<代表输出。

>> 3 ; 常量3
<< 3
>> (def a 5) ; 定义变量a
<< 5
>> a ; 变量a
<< 5
>> (+ a a 3) ; 基本运算 a+a+3
<< 13
>> (- a 1 2 3) ; 基本去处 a- 1-2-3
>> (and 0 2 3 4) ; 逻辑操作 1 and 2 and 3 and 4
<< False
>> (def mul (func (x y) (* x y))) ; 自定义乘法函数: mul
<< (func (x y) (* x y))
>> (mul 7 5) ; 使用自定义函数mul
<< 35
>> (def mul7 (mul 7)) ; 自定义高阶函数mul7
<< (func (x y) (* x y))
>> (mul7 5) ; 使用高阶函数mul7
<< 35
>> (def alist (list 1 2 3 4)) ; 定义列表
<< (list 1 2 3 4)

先这样子吧,已经够复杂了,复杂都是有简单堆砌起来的。我们来开始吧!确定完语法,我们就可以进行分析和实现。语言不重要,重要的是你用你的思考把它实现了!我偏爱Python,所以就用Python。当然,使用不同的语言的实现复杂度也不一样,所需要的代码量也不一样。我尽量偏理论一些,然后各位看观可以用自己熟悉的语言来实现。然后分享出来,这是个有趣的过程。

这里我会实现一些简单的概念:函数、列表、作用域。不会实现变量类型,只支持数值运算,不支持字符串等。能简化的都简化掉。

我们进入一下章节!

词法分析

上节让大家了解了一下Scheme语法,可能大家会说,这语法太复杂了,看不懂,比神马语言的语法都复杂,然后就开始卖楼主了。别急,它的语法就是这样的一个格式(不用范式,太难理解了!) (操作符/函数名等 参数1 参数2 参数3 ...) 操作符/函数名和参数都可以是上面的格式,你想多复杂就多写几个括号内的东西。 例:

((func (x y z) (* x y z)) (def a 4) (def b (+ a 6)) (+ a b 9)) 

换成熟悉的语法大概如下

function afun(x, y, z) { return x*y*z} 
var a = 4, b = a + 6 
afun(a, b, a+b+9) 
// 输出920

懂了么,不懂好好理解一下再往下看。 这样看起来复杂的语法却是语法分析中最简单的。为什么呢,因为它最接近语法树的语法。也就是所谓的句法分析!

看下图,为什么语法树这样子的,因为我们拿到一个语句,要先知道是什么函数、什么操作符,然后才知道它需要多少个参数。所以语法树都是操作符在前,参数在后。 我们举的栗子是:

(def x (if (> a 1) a 1))
(def x (if (/> a 1) a 1))的语法树
(def x (if (/> a 1) a 1))的语法树

以上语法树让我很直观的明白,我们要怎么去处理那复杂的代码,而且scheme语法的括号让我们无需去处理运算符的优先顺序,什么先乘除后加减,这里没这玩意,想办法把括号里的值求出来就好了!

好的,看着这棵树,我们就想到递归,遇到父结点就调用递归函数求值。好像好简单啊,的确,问题就是这么简单。然后想想怎么把作用域加进来?操,好复杂!

哈,差不多分析完成!我们来想办法完成吧!

一步一步写解释器

我尽量写伪代码,实际Python代码到GitHub去看吧。

词法分析

词法分析的目的是把代码中所有的元素找出来,并按顺序存好。元素包括函数、运算符、操作符、函数名、变量名、数值等。去掉写代码执行无关的东西:如换行、空格、注释(pyScheme没考虑它)等。scheme语法,空格是关键。按空格切开字符串就可以找到所有元素了。"(",")"前后是没有空格的,怎么办,那就创造出空格来。

定义 词法分析-tokenize(code)
    list = code.replace("(", " ( ").replace(")", " ) ").split([" ","\n", "\t", "\r"])
    ret_list = []
    for i = 0; i < list.length; i++
        if list[i].length > 0 then ret_list.append(list[i])
    return ret_list

于是,运行"tokenize('(def x (if (> a 1) a 1))')"的结果是 ['(', 'def', 'x', '(', 'if', '(', '>', 'a', '1', ')', 'a', '1', ')', ')']。 很简单的完成了。

句法分析

句法分析的目的就是把词法分析的结果变成语法树,然后程序根据语法树去遍历执行。先不忙着定义句法分析函数,先想想这个语法树怎么来实现。这个Node在代码里叫SExpression

  Struct 语法树结点-Node
       var value = ''
       var parent = None
       var children[]

  定义 句法分析-parse(tokens)
      var program = new Node()
      var current = program
      for i=0; i<tokens.length; i++
          switch(tokens[i])
          case '(':
              var newNode = new Node()
              newNode.value = '('
              newNode.parent = current
              current = newNode
          case ')':
              current = current.parent
          default:
              var newNode = new Node()
              newNode.value = tokens[i]
              newNode.parent = current
              current.child.append(newNode)
      return program.children[0]

OK, 句法分析也够简单的,谢谢scheme,如果是C++体系的语法,写三天代码估计还有很大的bug。anyway, 恭喜你,进入男生权利:撸一局!好吧,顺道做个广告,鄙人在艾欧尼亚叫转坑艾欧尼亚,挺坑的不怕死的加我。

执行

句法分析完就可以执行了,执行过程中需要存储一些过程变量,如自定义变量、自定义函数等。我们引入一个作用域的概念。我们把它设计成一个单向链表,当前在末端,如果找不到就向上搜索,直到根本,如果找不到就不存在了。

  Struct 作用域-Scope:
       var parent = None
       var vars = {} //这是一个字典
       Scope(parent) // 构造函数,你的语言体系中没有这个的话,就多写几行代码吧
           this.parent = parent

  定义 找变量-find(scope, name)
       current = scope
       while current != null:
           if is_exist(current[name])
               return current[name]
           current = current.parent
       return null

OK有这个概念后,我们进入执行的实现。

  定义 求值-evaluate(expression, scope):
       if expression.children.length <= 0
           // 不是数值就是变量
           if tryParse2Float(expression.value)
                return tryParse2Float(expression.value)
           return scope.find(name)

        first = expression.children[0]
        if first.value = '(':
            // 递归的节奏啊
            func = evaluate(first, new Scope(scope))
            arguments = []
            for i = 1; i < self.children.length;i++
                 argument.append(evaluate(self.children[i], scope))
            return evaluate(func, scope)

         // 内置函数
         // 这个解释器好像没什么功能啊,强大的功能都是在内置函数里了。
         // 我们设置一个全局变量,就叫builtInFuncs吧, evluate
         if is_exist(builtInFuncs[first.value])
             return execute(builtInFuncs[first.value], self.childrens, scope)

OK,强大的语法树求值,搞定了。善后善一下。

// 我们定义一个函数原型
定义 function (args, scope) {}

定义 执行函数-execute(function, arguments, scope)
      return evaluate(function, arguments, scope)

PS:写到这里的时候,为了减少(mul7 5) = 35这个高阶函数给大家带来的理解困难,所以突然想简化成不支持此类高阶函数。但是,思路有点混乱,感觉怪怪的,却还看不出哪里不对,先这样子吧,想到了再发。

OK:真的结束了么?还差一点,说好的内置函数库来了。

内置函数库

前面,那么多功夫,都是没有结果,直接推出会被人扔火鸡蛋的。操,这是解释器框架,懂吗?仍然有人表示不理解。我也不废话,先来定义个加法吧。 回顾一下加法的语法

(+ 1 2 3 4 5 6)

builtInFuncs["+"] = function(args, scope) {
     var ret = 0
     for i = 1; i < args.length; i++
          ret += evaluate(args[i], scope)
     return ret
}
builtInFuncs["if"] = function(args, scope) {
     if evaluate(args[1], scope):
         return evaluate(args[2])
     else
         return evaluate(args[3])
}

其他的操作,大家花飞自己的想像和码代码的能力自己添加,实在搞不定吧,就看我的代码吧。还是有问题,而且代码不是python,烦请你建一个gist或github仓库,把代码链接发给我看看吧。

最后怎么玩

main ()
    var code
    var scope = new Scope()
    while(true)
        cout<< "pySch>> "
        cin>> code
        if code and code != "quit"
            cout<< "pySch>> "<< evaluate(parse(tokenize(code)), scope)
        if code == 'quit'
            break

写在最后

好了,串完了。写代码容易,码字难,好像没写长文了,保持这个冲劲,继续加油~ 老感觉代码写不好就算了,文章也写不好。 算了~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容