词法分析_1

一般分下面几步骤:
词法分析->单词(token)列表->语法分析->ast抽象语法树->语义分析(可无可有)->ast抽象语法树->中间字节码(可无可有)->指令集(类似汇编)->虚拟机(解释运行)

图片发自简书App

在实现词法分析器前，我们先了解一下。什么是字符串、数字、标识符、关键字、运算符、逻辑符等

s test = 2+3*4+"moid"
f(test!=null)
{
testcall(2333)
}

上面伪代码中的s、f、null为关键字(保留字、keyword)，test、testcall是标识符(identifier)，2、3、4、2333都是数字(number)，+、*是运算符(operator)，!=为逻辑符，"moid"是字符串(string)，其它的{、}、(、)统一为辅助符号

关键字一般正则规则为:a-zA-Z*(大小写开头，不限长度)

例如:

s、ss、sss、w、f、for

标识符:a-zA-Z0-9*(大小写英文开头或开头，中间可包函数字。不限长度)

例如:

a、bb、test、A2222、_aaa、aB3

数字:0-9*(全是数字不限长度)

例如:

1、23、756668566

字符串:'/"-'/"("到"符号内的内容)

例如:

""、"a"、"abc"、'a'、'kjoke'

至于其它的具体看情况，比如+符号。长度为1，规则就是一个“+”(规则主要看自己，比如直接用英文也行。例如原本用符号+的:s test = 2 + 3，用英文plus的话。长度占4，规则就是plus。例如s test = 2 plus 3)

词法分析器要做的事就是从源代码分析出相应的关键字、标识符、字符串然后成一个hash/array列表。下面看个示例

s test = 2+3*4

通过上面示例来说，通过词法分析器分析代码可能会生成类似这样的结构:

{"KEYWORD","s",1}
{"SPACE"," ",1}
{"IDENTIFIER","test",1}
{"SPACE"," ",1}
{"ASSIGN","=",1}
{"SPACE"," ",1}
{"NUMBER",2,1}
{"PLUS","+",1}
{"NUMBER",3,1}
{"MULTIPLY","+",1}
{"NUMBER",4,1}

这种结构类似lua的table/hash/array

{"KEYWORD","s",1}，里面有三个元素。

第一个元素:表示类型(就是上面说的标识符、关键字、数字、运算符等)并以大写表示，KEYWORD的小写是keyword。keyword就是表示关键字。

第二个元素:表示具体值(s是属于关键字，所以它的具体值是s。具体值是从源码分析而来的)

第三个元素:表示当前类型值(s)在第几行

剩下的
{"SPACE"," ",1}
{"IDENTIFIER","test",1}
{"SPACE"," ",1}
{"ASSIGN","=",1}
{"SPACE"," ",1}
{"NUMBER",2,1}
{"PLUS","+",1}
{"NUMBER",3,1}
{"MULTIPLY","+",1}
{"NUMBER",4,1}

意思都一样的，NUMBER表示数字、IDENTIFIER表示标识符、SPACE表示空格、PLUS表示+(符号)、MULTIPLY表示*符号

接下来词法分析第二章会用lua来实现词法分析器的，顺便讲解一下词法分析中的状态机

词法分析_1

推荐阅读更多精彩内容