词法分析_1

一般分下面几步骤:
词法分析->单词(token)列表->语法分析->ast抽象语法树->语义分析(可无可有)->ast抽象语法树->中间字节码(可无可有)->指令集(类似汇编)->虚拟机(解释运行)

图片发自简书App

在实现词法分析器前,我们先了解一下。什么是字符串、数字、标识符、关键字、运算符、逻辑符等

s test = 2+3*4+"moid"
f(test!=null)
{
testcall(2333)
}

上面伪代码中的s、f、null为关键字(保留字、keyword),test、testcall是标识符(identifier),2、3、4、2333都是数字(number),+、*是运算符(operator),!=为逻辑符,"moid"是字符串(string),其它的{、}、(、)统一为辅助符号

关键字一般正则规则为:a-zA-Z*(大小写开头,不限长度)

例如:

s、ss、sss、w、f、for

标识符:a-zA-Z0-9*(大小写英文开头或开头,中间可包函数字。不限长度)

例如:

a、bb、test、A2222、_aaa、aB3

数字:0-9*(全是数字不限长度)

例如:

1、23、756668566

字符串:'/"-'/"("到"符号内的内容)

例如:

""、"a"、"abc"、'a'、'kjoke'

至于其它的具体看情况,比如+符号。长度为1,规则就是一个“+”(规则主要看自己,比如直接用英文也行。例如原本用符号+的:s test = 2 + 3,用英文plus的话。长度占4,规则就是plus。例如s test = 2 plus 3)

词法分析器要做的事就是从源代码分析出相应的关键字、标识符、字符串然后成一个hash/array列表。下面看个示例

s test = 2+3*4

通过上面示例来说,通过词法分析器分析代码可能会生成类似这样的结构:

{"KEYWORD","s",1}
{"SPACE"," ",1}
{"IDENTIFIER","test",1}
{"SPACE"," ",1}
{"ASSIGN","=",1}
{"SPACE"," ",1}
{"NUMBER",2,1}
{"PLUS","+",1}
{"NUMBER",3,1}
{"MULTIPLY","+",1}
{"NUMBER",4,1}

这种结构类似lua的table/hash/array

{"KEYWORD","s",1},里面有三个元素。

第一个元素:表示类型(就是上面说的标识符、关键字、数字、运算符等)并以大写表示,KEYWORD的小写是keyword。keyword就是表示关键字。

第二个元素:表示具体值(s是属于关键字,所以它的具体值是s。具体值是从源码分析而来的)

第三个元素:表示当前类型值(s)在第几行

剩下的
{"SPACE"," ",1}
{"IDENTIFIER","test",1}
{"SPACE"," ",1}
{"ASSIGN","=",1}
{"SPACE"," ",1}
{"NUMBER",2,1}
{"PLUS","+",1}
{"NUMBER",3,1}
{"MULTIPLY","+",1}
{"NUMBER",4,1}

意思都一样的,NUMBER表示数字、IDENTIFIER表示标识符、SPACE表示空格、PLUS表示+(符号)、MULTIPLY表示*符号

接下来词法分析第二章会用lua来实现词法分析器的,顺便讲解一下词法分析中的状态机

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容