按一定语法写好规则,bison则可以自动识别语法,网上关于Yacc的资料很多,但是几个关键点讲的不够清晰,这里按自己的理解写下来,加深记忆。
定义段写法:
定义段可以分为两部分:
第一部分以符号%{和%}包裹,里面为以C语法写的一些定义和声明:例如,文件包含,宏定义,全局变量定义,函数声明等。
第二部分主要是对文法的终结符和非终结符做一些相关声明。这些声明主要有如下一些:%token,%left,%right,%nonassoc,%union,%type,%start。下面分别说明它们的用法。
%token定义文法中使用了哪些终结符,定义形式为:
%token TOKEN1 TOKEN2 TOKEN3 …
%left,%right,%nonassoc也是定义文法中使用的终结符,定义形式与%token类似,但是他们定义的终结符具有某种优先级和结合性,%left表示左结合,%right表示右结合,%nonassoc表示不可结合(即它定义的终结符不能连续出现:例如<,如果文法中不允许出现形如a<b<c的句子,则<就是不可结合的)。而优先级关系则是以他们定义出现的顺序决定的,先定义的优先级低,最后定义的优先级最高,同时定义的优先级相同。例如,如果有如下定义:
%left A B %nonassoc C %right D
则表示优先级关系为: A=B < C < D,而结合性关系为:A,B左结合,C不可结合,D右结合。
%union和%type用来处理文法中各符号所带的属性。在词法分析的学习中,我们知道记号是由记号名和记号的属性值两部分组成的,文法中的终结符就是记号,他们有属性值,同样,非终结符也是可以有属性值的。
%union { int num; char * id; }
定义了类型,再将类型和具体的标示符进行关联,如果是
终结符:
%token <num> TOKEN1 %token <id> TOKEN2 TOKEN3
非终结符:
%type <id> sym1 sym2 %type <num> sym3
第二部分规则段的写法
第二部分好理解,不作回顾。
第三部分辅助函数段的写法
辅助函数段用C语言语法来写,辅助函数一般指在规则段中用到或者在语法分析器的其他部分用到的函数。这一部分一般会被直接拷贝到yacc编译器产生的c源文件中。 一般来说,除规则段用到的函数外,辅助函数段一般包括如下一些例程:yylex(),yyerror(),main()。
int yylex()是词法分析程序,它返回记号。语法分析驱动程序yyparse()将会调用yylex()获取记号。如果不使用lex生成这个函数,则必须在辅助函数段用C语言写这个程序。记号由记号名和属性值构成,记号名一般作为yylex的返回值(注意,记号名是由%token等定义的终结符名,这些终结符名在yacc内部会被宏定义成一些常数。),而属性值则由yacc内部定义的变量yylval来传递例如,若属性值栈定义为
%union { int num; char * id; }
而yylex返回记号的属性值为”myid”(类型为char *)时,yylex在返回之前,应使用如下语句将属性值传递给语法分析器:
yylval.id = “myid”;