大学期间的笔记补全。编译原理内容太多分几次。
课本《编译原理》第三版,陈火旺等编著。
笔记总目录:
一、引论
二、高级语言及其语法描述
三、词法分析
四、语法分析——自上而下分析
五、语法分析——自下而上分析
六、属性文法和语法制导翻译
七、语义分析和中间代码生成
八、优化
九、目标代码生成
四、语法分析——自上而下分析
不是正规文法是画不出来有限自动机的。语法一般都不是正规文法(是上下文无关文法)。
4.1 语法分析器的功能
语法分析的任务:对任一给定,判断 ?
语法分析器:按照产生式规则,做识别 的工作。
-
语法分析方法:
-
自上(顶)而下分析:从文法的开始符号出发,反复使用各种产生式,寻找与输入符号匹配的最左推导。
难点:一个终结符可能有多个候选式。
exp: 若终结符 可以由非终结符 均能推导,则符号 的推导只能逐一实验,失败需要回头重新回溯推导。
自下(底)而上分析:从输入符号串开始,逐步进行归约(最右推导的逆过程),直至归约到文法的开始符号。
-
4.2 自上而下分析的方法概述
从文法的开始符号出发,向下推导,推出句子。
对任何的输入串(单词符号),试图用一切可 能的办法, 从文法的开始符号出发,自上而下地为输入串建立一棵语法树,即为输入串寻找一个最左推导。
-
带回溯自上而下出现的问题:
- 文法的左递归问题
- 一个文法是含有左递归的,如果存在非终结符 :
- 含有左递归的文法将使自上而下的分析过程陷入无限循环。
- 虚假匹配问题
- 回溯:回溯会引起时间和空间的大量消耗
- 报告分析不成功时,难于知道输入串中出错的确切位置。
实际上采用了一种穷尽一切可能的试探法,因此效率很低,代价很高。
- 文法的左递归问题
4.3 LL(1)分析方法
概念:从左(Left)到右扫描输入串,构造最左(Leftmost) 推导,分析时每步向前看一个(1)字符。
-
目的:构造不带回溯的自上而下分析算法。
- 左递归的消除
- 消除回溯,提左因子
- FIRST集合,FOLLOW集合
- LL(1)分析条件
- LL(1)分析方法
-
消除左递归:
左递归文法:
一个文法含有下列形式的产生式时,
-
直接递归
-
间接递归
称为左递归文法。
如果一个文法是左递归时,则不能采用自顶向下分析法。
-
直接左递归消除:
-
间接左递归消除算法:
-
-
回溯问题
-
回溯原因
若当前符号,下一步要展开 ,而 ,怎样选择 ?
(1)以 为头的 如果只有一个,则替换唯一;
(2)若以 为头有多个 的,则替换不唯一,需要回溯,这是文法的问题,应该变换文法。
-
文法的要求
- 不含左递归
- 对每个终结符的候选式,其任何推导的头符号(终结符)集合两两不相交
- 若 的候选首符集中包含 ,则
-
回溯解决方法:提公因子法
提取公共左因子,将文法改造成任何非终结符的所有候选首符集两两不相交。
目的:消除歧义!不能由不同的推导路径得出同一个首符
-
-
FIRST问题
-
符号串的终结首符集 定义为:
特别地,若 ,则规定 。
-
计算集:
- 若,
- 若,
- 若, 且有产生式,则
- 若, 且有产生式,且
- 当,则, …, 都包含在中
- 当,将并入中
-
-
FOLLOW问题
-
设 是文法 的开始符号,对 的任何非终结符 ,定义 的后继终结符号集为:
-
特别地,若 ,则规定。
是所有句型中出现在紧接A之后的终结符或“”。“”可认为是一个句子的终止符。
-
当非终结符 面临输入符号 ,且 (对任意 )时,如果 的某个候选首符集包含 (即 ),那么,当 时,就允许 自动匹配(即选用 工作),否则,认为 的出现是一种语法错误。
-
LL(1)分析方法
-
LL(1)文法:
如果文法G满足以下条件:
(1)文法消除了左递归;
(2)文法中每个非终结符A的各个产生式的候选首符集两两不相交,即:若,则;
(3)对文法中的每个非终结符 ,若它存在某个候选首符集中包含 ,则 ;
则称该文法 为 文法。
对一个 文法,可以对某个输入串进行有效的无回溯的自上而下分析。
-
设面临的输入符号为 ,要用非终结符 进行匹配,且 ,则可如下分析:
- 若 ,则指派 执行匹配任务;
- 否则
- 若 ,且 ,则让 与 自动匹配;
- 否则, 的出现是一种语法错误。
-
4.4 分析方法:递归下降分析程序
条件:满足上述 文法的条件
-
构成
- 一组递归过程
- 每个递归过程对应 的一个非终结符
-
基本思想
从文法开始符号出发,在语法规则(文法产生式)的支配下进行语法分析。逐个扫描源程序中的字符(单词符号),根据文法和当前输入字符分析到下一个语法成分 时,便调用识别和分析A的子程序(或其自身),如此继续下去。
-
程序形式
4.5 分析方法:预测分析程序
递归下降分析器的局限性:需要具有能够实现递归过程的语言和编译系统
预测分析程序:使用一个分析表和符号栈进行联合控制,是实现分析的另一种有效方法。
-
程序流程:
LL(1)分析表M,行为非终结符,列为终结符,每一个M[A,a]表示非终结符A应该用什么产生式得出以a打头的表达式(若M[A,a]为空表示无法产生,报错)。
五、语法分析——自下而上分析
自下而上分析法就是从输入串开始,逐步进行“归约”,直至归约到文法的开始符号。
从语法树的末端,步步向上“归约”,直到根结。
5.1 自下而上分析基本问题
-
归约
- 移进-归约法:使用一个符号栈,把输入符号逐一移进栈,当栈顶形成某个产生式右部时,则将栈顶的这一部分替换(归约)为该产生式的左部符号。
- 基本问题:
- 如何找出或确定可规约串?
- 对找出的可规约串替换为哪一个非终结符号?
5.2 规范规约
-
短语
-
令 是一个文法, 是文法的开始符号,若 是文法 的一个句型,如果有:
且
则称 是句型 相对于非终结符 的短语。(多步规约)
特别地,若,则称 是句型 关于产生式 的直接短语。 (一步规约)
-
一个句型的最左直接短语称为句柄。
二义文法的句柄不止一个。
从树的角度考虑:
短语:句型语法树中每棵子树(某个结点连同它的所有子孙组成的树)的所有叶子结点从左到右排列起来形成一个相对于子树根的短语。
直接短语:只有父子两代的子树形成的短语。
句柄:语法树中最左那棵只有父子两代的子树形成的短语。
-
-
规范规约
设 是文法 的一个句子,若序列,满足:
(1);
(2);
(3)对任意 , , 是从 将句柄替换成相应产生左部符号而得到的则称该序列是一个规范归约。
-
符号栈的使用:
实现移进-归约分析的一个方便途径是用一个栈和一个输入缓冲区,用#表示栈底和输入的结束。
-
语法分析的操作
- 移进:下一输入符号移进栈顶,读头后移;
- 归约:检查栈顶若干个符号能否进行归约,若能,就以产生式左部替代该符号串,同时输出产生式编号;
- 接收:移进-归约的结局是栈内只剩下栈底符号和文法开始符号,读头也指向语句的结束符;
- 出错:发现了一个语法错误,调用出错处理程序。
5.3 算符优先分析方法
算符优先分析法是自下而上进行句型归约的一种分析方法。
定义终结符(即: 算符)的优先关系,按终结符 (算符)的优先关系控制自下而上语法分析过程(寻找“可归约串”和进行归约)。
不是规范归约,但分析速度快,适于表达式的语法分析。
-
算符文法
一个文法,如果它的任一产生式右部都不含两个相继(并列)的非终结符,即不含如下形式的产生式右部:
则称该文法为算符文法。
-
算符优先关系
-
优先运算符
任何两个可能相继出现的终结符 和 (它们之间可能插有一个非终结符)的优先关系:
- 的优先级低于
- 的优先级等于
- 的优先级高于
注:这三种关系不同于数学中的 关系。在以上场景中表示有产生式或
-
算符优先关系
设 为算符文法且不含 产生式,, 算符间的优先关系定义为:
- 当且仅当 含有产生式 或
- 当且仅当 含有产生式 且 或
- 当且仅当 含有产生式 且 或
生成树中,节点越深(层数越大,越偏向叶节点),算符的优先级越大。
-
-
算符优先文法
如果一个算符文法 中的任何终结符对 至多满足下述关系之一:
,,
则称 为算符优先文法。
-
优先关系表的构造
-
FIRSTVT(P)和LASTVT(P)
设 ,定义 :
或
或
-
构造
-
FIRSTVT (P) 构造
规则1: 若 或 , 则 ;
规则2: 若 , 且 , 则 。
-
LASTVT (P) 构造
规则1: 若 或 , 则 ;
规则2: 若 , 且 , 则 。
-
-
-
算符优先分析算法
将输入串依此逐个存入符号栈 中,直到符号栈顶元素 与下一个待输入的符号 有优先关系 为止;
至此,最左素短语尾符号 已在符号栈 的栈顶,由此往前在栈中找最左素短语的头符号 ,直到找到第一个 < 为止;
-
已找到最左素短语 ,将其归约为某个非终结符 及做相应的语义处理。
最左素短语:在最左侧的,不包含更小短语的短语。在算符优先分析方法中,最左素短语一定要包含算符。
素短语的概念:它是个短语,并且至少含有一个终结符,并且,除它自身之外不再含任何更小的素短语,所谓最左素短语就是处于句型最左边的素短语。
- 在算法的工作过程中,若出现 减1后的值小于等于0时,则意味着输入串有错。在正确的情况下,算法工作完毕时,符号栈 应呈现:# N #。
- 由于非终结符对归约没有影响,因此,非终结符根本可以不进符号栈 。
概念辨析:
最左素短语:只关注算符(终结符),所有的非终结符都记为N,终结符规约为非终结符时也一律规约为N。最左素短语一定会出现在产生式右侧,但是会忽略所有非终结符的符号,一律视为N。
句柄(最左直接短语):
直接短语:只有父子两代的子树形成的短语。
算符分析法中规约的目标是:寻找最左素短语,逐步规约
5.4 LR分析法
-
LR分析表举例
根据LR分析表的分析过程需要两个栈,一个状态栈存状态,一个数据栈存算符和非终结符。
s5: 指shift 5,将指针所指的符号压入数据栈,将5压入状态栈。
r6: 指reduce 6,将当前数据栈中的符号按照第6个产生式规约(此例中为F->i)。经过规约操作之后,需要将数据栈栈顶弹出,将数据栈栈顶的规约结果压栈,同时将状态栈栈顶状态弹出。
1: 指状态迁移1,如状态栈栈顶为旧状态(比如(0,E)=1,旧状态为0),将旧状态弹出,压入新状态为栈顶。
分析流程,状态栈压0,数据栈压#。将指针指向的第一个符号压入数据栈,根据状态栈栈顶(0)跟数据栈栈顶找出对应分析表中的内容并执行相应操作,循环判断直到对应表中内容为acc(成功)或空(失败)。
-
LR分析法
在自下而上的语法分析中,算符优先分析算法只适用于算符优先文法,还有很大一类上下文无关文法可以用LR分析法分析。
LR分析法中的L表示从左向右扫描输入串, R表示构造最右推导的逆。LR分析法是严格的规范规约。
不足:LR分析法手工构造分析程序工作量相当大。
总控程序: 所有的LR分析器相同
-
分析表: 是自动生成语法分析器的关键
- LR (0) 表:基础、有局限性
- SLR表:简单LR表,实用
- 规范LR表:能力强、代价大
- LALR表:向前LR表,介于SLR和规范LR之间
-
分析表的内容:LR分析器的核心是一张分析表
- ACTION[s, a]:当状态s面临输入符号a时,应采取什么动作.
每一项ACTION[s, a]所规定的四种动作:
\1. 移进 把(s, a)的下一状态 和输入符号 推进栈,下一输入符号变成现行输入符号.
\2. 归约 指用某产生式 进行归约. 假若 的长度为 , 归约动作是:去除栈顶 个项,使状态 变成栈顶状态,然后把 的下一状态 和文法符号 推进栈.
\3. 接受 宣布分析成功,停止分析器工作.
\4. 报错
- GOTO[s, X]:状态s面对文法符号X时,下一状态是什么
GOTO[s, X]定义了一个以文法符号为字母表的DFA
- ACTION[s, a]:当状态s面临输入符号a时,应采取什么动作.
-
LR文法
-
对于一个文法,如果能够构造一张LR分析表, 使得它的每个入口均是唯一确定,则该文法称为LR文法。
- 在进行自下而上分析时, 一旦栈顶形成句柄,即可归约。
-
LR(k)文法:对于一个文法,如果每步至多向前检查 k个输入符号,就能用LR分析器进行分析。则这个文法就称为LR(k)文法。
- 大多数程序语言,符合LR(1)文法
-
-
LR(0) 文法
k =0,即只要根据当前符号和历史信息进行分析,而无需展望。
-
假若一个文法G的拓广文法G¢的活前缀识别自动机中的每个状态(项目集)不存在下述情况:
(1) 既含移进项目又含归约项目;
(2)含有多个归约项目则称G是一个LR(0)文法。
即是:LR(0)文法规范族的每个项目集不包含任何冲突项目
-
构造
- 令每个项目集 的下标 作为分析器的状态。
- 包含项目 的集合 的下标 为分析器的初态。
-
SLR分析表
LR(0)文法太简单,没有实用价值.
假定一个LR(0)规范族中含有如下的一个项目集(状态) ={ }。FOLLOW(A)和FOLLOW(B)的交集为 ,且不包含b,那么,当状态I面临任何输入符号 时,可以
- 若 ,则移进;
- 若 ,用产生式 进行归约;
- 若 ,用产生式 进行归约;
- 此外,报错。
SLR存在的问题:计算FOLLOW集合所得到的超前/后继符号集合可能大于实际能出现的超前/后继符号集。FOLLOW集合提供的信息太泛!
-
规范LR分析表
我们需要重新定义项目,使得每个项目都附带有 个终结符。每个项目的一般形式是 ,这样的一个项目称为一个 项目。项目中的 称为它的向前搜索符串(或展望串)。
向前搜索符串仅对归约项目 有意义。对于任何移进或待约项目 , ,搜索符串 没有作用。
-
动作ACTION和状态转换GOTO构造
按上述算法构造的分析表,若不存在多重定义的入口(即,动作冲突)的情形,则称它是文法G的一张规范的LR(1)分析表。
使用这种分析表的分析器叫做一个规范的LR分析器。
具有规范的LR(1)分析表的文法称为一个LR(1)文法。
LR(1)状态比SLR多:LR(0) SLR LR(1) 无二义文法
LR(0), SLR, LR(1)三种分析表仅仅在reduce操作有区别;
其中LR(0),SLR分析表的构建方式相同;LR(1)不同。
LR(0) & LR(1) 分析(分析表构成)算法的区别:
-
LR(0):
-
LR(1):
-
LALR分析法
- 研究LALR的原因规范LR分析表的状态数偏多
- LALR特点
- LALR和SLR的分析表有同样多的状态,比规范LR分析表要小得多
- LALR的能力介于SLR和规范LR之间
- LALR的能力在很多情况下已经够用
- LALR分析表构造方法:通过合并规范LR(1)
在四种LR分析里,LR(0)对文法的要求最高(限制最多),LR(1)要求最低(限制最少)
LR(0)文法判定:
如果文法对应的自动机中不存在移进-归约冲突和归约-归约冲突则为 LR(0)文法。换句话说LR(0)文法分析不能解决这两种冲突,所以范围最小。移进-归约冲突就是在同一个项集族中同时出现了可以移进的产生式和可以归约的产生式。归约-归约冲突类似。
SLR文法判定:
SLR文法不存在归约-归约冲突,有可能存在移进-归约冲突,但是如果可以用 follow集解决则是 SLR文法。换句话说,SLR文法分析过程可以解决归约-归约冲突,但是不一定能解决移进-归约冲突。用 follow集来处理即出现移进-归约冲突的两条产生式,如果其 follow集相交为空则为 SLR文法,反之不是。
LALR文法判定:
有个结论是合并同心集不会产生新的移进-归约冲突,但是会产生新的归约-归约冲突,如果没产生冲突就是 LALR 文法,反之不是。
LR(1)文法判定:
因为 LR(1)文法的范围比较大,所以文法几乎都是 LR(1)的(只要LR(1)分析表没有冲突)。当合并同心集产生了归约-归约冲突时才只属于LR(1)文法,而不属于其他文法。