8. Deterministic Top-Down Parsing
名词定义
确定性解析器(deterministic parser):不需要搜索的解析器,每一步都有唯一的选择,它只产生一棵解析树。
简单LL(1)文法(simple LL(1) grammar,SLL(1)):每条产生式右边,都以不同的终结符开头。
解析表(parser table):表示每个非终结符,对于特定字符,选择哪个推导。
LL(1)文法(LL(1) grammar):不包含空串规则(ε-rules)的文法,任何两个非终结符的FIRST集不相交,即,在前瞻一个字符的情况下,每个产生式都有确定的推导。
左重构(left-factoring):提取左公因子。
FIRST_k集(FIRST_k set):句型(sentential form)x的FIRST_k集,是终结符串的集合,表示x的所有推导,都以这些终结符串开头。
FOLLOW_k集(FOLLOW_k set):终结符A的FOLLOW_k集,由所有形如Ax的组合式中,FIRST_k(x)的并集组成。
LL(k)的线性近似(linear-approximate LL(k)):先判断第一个位置可以出现的字符,再判断第二个位置出现的字符,直到第k个位置可以出现的字符。只有前一个位置满足条件时,才进行后面的判断,而不是直接判断前k个位置。
LL-regular:使用正则表达式来判断后面的字符,不限制前瞻的长度。
内容总结
确定性解析器,只适用于无歧义文法(non-ambiguous grammars)。
自定向下确定性解析器,采用了前瞻方法,往前看一个或多个符号,从而决定怎样推导。
只考虑那些产生式右边开头的终结符,与当前处理的下一个字符相同的产生式规则。
很多文法都是LL(1)的,或者可以转换成LL(1)。
包含空串规则(ε-rules)的LL(1)文法,需要扩展FIRST集的定义,使之可以包含 ε。
为了能在解析生成阶段,检测文法是否符合LL(1),我们需要计算所有非终结符的FOLLOW集。
有了FOLLOW集,就可以得到解析表(parse table)了,每一个非终结符对于每一个字符,都知道选择哪一个推导。
如果解析表中,有一个或多个推导,就说明文法不是LL(1)的。
当前栈为 Aα,对于产生是规则 A -> β,
full LL(1) parser:根据 FIRST(βα),以及输入字符串的下一个字符,决定如何推导。
strong LL(1) parser:根据 FIRST(β),和 FOLLOW(A)(当β产生ε时),以及输入字符串的下一个字符,决定如何推导。
simple LL(1) parser:β中的第一个字符,以及输入字符串的下一个字符,决定如何推导。
对于LL(1)文法,有多种消除歧义的办法,包括左递归消除,左重构(left-factoring),或者回调用户定义的方法。
对于LL(1)文法采用递归下降解析,比生成解析表,效率会更高,也更有利于回调用户的歧义消除方法。
只是递归下降生成的解析器代码量会更多一些。
通过增加前瞻字符,可以扩展LL(1)文法为LL(k),这需要我们计算FIRST_k集。
由于确定性解析器只会生成一颗解析树,所以最终得到的解析森林文法(parse-forest grammars)退化成了解析树文法(parse tree grammar)。