编译原理由正规文法构造正规式(正则表达式)

3型文法(正则文法,线性文法)

 如果对于某文法G,P中的每个规则具有下列形式:

U :: = T    U :: = WT

其中T∈VT;U,W∈VN,则称该文法G为左线性文法。

如果对于某文法G,P中的每个规则具有下列形式:

U :: = T    U :: = TW

其中T∈VT;U, W∈VN,则称该文法G为右线性文法。

左线性文法和右线性文法通称为3型文法或正则文法,有时又称为有穷状态文法,简写为RG。

按照定义,对于正则文法应用规则时,单个非终结符号只能被替换为单个终结符号,或被替换为单个非终结符号加上单个终结符号,或者被替换为单个终结符号加上单个非终结符号。

3型文法所确定的语言为3型语言L3,3型语言可由确定的有限状态自动机来识别。

程序设计语言的单词可由正则文法产生,例如,标识符的定义可由正则文法描述如下:

<标识符>::=<字母>/<标识符><字母>/<标识符><数字>

显然,该文法描述了以字母开头的字母数字串的集合。现在要引入另一种适合于描述单词的表示法——正则表达式。正则表达式又称为正则式,每个正则表达式描述的集合称为正则集。

之所以采用正则表达式来描述,主要基于以下几点原因:

  • 词法规则简单,无需上下文无关文法那样严格的表示法,用正则式表示法来理解被定义的符号集合比理解由重写规则集合定义的语言更为容易;
  • 从正则式构造高效识别程序比上下文无关文法更容易;
  • 可以从某个正则式自动地构造识别程序,它可以识别用该正则式表示的字符串集合中的字符串,从而减轻后面要介绍的词法分析时的工作量。
  • 可用于其他各种信息流的处理,例如,已经应用于某些模式识别问题、文献目录检索系统以及正文编辑程序等。

正则表达式和正则集

设有字母表∑。∑上的正则表达式和它所表示的正则集递归地定义如下:

  • ε和Φ都是∑上的正则表达式,它们所表示的正则集分别为{ε}和Φ,其中ε是空串,Φ是空集;
  • 任意的a∈∑是正则表达式,它所表示的正则集是{a};
  • 如果e1和e2是∑上的任意的正则表达式,且分别表示的正则集为L(e1)和L(e2),则:
    • e1/e2也是正则表达式,表示的正则集为L(e1 / e2)=L(e1)∪L(e2)。
    • e1 e2也是正则表达式,表示的正则集为L(e1 e2)=L(e1)L(e2)。
    • (e1*也是正则表达式,表示的正则集为L((e1*)=L(e1*

定义中(1)和(2)定义了原子正则表达式,而(3)则表明字母表∑上的正则表达式可由原子正则表达式或较简单的正则表达式通过联合、连接与闭包运算构成一般的正则表达式。

正则表达式的性质

如果两个正则表达式e1和e2表示的正则集相同,即值相等,则称它们是等价的。记为e1=e2

正则表达式与正则文法的关系

一个正则表达式的值是正则集,它是正则语言的另一种表示法。不难看出,除了符号Φ外,一个正则表达式的含义类似于正则文法的一个非终结符号规则右部的含义。例如,对于<数字> ::= 0/1/2/…/9,由非终结符数字所产生的字符串集合与正则表达式0/1/2/…/9所定义的字符串集合是相同的。正则集Φ,它对应一个不包含任何句子的语言,引进的目的主要是为了理论上的完备性。

流程图

代码

规则的数据结构:包含两个string对象,一个是left即文法的产生式左边部分,另一个是right即文法产生式的右半部分。

文法的数据结构:考虑到文法是一个四元组,包含Vn为非终结符,Vt为终结符,P为文法的规则,S为识别符或开始符,flag为文法的类型,因此下面使用C++中的类来为文法定义,并且使用set集合来保存每个文法的某些属性(不会重复)。

ALL:

测试用例

1:

S->aA

S->a

A->aA

A->dA

A->a

A->d

2:

S->aB

S->c

B->bB

B->d

遇到的困难与解决方法

①通常如果只有两个相同的非终结符的规则S->a,S->b那么可以直接化简为S->a|b,如果存在多个目标结果为S->a|b|c,那么,需要进行特殊处理,可以使用栈或者递归调用来生成多个或式。

②闭包*的识别,即规则2也是本次实验的难点,需要同时识别文法规则的左右两边。

③有时经过规则1、2和3后所得的结果仍然不正确,这就需要使用集成开发环境的调试工具。增强调试技巧也是非常重要的。

④最后阅读相关文献,发现将正规文法转为正规式可以用解联立方程组的思想进行实现,因此可以用MATLAB解符号函数的方法来写代码。

读者评分
[评分人数: 1 平均分: 5]

评论

OmegaXYZ