Lexical Analysis¶

编译器的翻译顺序总体而言，可以看为将语言拆开来进行分析其各个结构和含义；然后将其组合到一起

前段部分可以进一步的分为

Overview¶

词法分析的任务：输入一个字符流，输出一个Toekn流（删除了空白字符和注释）

词法分析对于下层的接口通常是一个函数 getToken ，返还了下一个Token。

但关键之处在于，如何用形式化的方式和工具进行词法分析：

一个 Lexical Token 是一个字符串，是构成程序语言语法的基本单元。Token的数量可能是无限的，但是Token的类别是有限的。例如:

有的 Token 包含了语义值，例如 ID(match0), NUM(3) 我们需要标注的语义值来区分其具体的信息。

注意，有的部分是 Non-tokens，例如 comment,宏定义，空格和换行符等

我们如何取描述一个词法规则呢？我们可以用自然语言描述

为了形式化的定义，我们需要人为地将其转换为正则表达式。

除了计算理论中的定义，我们还有一些更加方便的简写：

那么我们可以得到一系列Token的正则表达式

但是这里还是存在歧义：

所以我们引入两条规则：

在这两条规则上我们规定 Longest Match > Rule Priority

在给定以上的 Regular Expression ,我们就可以绘制对应的 DFA

通过一个状态转移表格来记录DFA的图中的转移。此外，还需要一个 State 0 作为Dead State 来代表意料之外(或者不接受)的情况。

为了实现 Longest Match 我们还需要额外的维护： Last-Final 和 Input Position at Last Final 当我们进入到一个 Deat State 的时候，我们回顾一下上一个 Last-Final 并将Input重置到 Input Pos Last Final