JavaCC:词法和语法分析器生成器在DSL上的学习和尝试-天翼云开发者社区

前言

现需要实现一个数据加工的DSL(domain-specific language 领域特定语言)，不需要对DSL过多理解，你可以类比SQL语言即可。现使用JavaCC这个工具来生成一个词法和语法解析器，注意是代码生成器，所以才叫CC（Compiler Compiler编译器的编译器）。

技术理念

DSL

domain-specific language 领域特定语言，最典型的就是SQL，还有比如lucene Query Parser Syntax，promQL等。DSL主要分为两类。

内部DSL）内嵌到现有的编程语言（java，c，python）上。比如lucene，PromQL等。

外部DSL）拥有自己一套完整的词法分析，语法分析，编译，代码生成等一整套完整的体系的独立语言，比如JSON，正则，XML，markdown等。

javaCC

想个很简单的问题，计算机如何识别你表达的语言在按你的语言去执行相应的逻辑？这就是编译原理，将你的输入的内容也叫代码语言通过词法语法分析、语法翻译、中间代码生成、存储管理、代码优化和目标代码等过程翻译成计算机能识别的代码。那么同理DSL也需要一个这样的过程。业内有很多优秀的中间件的词法和语法解析器代码生成器都是javaCC。比如lucene QueryParser.jj，Calcite parser.jj，JsqlParser JSqlParserCC.jjt等，更多可以直接看官网。

编译器原理

模块说明

词法分析：将输入的文本代码解析生成Token流，也叫扫描器。

语法分析：利用词法分析生成的Token流转成AST（抽象语法树），也叫解析器。

语义分析：分析语法树，得到新的语法树。

中间代码：分析语法树，生成中间代码。

而JavaCC则主要担当生成词法分析器和语法分析器。

javaCC解析器原理

javaCC的工作即为生成词法分析器（lexical analyzer）和语法分析器（parser generators）的工具。真正对文本代码分析的流程入图。

一些信息

1，javaCC 使用自顶向下（top-down）递归下降（recursive descent）解析。

2，默认是LL(1)文法用于预测性解析，不过在使用 LOOKAHEAD(n) 的时候为LL(k)，主要为了消除歧义，而在其他情况下均为LL(1)，这样能减少递归回溯。至于啥是LL(k)算法，去看编译原理吧，我也看得一知半解。

3，javaCC词法分析器使用正则或字符串定义，语法解析器定义使用EBNF（扩展巴科斯范式）语法，使用EBNF可以减少左递归的影响且更加易读，词法分析器和语法分析器使用同一个文件定义。

4，javaCC提供了自带的JJTree，非常方便直接生成AST树。

本地环境安装

安装官方参考文档。官方使用的是linux安装，我这边使用的是win本地开发。

1，下载安装包（javacc-7.0.10.tar.gz），下载地址。

2，解压到相应的目录并配置环境变量

#解压安装路径
F:\soft3\javacc-javacc-7.0.10
 
#环境变量
JAVACC_HOME ： F:\soft3\javacc-javacc-7.0.10\scripts
 
#配置path
%JAVACC_HOME%

3，需要特别注意的是，需要在安装目录的根目录下创建一个target文件夹，然后将bootstrap文件夹中的javacc.jar拷贝过去，否则会报错。

4，检查是否安装成功

打开cmd，输入javacc，出现如下信息则表示安装成功。

写个Demo

在开始开发javacc的解释器前，需要了解一些基本知识，否则会非常绕不方便理解，我这边的例子参考官方给的javacc-tutorial（个人感觉是写的最清楚的英文也比较简单，网上写的都让人云里雾里，不过可惜的是一些图表信息不完整，jjtree说的也不详细，不过对于我们入门学习还是非常足够了）。

BNF语法

::=     //翻译成人话就是：“定义为”, ::== 符号表示为 “可扩展为” 或 “可替换为”, “可定义为”.
<A>     //A为必选项
“A”   //A是一个术语，不用翻译
'A'     //A是一个术语，不用翻译
[A]     //A是可选项
{A}     //A是重复项，可出现任意次数，包括0次
A*      //A是重复项，可出现任意次数，包括0次
A+      //A可出现1次或多次
(A B)   //A和B被组合在一起
A|B     //A、B是并列选项，只能选一个

javaCC xx.jj文件模板

options {
  JavaCC 的选项
}
 
PARSER_BEGIN(解析器类名)
package 包名
import 库名
public class 解析器类名 {
  任意的 Java 代码
}
PARSER_END(解析器类名)
 
扫描器的描述
 
解析器的描述

一些说明

1，options部分，用于放置 JavaCC 的选项。常用选项见下文中的 JavaCC 语法描述文件中的 options。

2，PARSER_BEGIN、PARSER_END部分，用于定义解析器类。解析器类中需要定义的成员和方法都写在这里。

3，扫描器的描述部分，用于定义扫描器。

4，解析器的描述部分，用于定义解析器。

生成词法和语法解析器文件说明

XXConstants: 定义一些常量值，比如将TOKEN定义的值转换为一个个的数字；
XXParserTokenManager: token管理器, 用于读取token, 可以自定义处理;
JavaCharStream: CharStream的实现，会根据配置选项生成不同的类;
ParseException: 解析错误时抛出的类;
Token: 读取到的单词描述类;
TokenMgrError: 读取token错误时抛出的错误;

xx.jj 一些关键字

TOKEN                       /* 定义一些确定的普通词或关键词，主要用于被引用 */
SPECIAL_TOKEN               /* 定义一些确定的特殊用途的普通词或关键词，主要用于被引用或抛弃 */
SKIP                        /* 定义一些需要跳过或者忽略的单词或短语，主要用于分词或者注释 */
MORE                        /* token的辅助定义工具，用于确定连续的多个token */
EOF                         /* 文件结束标识或者语句结束标识 */
IGNORE_CASE                 /* 辅助选项，忽略大小写 */
JAVACODE                    /* 辅助选项，用于标识本段代码是java */
LOOKAHEAD                   /* 语法二义性处理工具，用于预读多个token，以便明确语义 */
PARSER_BEGIN                /* 样板代码，固定开头 */
PARSER_END                  /* 样板代码，固定结尾 */
TOKEN_MGR_DECLS             /* 辅助选项 */

实现javacc-tutorial中的计算器例子

1，编写calculator0.jj文件

# javacc全局配置,更多的options可以查看https://javacc.github.io/javacc/documentation/grammar.html#options
options {
  STATIC = false ;
}
 
# 开始java代码块，内部的实现主要是实现main函数，完成解析的调用和执行
PARSER_BEGIN(Calculator)
    public class Calculator {
    static public void main(String[] args) throws ParseException, TokenMgrError, NumberFormatException {
      Calculator parser = new Calculator(System.in);
      parser.Start(System.out) ;
    }
  double previousValue = 0.0 ;
}
# java块结束
PARSER_END(Calculator)
 
# 词语解析器开始,使用正则表达式定义
 
 
## SKIP 表示忽略那些字符的扫描
SKIP : { " " }
 
 
## 表示扫描的结束符
TOKEN : { < EOL : "\n" | "\r" | "\r\n" > }
 
 
## 加减乘除关键词定义
TOKEN : { < PLUS : "+" > }
TOKEN : { < MINUS : "-" > }
TOKEN : { < TIMES : "*" > }
TOKEN : { < DIVIDE : "/" > }
 
 
## 读取值
TOKEN : { < PREVIOUS : "$" > }
 
 
## 数值定义,包括整形和浮点数,注意使用DIGITS替换整个(["0"-"9"])+的重复定义，增加可读性，减少重复部分。
TOKEN : { < NUMBER : <DIGITS> | <DIGITS> "." <DIGITS> | <DIGITS> "." | "."<DIGITS> > }
 
 
## 数值定义，由于被其他Token定义引用，因此名称使用#表示
TOKEN : { < #DIGITS : (["0"-"9"])+ > }
 
 
## 左右括号
TOKEN : { < OPEN_PAR : "(" > }
TOKEN : { < CLOSE_PAR : ")" > }
 
# 解析器开始函数，内部实现为计算表达式结果后，控制台打印结果。
void Start(PrintStream printStream) throws NumberFormatException :
{}
{
  (
    previousValue = Expression()
    <EOL>
    { printStream.println( previousValue ); }
  )*
  <EOF>
}
 
# 表达式解析,可以看到函数基本上和java语法差不多，不过函数内部实现为EBNF语法，这样看起来比较麻烦，可以可以一层一层看下去，Primary()将Token.image返回扫描到表达式中数值转换成double返回，Term()控制乘法和除法优先级， Expression()计算整个表达式的结果。
# 这样函数看起来不够清晰，我举一个简单的例子 <NUMBER>(<PLUS><NUMBER>)*<EOF> 这明显就是一个EBNF表达式，表示第一个字符串必须为数值，而()中表示连接，第二个字符必须为加号，第三个必须为数值，然后*表示0到无数次。而抽出多个函数，主要是为了可读性和优先级以及特殊# # 处理。
double Expression() throws NumberFormatException :
{
  double i ;
  double value ;
}
{
  value = Term()
  (
    <PLUS>
    i = Term()
    ### 大括号中的表示动作
    { value += i ; }
  |
    <MINUS>
    i = Term()
    { value -= i ; } 
     
  )*
  { return value ; }
}
 
#对乘法和除法优先级处理
double Term() throws NumberFormatException :
{
  double i ;
  double value ;
}
{
  value = Primary()
  (
    <TIMES>
    i = Primary()
    { value *= i ; }
    |
    <DIVIDE>
    i = Primary()
    { value /= i ; }
    )*
  { return value ; }
}
 
#如果是数值，直接解析为Double数据，如果为$则返回计算值，如果使用()括号包括则递归调用计算表达式，如果第一个字符为-负号，则取负值。
double Primary() throws NumberFormatException :
{
  Token t ;
  double d ;
}
{
  t=<NUMBER>
  { return Double.parseDouble( t.image ) ; }
  |
  <PREVIOUS>
  { return previousValue ; }
  |
  <OPEN_PAR> d=Expression() <CLOSE_PAR>
  { return d ; }
  |
  <MINUS> d=Primary()
  { return -d ; }
}

2，生成词法和语法解析器

#进入项目
cd ..\calculator2

#执行
javacc calculator0.jj

看到如此信息则表示创建词法和语法解析成功。

3，编译java文件

javac *.java

4，创建表达式文件input.txt，注意要有一个换行的结束符。

5，执行结果

java Calculator <input.txt

总结

1，javaCC是java语言中最强大且使用最广的词法和语法解析器代码生成器。

2，当前demo代码是直接在xx.jj解析器动作中直接计算的，通常情况下一般不会这样，而是先试用jjtree转换成AST抽象语法树后再做后续的逻辑。

3，javaCC主要是生成词法和语法解析器，将文本代码转换成计算机可读可理解的AST抽象语法树。

4，javacc使用正则表达式描述词法规则，使用EBNF表示法描述语法规则。

5，javaCC相对而言还是比较复杂，尤其是语法解析那部分，还有后期的AST树遍历处理，后期简绍下Antlr4。

前言

技术理念

DSL

domain-specific language 领域特定语言，最典型的就是SQL，还有比如lucene Query Parser Syntax，promQL等。DSL主要分为两类。

内部DSL）内嵌到现有的编程语言（java，c，python）上。比如lucene，PromQL等。

外部DSL）拥有自己一套完整的词法分析，语法分析，编译，代码生成等一整套完整的体系的独立语言，比如JSON，正则，XML，markdown等。

javaCC

编译器原理

模块说明

词法分析：将输入的文本代码解析生成Token流，也叫扫描器。

语法分析：利用词法分析生成的Token流转成AST（抽象语法树），也叫解析器。

语义分析：分析语法树，得到新的语法树。

中间代码：分析语法树，生成中间代码。

而JavaCC则主要担当生成词法分析器和语法分析器。

javaCC解析器原理

javaCC的工作即为生成词法分析器（lexical analyzer）和语法分析器（parser generators）的工具。真正对文本代码分析的流程入图。

一些信息

1，javaCC 使用自顶向下（top-down）递归下降（recursive descent）解析。

4，javaCC提供了自带的JJTree，非常方便直接生成AST树。

本地环境安装

安装官方参考文档。官方使用的是linux安装，我这边使用的是win本地开发。

1，下载安装包（javacc-7.0.10.tar.gz），下载地址。

2，解压到相应的目录并配置环境变量

#解压安装路径
F:\soft3\javacc-javacc-7.0.10
 
#环境变量
JAVACC_HOME ： F:\soft3\javacc-javacc-7.0.10\scripts
 
#配置path
%JAVACC_HOME%

3，需要特别注意的是，需要在安装目录的根目录下创建一个target文件夹，然后将bootstrap文件夹中的javacc.jar拷贝过去，否则会报错。

4，检查是否安装成功

打开cmd，输入javacc，出现如下信息则表示安装成功。

写个Demo

BNF语法

::=     //翻译成人话就是：“定义为”, ::== 符号表示为 “可扩展为” 或 “可替换为”, “可定义为”.
<A>     //A为必选项
“A”   //A是一个术语，不用翻译
'A'     //A是一个术语，不用翻译
[A]     //A是可选项
{A}     //A是重复项，可出现任意次数，包括0次
A*      //A是重复项，可出现任意次数，包括0次
A+      //A可出现1次或多次
(A B)   //A和B被组合在一起
A|B     //A、B是并列选项，只能选一个

javaCC xx.jj文件模板

options {
  JavaCC 的选项
}
 
PARSER_BEGIN(解析器类名)
package 包名
import 库名
public class 解析器类名 {
  任意的 Java 代码
}
PARSER_END(解析器类名)
 
扫描器的描述
 
解析器的描述

一些说明

1，options部分，用于放置 JavaCC 的选项。常用选项见下文中的 JavaCC 语法描述文件中的 options。

2，PARSER_BEGIN、PARSER_END部分，用于定义解析器类。解析器类中需要定义的成员和方法都写在这里。

3，扫描器的描述部分，用于定义扫描器。

4，解析器的描述部分，用于定义解析器。

生成词法和语法解析器文件说明

XXConstants: 定义一些常量值，比如将TOKEN定义的值转换为一个个的数字；
XXParserTokenManager: token管理器, 用于读取token, 可以自定义处理;
JavaCharStream: CharStream的实现，会根据配置选项生成不同的类;
ParseException: 解析错误时抛出的类;
Token: 读取到的单词描述类;
TokenMgrError: 读取token错误时抛出的错误;

xx.jj 一些关键字

TOKEN                       /* 定义一些确定的普通词或关键词，主要用于被引用 */
SPECIAL_TOKEN               /* 定义一些确定的特殊用途的普通词或关键词，主要用于被引用或抛弃 */
SKIP                        /* 定义一些需要跳过或者忽略的单词或短语，主要用于分词或者注释 */
MORE                        /* token的辅助定义工具，用于确定连续的多个token */
EOF                         /* 文件结束标识或者语句结束标识 */
IGNORE_CASE                 /* 辅助选项，忽略大小写 */
JAVACODE                    /* 辅助选项，用于标识本段代码是java */
LOOKAHEAD                   /* 语法二义性处理工具，用于预读多个token，以便明确语义 */
PARSER_BEGIN                /* 样板代码，固定开头 */
PARSER_END                  /* 样板代码，固定结尾 */
TOKEN_MGR_DECLS             /* 辅助选项 */

实现javacc-tutorial中的计算器例子

1，编写calculator0.jj文件

# javacc全局配置,更多的options可以查看https://javacc.github.io/javacc/documentation/grammar.html#options
options {
  STATIC = false ;
}
 
# 开始java代码块，内部的实现主要是实现main函数，完成解析的调用和执行
PARSER_BEGIN(Calculator)
    public class Calculator {
    static public void main(String[] args) throws ParseException, TokenMgrError, NumberFormatException {
      Calculator parser = new Calculator(System.in);
      parser.Start(System.out) ;
    }
  double previousValue = 0.0 ;
}
# java块结束
PARSER_END(Calculator)
 
# 词语解析器开始,使用正则表达式定义
 
 
## SKIP 表示忽略那些字符的扫描
SKIP : { " " }
 
 
## 表示扫描的结束符
TOKEN : { < EOL : "\n" | "\r" | "\r\n" > }
 
 
## 加减乘除关键词定义
TOKEN : { < PLUS : "+" > }
TOKEN : { < MINUS : "-" > }
TOKEN : { < TIMES : "*" > }
TOKEN : { < DIVIDE : "/" > }
 
 
## 读取值
TOKEN : { < PREVIOUS : "$" > }
 
 
## 数值定义,包括整形和浮点数,注意使用DIGITS替换整个(["0"-"9"])+的重复定义，增加可读性，减少重复部分。
TOKEN : { < NUMBER : <DIGITS> | <DIGITS> "." <DIGITS> | <DIGITS> "." | "."<DIGITS> > }
 
 
## 数值定义，由于被其他Token定义引用，因此名称使用#表示
TOKEN : { < #DIGITS : (["0"-"9"])+ > }
 
 
## 左右括号
TOKEN : { < OPEN_PAR : "(" > }
TOKEN : { < CLOSE_PAR : ")" > }
 
# 解析器开始函数，内部实现为计算表达式结果后，控制台打印结果。
void Start(PrintStream printStream) throws NumberFormatException :
{}
{
  (
    previousValue = Expression()
    <EOL>
    { printStream.println( previousValue ); }
  )*
  <EOF>
}
 
# 表达式解析,可以看到函数基本上和java语法差不多，不过函数内部实现为EBNF语法，这样看起来比较麻烦，可以可以一层一层看下去，Primary()将Token.image返回扫描到表达式中数值转换成double返回，Term()控制乘法和除法优先级， Expression()计算整个表达式的结果。
# 这样函数看起来不够清晰，我举一个简单的例子 <NUMBER>(<PLUS><NUMBER>)*<EOF> 这明显就是一个EBNF表达式，表示第一个字符串必须为数值，而()中表示连接，第二个字符必须为加号，第三个必须为数值，然后*表示0到无数次。而抽出多个函数，主要是为了可读性和优先级以及特殊# # 处理。
double Expression() throws NumberFormatException :
{
  double i ;
  double value ;
}
{
  value = Term()
  (
    <PLUS>
    i = Term()
    ### 大括号中的表示动作
    { value += i ; }
  |
    <MINUS>
    i = Term()
    { value -= i ; } 
     
  )*
  { return value ; }
}
 
#对乘法和除法优先级处理
double Term() throws NumberFormatException :
{
  double i ;
  double value ;
}
{
  value = Primary()
  (
    <TIMES>
    i = Primary()
    { value *= i ; }
    |
    <DIVIDE>
    i = Primary()
    { value /= i ; }
    )*
  { return value ; }
}
 
#如果是数值，直接解析为Double数据，如果为$则返回计算值，如果使用()括号包括则递归调用计算表达式，如果第一个字符为-负号，则取负值。
double Primary() throws NumberFormatException :
{
  Token t ;
  double d ;
}
{
  t=<NUMBER>
  { return Double.parseDouble( t.image ) ; }
  |
  <PREVIOUS>
  { return previousValue ; }
  |
  <OPEN_PAR> d=Expression() <CLOSE_PAR>
  { return d ; }
  |
  <MINUS> d=Primary()
  { return -d ; }
}

2，生成词法和语法解析器

#进入项目
cd ..\calculator2

#执行
javacc calculator0.jj

看到如此信息则表示创建词法和语法解析成功。

3，编译java文件

javac *.java

4，创建表达式文件input.txt，注意要有一个换行的结束符。

5，执行结果

java Calculator <input.txt

总结

1，javaCC是java语言中最强大且使用最广的词法和语法解析器代码生成器。

2，当前demo代码是直接在xx.jj解析器动作中直接计算的，通常情况下一般不会这样，而是先试用jjtree转换成AST抽象语法树后再做后续的逻辑。

3，javaCC主要是生成词法和语法解析器，将文本代码转换成计算机可读可理解的AST抽象语法树。

4，javacc使用正则表达式描述词法规则，使用EBNF表示法描述语法规则。

5，javaCC相对而言还是比较复杂，尤其是语法解析那部分，还有后期的AST树遍历处理，后期简绍下Antlr4。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

JavaCC:词法和语法分析器生成器在DSL上的学习和尝试

前言

技术理念

DSL

javaCC

编译器原理

javaCC解析器原理

本地环境安装

写个Demo

BNF语法

javaCC xx.jj文件模板

生成词法和语法解析器文件说明

xx.jj 一些关键字

实现javacc-tutorial中的计算器例子

总结

JavaCC:词法和语法分析器生成器在DSL上的学习和尝试

前言

技术理念

DSL

javaCC

编译器原理

javaCC解析器原理

本地环境安装

写个Demo

BNF语法

javaCC xx.jj文件模板

生成词法和语法解析器文件说明

xx.jj 一些关键字

实现javacc-tutorial中的计算器例子

总结

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

JavaCC:词法和语法分析器生成器在DSL上的学习和尝试

前言

技术理念

DSL

javaCC

编译器原理

javaCC解析器原理

本地环境安装

写个Demo

BNF语法

javaCC xx.jj文件模板

生成词法和语法解析器文件说明

xx.jj 一些关键字

实现javacc-tutorial中的计算器例子

总结

JavaCC:词法和语法分析器生成器在DSL上的学习和尝试

前言

技术理念

DSL

javaCC

编译器原理

javaCC解析器原理

本地环境安装

写个Demo

BNF语法

javaCC xx.jj文件模板

生成词法和语法解析器文件说明

xx.jj 一些关键字

实现javacc-tutorial中的计算器例子

总结