名稱
yacc -根據指定的語法規則產生 LR 分析程序的程序。
用法
yacc [-vltds] [-b prefix] [-N number] [-p symbol_prefix] [-P pathname]
grammar
標準
本文中的接口遵循下列工業標準:
yacc: XPG4, XPG4-UNIX
選項
-b prefix
定義所有輸出文件名的前綴(prefix.tab.c, prefix.tab.h, 和 prefix.output)。
-d
產生 y.tab.h 文件,它包含yacc賦予的標記值的預定義。這可以使其它的源文件
通過包含該頭文件來訪問代碼。
-l
在 y.tab.c 文件中不包含#line語句。僅在語法和相關動作被徹底調試后使用。
-N number
[Compaq] 提供給yacc額外的存儲以創建它的先行LR(1)文法分析程序分析表(LALR),
這在編譯非常大的語法時很重要。使用此選項時 number 值應大于40000。
-p symbol_prefix
允許多個yacc分析程序連接在一起。使用symbol_prefix前綴來代替 yy 表示全局符號。
-P pathname
指定可選的分析程序(替代/usr/ccs/lib/yaccpar)。
-s
[Compaq] 將yyparse()函數分解為幾個小的函數,因為它的尺寸有些與語法成比例,這可能導致
yyparse()函數太大而不能被編譯、優化或有效地執行。
-t
編譯運行時調試代碼。缺省情況下,當y.tab.c 被編譯時不包含該代碼。如果YYDEBUG具有非零值,
C編譯器將會包含調試代碼,而不管 –t 選項是否使用。不包含調試代碼時,函數yyparse()將執行
的更快。
-v
生成y.output文件,它包含有關分析表的可讀的描述以及由語法含糊導致的沖突的報導。
操作數
grammar
包含輸入指令的文件。
描述
yacc的語法可以是不明確的;指定的優先規則用于打破這種不明確性。
你必須用C語言編譯器編譯輸出文件y.tab.c 以產生yyparse() 函數。該函數必須與yylex
詞法分析函數一起被調用,同樣的還有main() 和 yyerror(),后者為錯誤處理函數(你必須
提供這些函數。當創建yacc可用的詞法分析器時命令lex很有用。
yacc程序從文件/usr/ccs/lib/yaccpar中讀取分析框架。使用環境變量 YACCPAR 可以指定其它
的分析框架。如果使用該環境變量,-P 選項將被忽略。
輸入文件的語法
此段將對yacc輸入文件(一般具有 .y 后綴)進行描述,同時提供一系列yacc所認識的
特殊值,宏和函數。
yacc輸入文件的一般格式:
[ definitions ]
%%
[ rules ]
[ %%
[ user functions ]]
其中
definitions
此區域定義在以后的語法(如規則區域)中使用的變量,以及包含文件和處理條件。
此區域是可選的。
rules
定義語法分析的規則。此項必選。
user functions
定義可被規則區域使用的用戶自定義函數。此項為可選項。
空字符(NULL)不能被用于語法規則,也不能在字面上使用。定義區域中的每一行可為:
%{
%}
所包含的 C 代碼將輸出為輸出文件中的全局定義。此域通常包含預處理指令及外部
變量和函數的聲明。
%token [type] token [number] [name [number]...
列出輸入文件其它部分使用的標記和結束符號。對那些沒在其它 % 中定義的標記此行
是必須的。如果type已經存在,此行定義的所有標記的 C 類型被聲明為由type參考
的類型。如果標記后跟一個實際的整數值,該值將賦給標記。
%left [<type>] token [ number][name[number]]...
指出每一個標記都是操作符,且此定義中的所有標記具有相同的優先級,求值順序為
從左到右。
%right [<type>] token [number] [name [number]]...
指出每一個標記都是操作符,且此定義中的所有標記具有相同的優先級,求值順序為
從右到左。
%nonassoc [<type>] name [ number ] [name [ number]]...
指出每一個標記都是操作符,且此定義中的標記不能連在一起使用,也就是這些操作符
不能結合使用。
%start symbol
指定最高級別的歸約規則,也就是使分析器認為歸約已經完成的規約。如果沒有這項定義,
分析器將使用第一條規則。symbol必須為非結束符(不是一個標記)。
%type < type > symbol [ symbol ... ]
定義每個 symbol 為 type 類型,以消除歧義。如果此項存在,yacc將執行類型檢查,否則
假定其后所有的符號為整數類型。
%union union-def
定義yyval全局變量為聯合體,union-def 為以下標準C定義格式:
{ type member ; [type member ; ... ] }
至少有一個成員為int型。任何合法的C數據類型可被定義,包括結構。當運行帶有-d
選項的yacc命令時,關于yyval的定義將被放在 y.tab.h 文件中,并能被lex輸入文
件所引用。
每個標記(非結束符)必須處于一個帶有前導%的定義中。多個標記可被空格或逗號分割。
所有在%left,%right, 和 %nonassoc中定義中的標記都被賦予一個優先級,后定義的標記
比先定義的標記具有更高的優先級。
除了作為符號,標記可作為字面字符,此時需要單引號(多字節字符可被詞法分析器識別并
作為標記返回)。下列特殊字符可以使用,如同在C程序中一樣:
\a Alert
\n Newline
\t Tab
\v Vertical tab
\r Carriage Return
\b Backspace
\f Form Feed
\\ Backslash
\' Single Quote
\? Question mark
\n One or more octal digits specifying the integer value of the character
規則區域由一系列待分析器解釋的規則組成,每條規則的格式如下:
symbol : symbol-sequence [ action ] [ | symbol-sequence [ action ] ... ] ;
其中每個 symbol-sequence 由零個或多個由空格分割的符號組成。第一個符號必須為該行的首位字符,
但換行和空白符可出現在規則中任何其它的地方。所有的結束符號必須在定義%token中聲明。
Each symbol-sequence represents an alternative way of reducing the rule. A
symbol can appear recursively in its own rule. Always use left-recursion
(where the recursive symbol appears before the terminating case in symbol-
sequence).
每個符號序列表示一種可選的歸約方法。一個符號可在自己的規則中遞歸出現。此時總是使用左遞歸(遞歸
符號出現在導致結束的符號列表前)。
特殊的序列:
%prec token
表示該符號序列在定義區域中賦給標記的優先級別上具有最高的優先級。
特殊指定的標記 error 匹配任何不能識別的輸入序列。這個標記促使分析器調用yyerror函數。
缺省時,分析器試圖與輸入同步,它讀入并拋棄所有的輸入直至error后的符號,然后繼續執行。
(你可以通過 yyerrok 函數重載此項行為)。如果yacc輸入文件中沒有error標記,分析器將
退出,并返回不可識別的輸入的錯誤消息。
當遇到動作前的符號時,分析器將執行該動作。因此,動作可出現在符號列表的中間,每個
符號列表之后,或者多個符號列表之后。在最后一種情況下,動作在分析器能匹配其中任何
一個符號列表時執行。
動作由大括號內的標準C代碼組成,并且可采用下列數值,變量,和關鍵字。
yylval
如果由函數返回的標記關聯一個重要的數值,yylex應該將該值放在這個全局變量中。
缺省情況下,yyval為 long 型。定義區域可使用 %union 定義來使用其它的數據類型,
包括結構。如果使用 -d 選項運行yacc,全部的yylval定義被寫入可被lex訪問的
文件<y.tab.h>中。
yyerrok
導致分析器立即在不明確的序列后開始分析標記,而不是執行缺省地同步動作。
yyerrok動作應該立即出現在error標記后。
$ [ <type> ] n
參考符號n(從規則開始計算的標記索引),$1表示冒號后的第一個符號。type 是在
指令 %union 中定義的聯合中某個成員的名字。type 語法允許數值被轉化為特殊的
數據類型。但注意應盡可能的少用 type語法。
$ [ <type> ] $
參考由匹配的符號序列所返回的值,它在解釋其它的規則中出現的該匹配符號時使用。
一般地,符號序列賦值于 $$。type 是在指令 %union 中定義的聯合中某個成員的名字。
<type>語法允許數值被轉化為特殊的數據類型。但注意應盡可能的少用 type語法。
用戶函數區域包含用戶提供的程序。如果你提供一個詞法分析器給語法分析器,它必須包
含在用戶函數區域內。
下列包含在用戶函數區域中的函數被由yacc所產生的yyparse函數調用。
yylex()
由函數yyparse 調用的詞法分析器,它用來識別輸入信息中的標記。此函數通常由lex
創建,它識別輸入中的表達式,并返回一個標記類型值。此函數返回值為整型。返回值為零
表示輸入結束。
如果語法分析器與函數yylex不能就標記值達成一致,它們也無法進行協商。對于字面上的
單字符標記,它為當前所處字符集中字符的值。其它類型標記的值由 yacc 或用戶決定。
在任何一種情況下,都可用C語言中的預定義語句使函數yylex()返回表示這些值的符號。
預定義語句放在代碼文件中,如果需要也可放在頭文件中。yacc所允許的字符集比C語言中
的字符集要大。包含這些超出C語言字符集的字符的標記名將不能放在預定義語句中。
如果由yacc選擇標記的值,除字面上的單字符標記外,其余的標記將被賦予大于256的值,
且沒有任何隱含的順序。一個標記可在定義區域中首次出現時通過后跟一個數值來顯式的賦值。
所有已賦值的標記應是唯一的,且與字面上的單字符標記的值不同。在生成分析器時,重復的
標記值將促使yacc報告錯誤,而其它情況下則可能接受該標記,或是報告錯誤。
輸入的結尾由稱為結束符的特殊標記標識,該標識值為零或負數。所有的詞法分析器在輸入結束時
返回零或負數作為標記的值。
yyerror(string)
當發生輸入錯誤時分析器所調用的函數。缺省的函數定義在庫liby.a中,它僅僅打印
字符串到標準錯誤,用戶可重定義此函數。函數的返回值為空。
庫liby.a中包含缺省的main() 和 yyerror()函數,它們大致如下:
main()
{
setlocale(LC_ALL, );
(void) yyparse();
return(0);
}
int yyerror(s);
char *s;
{
fprintf(stderr,"%s\n",s);
return (0);
}
注釋可以可以出現在用戶函數或定義區域中的任何地方,在規則區域,注釋可出現在符號
所允許的地方。空行和僅由空格組成的行可出現在任何位置,它們被忽略。
注意
變量LANG 和 LC_*影響yacc命令的執行,由yacc定義的 main() 函數調用:
setlocale(LC_ALL, "")
因此,由yacc命令產生的程序在運行時將受到這些變量的影響。
返回狀態
返回值:
0 成功
>0 錯誤
示例
此段描述lex和yacc的一個示例程序,它們創建一個簡單的桌面計算器,該計算器能執行
加、減、乘、除運算,并能允許賦值給變量(由單個小寫 ASCII 字符表示),且變量能夠
參與運算。程序包含以下的文件:
calc.l
定義詞法分析規則的lex文件。
calc.y
yacc語法文件。它定義語法規則并調用由lex創建的yylex()函數提供輸入。
以下的描述期望當前目錄包含lex 和 yacc示例文件。
編譯示例程序
使用lex和yacc執行以下的步驟來創建示例程序:
1. 選項 -d 讓 yacc創建一個定義它所使用的標記的單獨的文件。
yacc -d calc.y
下列文件被創建:
y.tab.c
yacc創建的供語法分析器使用的C語言源程序。
<y.tab.h>
分析器使用的包含標記的 #define 語句的頭文件。
2. 處理lex文件:
lex calc.l
下列文件被創建:
lex.yy.c
由lex為詞法分析器創建的C語言源文件。
3. 編譯和鏈接兩個C語言源文件:
cc -o calc y.tab.c lex.yy.c
下列文件被創建:
y.tab.o
lex.yy.o
calc 可執行文件
現在可以運行程序:
calc
然后鍵入數字和操作符,然后鍵入回車鍵,程序將顯示計算結果。如果你賦值給一個
變量,光標將移到下一行:
m=4 <Return>
_
然后你可用該變量來進行計算:
m+5 <Return>
9
源代碼
calc.y文件:
%{
#include <stdio.h>
int regs[26];
int base;
%}
%start list
%token DIGIT LETTER
%left '|'
%left '&'
%left '+' '-'
%left '*' '/' '%'
%left UMINUS /*supplies precedence for unary minus */
%% /*beginning of rules section */
list : /*empty */
| list stat '\n'
| list error '\n'
{ yyerrok; }
;
stat : expr
{ printf("%d\n",$1); }
| LETTER '=' expr
{ regs[$1] = $3; }
;
expr : '(' expr ')'
{ $$ = $2; }
| expr '*' expr
{ $$ = $1 * $3; }
| expr '/' expr
{ $$ = $1 / $3; }
| expr '%' expr
{ $$ = $1 % $3; }
| expr '+' expr
{ $$ = $1 + $3; }
| expr '-' expr
{ $$ = $1 - $3; }
| expr '&' expr
{ $$ = $1 & $3; }
| expr '|' expr
{ $$ = $1 | $3; }
| '-' expr %prec UMINUS
{ $$ = -$2; }
| LETTER
{ $$ = regs[$1]; }
| number
;
number : DIGIT
{ $$ = $1; base = ($1==0) ? 8:10; }
| number DIGIT
{ $$ = base * $1 + $2; }
;
%%
main()
{
return(yyparse());
}
yyerror(s)
char *s;
{
fprintf(stderr,"%s\n",s);
}
yywrap()
{
return(1);
}
定義區域
定義區域包含以下內容:
+ 包含標準 I/O 頭文件
+ 定義全局變量
+ 定義開始處理的規則列表。
+ 定義分析器使用的標記
+ 定義操作符及其優先級
規則區域
規則區域定義分析輸入流的規則。
程序區域
程序區域包含下列函數。因為這些函數包含在此文件中,因此不需要yacc庫。
main()
必須的主程序,它調用yyparse()函數,開始程序的執行。
yyerror(s)
錯誤處理函數,它僅打印錯誤消息。
yywrap()
清除函數,在輸入結束時調用,它返回值1。
詞法分析源程序
calc.l文件:
%{
#include <stdio.h>
#include "y.tab.h"
int c;
#if !defined (YYSTYPE)
#define YYSTYPE long
#endif
extern YYSTYPE yylval;
%}
%%
" " ;
[a-z] {
c = yytext[0];
yylval = c - 'a';
return(LETTER);
}
[0-9] {
c = yytext[0];
yylval = c - '0';
return(DIGIT);
}
[^a-z 0-9] {
c = yytext[0];
return(c);
}
環境變量
下列的環境變量影響yacc的執行:
LANG
提供未設置或空的國際化變量的缺省值。如果任何國際化變量包含非法的設置,則
該變量就如同沒有被定義。
LC_ALL
如果設置為非空的字符串值,將覆蓋所有其它的國際化變量。
LC_CTYPE
定義如何解釋字符文本數據中字節的序列(例如,在參數和輸入文件中,單字節字符
與多字節字符不同)
LC_MESSAGES
定義寫入到標準錯誤中的診斷消息的內容和格式表示方法。
NLSPATH
定義處理LC_MESSAGES變量的消息目錄的位置。
文件
y.output
分析表和關于由語法含糊產生的沖突報導的描述信息。
y.tab.c
輸出文件
<y.tab.h>
定義標記名
yacc.tmp
臨時文件
yacc.debug
臨時文件
yacc.acts
臨時文件
/usr/ccs/lib/yaccpar
缺省的C程序分析框架。
/usr/ccs/lib/liby.a
yacc 庫.