新建網頁 1 摘要
在這一章里面將要涉及到處理C/C++的包含宏的解析。也就是說要從一大串C/C++ 包含文件的聲明中提取出文件名,以及相互依賴關系等等。實際上在這一章里面 使用的Lex和Yacc技術也是非常重要的,這些都會在本章中進行詳細講解。
我們知道對于C/C++包含文件聲明是為程序提供了一些庫存的功能,因此存在一種依賴 關系,如果把這種依賴關系表達成為Makefile的形式,那么就可以自動生成Makefile 。在這一章里面并不會實現自動生成Makefile的功能,而是僅僅解析出所有的包含文 件名,并記錄下來。
我們知道C/C++中存在兩種形式的包含文件,一種是用“<>”包含的頭文件, 一種是“""”包含的頭文件,這兩種不同的形式表達了頭文件的不同的搜索方式。 另外還需要注意的是:這兩種方式包含的都是磁盤上存在的文件名。也就是說,只 要是磁盤上存在的文件名都可以包含的,都是合法的,因而C/C++里面存在的有擴展 名的頭文件和沒有擴展名的頭文件都是合法的。并且還需要注意的是C/C++包含的頭 文件是可以續行的。
因而總結起來需要做到如下的幾件事情:
- 處理“<>”和“""”兩種包含方式
- 處理文件名
- 處理續行
%{
#include "main.hpp"// 在其中保存了記錄頭文件所需要的所有數據結構
#include "frame.tab.h"// 由Yacc自動生成的所有標記聲明,實際上都是C宏
extern "C"{
int yywrap(void);
int yylex(void);
}
%}
%x _INCLUDE_
%x _INCLUDE_FILE_
%%
"#"[ \t]*"include" {
BEGIN _INCLUDE_;// 進入_INCLUDE_狀態
yylval.clear();// 需要將所有的Include值初始化
return INCLUDE;// 返回INCLUDE標記
}
<_INCLUDE_>[\"|<] {
BEGIN _INCLUDE_FILE_;// 進入_INCLUDE_FILE_狀態
return *yytext; // 返回引號或者尖括號
}
<_INCLUDE_FILE_>[^\">]* {
yylval.headerfile+=yytext;// 記錄頭文件字符串
return HEADERFILE;// 返回頭文件標記
}
<_INCLUDE_FILE_>[\"|>] {
BEGIN INITIAL;// 恢復到初始狀態,默認狀態
return *yytext;// 返回引號或者尖括號
}
[ \t\n] ;// 對于額外的空白都不處理直接扔掉
%%
int yywrap(void)
{
return 1;// 只處理一個輸入文件
}
%{
#include <iostream>
#include "main.hpp"
#define YYDEBUG 0 // 將這個變量設置為1則表示啟動Yacc的調試功能
extern "C"{
void yyerror(const char *s);
extern int yylex(void);
}
std::vector<Include> g_Includes;// 用來記錄所有的包含聲明
Include *g_pInclude;// 用來保存新增的包含聲明信息的指針
%}
%token INCLUDE
%token HEADERFILE
%%
program:/* empty */
| program include_preprocess // 用這種遞歸的方式從有限的標記表達出無限的內容
;
include_preprocess:
INCLUDE '<' HEADERFILE '>'
{
// 注意這里的$3,實際上就是上面的標記的第三個的意思
// 因為yylval被聲明為Include結構,參見main.hpp文件
// 因而每個標記都是Include結構類型。
g_Includes.push_back(Include());
g_pInclude = &g_Includes.back();
g_pInclude->clear();// 初始化
g_pInclude->headerfile = $3.headerfile;// 可以證明$3的類型就是Include類型
g_pInclude->is_angle = true;// 是尖括號
g_pInclude->is_quotation = false;// 不是雙引號
}
| INCLUDE '\"' HEADERFILE '\"'
{
// 值得說明的是:上面的include_preprocess用$表示,
// 而不是用$0表示。從左向右依次為:
// include_preprocess $
// INCLUDE $1
// '\"' $2
// HEADERFILE $3
// '\"' $4
g_Includes.push_back(Include());
g_pInclude = &g_Includes.back();
g_pInclude->clear();// 初始化
g_pInclude->headerfile = $3.headerfile;
g_pInclude->is_angle = false;// 不是尖括號
g_pInclude->is_quotation = true;// 是雙引號
}
;
%%
void yyerror(const char *s)
{
std::cerr<< s << std::endl;
}
int main()
{
#if YYDEBUG
yydebug = 1;
#endif//YYDEBUG
yyparse();// 進行語法分析,這個函數是Yacc自動生成的
// 下面的這行代碼僅僅使用了STL的輸出算法到標準輸出
std::copy(g_Includes.begin(),g_Includes.end(),std::ostream_iterator<Include>(std::cout,"\n"));
return 0;
}
#pragma once
#include <iostream>
#include <string>
#include <vector>
#include <algorithm>
#include <iterator>
// 對于每一個項目最好都用一個獨立的數據結構來保存相應的信息
struct Include
{
void clear();// 設置Include的初始值
std::string headerfile;// 記錄頭文件全名(包括路徑)
bool is_quotation;// 是否是雙引號""括起來的頭文件
bool is_angle;// 是否是尖括號<>括起來的頭文件
// 下面的這個函數僅僅是用來輸出到C++流而準備的
friend std::ostream&operator<<(std::ostream&s,const Include&I);
};
std::ostream&operator<<(std::ostream&s,const Include&I);
// 下面的這個宏定義用來取消Lex和Yacc默認的YYSTYPE定義,因為默認的YYSTYPE定義
// 僅僅只能夠記錄整數信息,因此要保存額外的信息必須這樣定義宏,可以參見Yacc
// 自動生成的標記頭文件frame.tab.h。
#define YYSTYPE Include
#include "main.hpp"
// 初始化所有的Include信息,避免前后關聯
void Include::clear()
{
headerfile.clear();
is_quotation = false;
is_angle = false;
}
// 為了能夠方便輸出,在這里直接準備好了一個流輸出函數
std::ostream&operator<<(std::ostream&s,const Include&I)
{
if(I.is_angle)
s << "采用尖括號的" ;
if(I.is_quotation)
s << "采用雙引號的" ;
s << "頭文件:[" << I.headerfile << "]" ;
return s;
}
LEX=flex
YACC=bison
CC=g++
a.exe:lex.yy.o frame.tab.o main.o
$(CC) lex.yy.o frame.tab.o main.o -o a.exe
lex.yy.o:lex.yy.c frame.tab.h main.hpp
$(CC) -c lex.yy.c
frame.tab.o:frame.tab.c main.hpp
$(CC) -c frame.tab.c
main.o:main.hpp main.cpp
$(CC) -c main.cpp
frame.tab.c frame.tab.h:frame.y
$(YACC) -d frame.y
lex.yy.c:frame.l
$(LEX) frame.l
clean:
rm -f *.o *.c *.h
#include <iostream>
#include <string>
#include <ffmpeg/avformat.h>
#include <ffmpeg/avcodec.h>
#include <ffmpeg/avutils.h>
#include <stdio.h>
#include <stdlib.h>
#include "hello.h"
#include "../hello.h"
# include "space.h"
pandaxcl@PANDAXCL-F78E7D /d/work/lex_yacc/chapter06
$ make
flex frame.l
bison -d frame.y
g++ -c lex.yy.c
g++ -c frame.tab.c
g++ -c main.cpp
g++ lex.yy.o frame.tab.o main.o -o a.exe
pandaxcl@PANDAXCL-F78E7D /d/work/lex_yacc/chapter06
$ ./a.exe < sample.cpp
采用尖括號的頭文件:[iostream]
采用尖括號的頭文件:[string]
采用尖括號的頭文件:[ffmpeg/avformat.h]
采用尖括號的頭文件:[ffmpeg/avcodec.h]
采用尖括號的頭文件:[ffmpeg/avutils.h]
采用尖括號的頭文件:[stdio.h]
采用尖括號的頭文件:[stdlib.h]
采用雙引號的頭文件:[hello.h]
采用雙引號的頭文件:[../hello.h]
采用雙引號的頭文件:[space.h]
pandaxcl@PANDAXCL-F78E7D /d/work/lex_yacc/chapter06
$
總的來說,上面的解析C/C++包含預處理信息的時候需要了解如下的概念:
- 詞法狀態
- 所謂的詞法狀態就是指對文本進行詞法分析的時候,詞法分析器當前所處 的狀態,默認情況下,詞法分析器都處于INITIAL狀態,這個INITIAL狀態 是Lex內置的狀態。用戶可以通過%x來重新定義各種各樣的狀態。
至于為什么要使用狀態,我們來看一個實際的例子:上面分析頭文件的時候 采用了兩個自定義的狀態:_INCLUDE_狀態和_INCLUDE_FILE_狀態, _INCLUDE_狀態是當遇到了#include開始的,因為這個狀態之后是尖括號或者 是雙引號括起來的頭文件名,在后面分析模板(使用尖括號)和分析字符串 (使用雙引號)的時候也會遇到尖括號和雙引號,因而需要區分這兩種情況 ,所以才需要使用_INCLUDE_狀態,以此來區分是包含文件還是模板或者是字 符串了。這一點非常重要!
同樣,狀態_INCLUDE_FILE_存在也是為了區分雙引號包含的頭文件名稱的, 因為雙引號不同于尖括號,雙引號在頭文件名的開始和結束都是相同的,因 此為了區分頭部和尾部的雙引號,必須再增加一個狀態。實際上這可以用來 簡化詞法分析器的編寫,當您遇到這種類似的問題的時候可以考慮再增加一 種新的狀態,通常來說就可以解決問題啦:)
不過還有一點特別需要強調的是當您感覺所添加的狀態太多了,出現了混亂 現象,就說明用Lex狀態已經不大適合處理這種問題了,就應該考慮采用Yacc 的一條獨立的語法規則來進行處理了:)這也是Yacc語法文件存在的原因,要 不然全部都可以采用詞法分析文件來解決啦,還要語法分析文件干什么!
- 遞歸表達
- 這里需要特別注意的是:frame.y文件中program的構成采用了左遞歸的形 式。從代碼中可以看出:program可以是空(什么也沒有)也可以是由現有 的program內容再追加一條include_preprocess類構成。當program內容為 空的時候增加一條include_preprocess類就表示program只有一條 include_preprocess內容,當program已經有了一條include_preprocess內 容之后再增加一條include_preprocess內容就可以表示兩條 include_preprocess內容了,依次類推,可以表達無數的包含信息,從而 表達了無限的內容了。特別需要注意的是,這里的program表示的僅僅是現 有的內容,包括但不限于include_preprocess內容,還可以有其他的內容 ,這一點可以在增加其他內容的時候體現出來,因為C/C++源代碼不僅僅是 由包含信息構成的嘛:)
特別需要注意的是,這里要特表強調一下使用左遞歸,不是說右遞歸不行,而 是出于程序運行效率考慮最好使用左遞歸。具體原因在后續的文檔中會有詳細 的說明的:)
- YYSTYPE, yylval, $$,$1,$2,...$n
- 因為編寫詞法分析程序和語法分析程序的目的就是為了操作分析出來的數據 ,所以就需要有一種比較方便的形式來表達這些分析出來的數據。一種是詞 法分析程序使用的方式,叫做yylval;一種是語法分析程序使用的,叫做$n ,從上面的詞法分析程序和語法分析程序中已經可以看到它們在相應的文件 中的使用了。
至于YYSTYPE那就更簡單了,因為要表達詞法分析程序和語法分析程序中的數據 ,既然是數據,在C/C++中就有數據類型的概念,這里的YYSTYPE就是yylval和 $n的數據類型。
特別需要注意的是,語法分析程序中每一個語法規則冒號左邊的類的值用$$表 示,而冒號右邊的第一項用$1表示,第二項用$2表示,依次類推。
- 標記和值
- 標記指的是由%token定義的INCLUDE和HEADERFILE,他們都對應著一個具體 值,而且具體值類型還有可能完全不一樣。這里需要特別強調的一點是: 每一個標記都對應著一個值,你可以不使用,但是他就是確確實實存在著 ,而且從始至終都保持著這種對應。例如上面的INCLUDE標記的值就沒有使 用,但是HEADERFILE標記的值就被使用了。在Lex和Yacc中標記都是用一個 C宏定義的一個整數,而標記的值都是由YYSTYPE定義著的一個變量,這個 變量的名字就是yylval,其中保存著相關的信息,這個信息就是在詞法分 析文件中進行設置的,而在語法分析文件中就直接采用了。
實際上%token還可以更進一步的簡化Yacc語法程序的編寫,從而避免一些不 必要的錯誤。從上面的語法分析來看,對于不同的$n,還需要記住$n的精確 類型和變量名,這一點其實是不必要的,可以通過%token <headerfile> HEADERFILE來聲明標記,那么在Yacc程序的語法規則 中就可以直接使用$3來表示yylval.headerfile了,從而也就不需要記住那 些具體變量名啦:)
值得注意的是,盡管標記是可以用%token來定義,但是并不僅僅限于這種方 式,Yacc中還可以用%type來定義,采用%type來定義的目的就是為那些不是 標記的類也準備一個對應的值的,例如:完全可以為include_preprocess定 義一個值,用來保存一些額外的信息,不過本文中并不需要,后續的文檔中 就會需要這個功能了,在此先簡單說明一下:)
- 詞法動作
- 對于詞法分析程序中的每一個正則表達式對應的規則,都有相應的C/C++ 語句來做一些額外的處理,這個額外的處理就是詞法動作。
- 語法動作
- 對于語法分析程序中的每一個語法規則,都有相應的C/C++語句來做一些額 外的處理,這個額外的處理就是語法動作。不過語法動作和詞法動作的不同 之處在于,語法動作允許嵌入式的語法動作,而詞法動作不行。至于什么是 嵌入式的語法動作,在后續的文檔中會有詳細的說明的!
好了,本章中還殘留有一些問題故意沒有解決,例如:包含文件的續行問題!留個 讀者自己思考,可以在本文所討論的基礎上稍微改動一下就可以了。后續的文檔正 在努力寫出,敬請關注;)