美玉足脚交一区二区三区图片,在线日韩中文字幕,欧美激情视频一区二区三区免费

�W�一�ơ��用flex

Wed, 28 May 2008 02:47:00 GMT

�l�老师介绍�Q�而且最�q�进行实验二�Q�将正则表达式�{换�ؓ(f��)DFA�Q�然后�{换�ؓ(f��)代码�Q�想做一个类��g��flex的��Y�Ӟ��(j��)觉得flex很奇妙，输入一个正则表辑ּ��p��够输出对应的扫描�E�序�Q�这也开始真正体现老师说的自动化。我一直对计算机的一个终极问题（“什么能够被有效地自动化”�Q�很感兴��，因此惛_��?/span>flex开始对�q�方面有�Ҏ(gu��)��性的认识�Q?/span>

在网上搜�?/span>flex�Q�安�?/span>flex�Q�先下蝲flex�Q�原本打��放上来的，但是考虑到版权的问题�Q�还是不要了。需要的朋友�Q�我可以发给你）(j��)�Q�然后按照默认的步骤逐步安装�?/span>

安装后，讄��环境变量�Q�将Path指向flex.exe所在的文�g夹（本机上�ؓ(f��)�Q?/span>C:\Program Files\GnuWin32\bin�Q�一般按默认方式安装�?/span>flex.exe都在该文件夹内）(j��)�Q�具体步骤：(x��)

→�?#8220;我的�?sh��)�?#8221;图标按右�?#8594;选择“属�?#8221;→选择“高��”→单击“环境变量”→�?#8220;�pȝ��变量”中查�?/span>Path��，�q��择�?#8594;�?#8220;�~�辑”→�?#8220;变量�?#8221;的最后一��Ҏ(gu��)��?#8220;;C:\Program Files\GnuWin32\bin”�Q�按��定完成�?/span>

最�q�我是先从课�?/span>TINY语言开始，TINY语言�?/span>lex文�g在源代码�?/span>LEX文�g夹内

1. �?/span>tiny.l的最后添加：(x��)

int yywrap()

{

return 1;

}

用来�l�束扫描

2. �?/span>console上输�?/span>flex tiny.l�Q�生�?/span>lex.yy.c�Q�将其替�?/span>scan.c�Q�编译链接生�?/span>tiny的编译器�?/span>

参考文献：(x��)

http://course.cugnc.com/bianyi/shiyan/CHAPTER/f1.htm

http://blog.csdn.net/litchh/archive/2004/07/14/40983.aspx

http://www.cnscn.org/read.php?tid-10862.html

�?qi��ng)�?/a> 2008-05-28 10:47 发表评论

MFC与LEX �l�合要注意的问题

Sat, 24 May 2008 15:33:00 GMT

�׃��flex往往为我们生成的�?/span>C代码�Q?/span>lex.yy.c�Q�，而实际上我们通常要把它们应用�?/span>C++中，特别是应用到Windows应用�E�序中来�Q�在MFC工程下构造词法分析程序�?/span>

我们往往只是��生的lex.yy.c直接��d��?/span>MFC工程��完事，但是�~�译�Ӟ��׃��各种各样的原因，而��生大量的语法错误�Q�难以修攏V��本人最�q�在MFC下构造一个扩�?/span>TINY语言的词法分析也是遇��C��一些问题，查阅了大量资料（已经��主要的参考资料放�?/span>lex学习(f��n)栏目上，��L(f��ng)��Q?a href="http://www.shnenglu.com/Plator/category/7159.html">http://www.shnenglu.com/Plator/category/7159.html�Q�，耗费了我两天的时间解册��些问题。因此我惛_��本文�Q�将把一些注意问题叙�q�如下，希望对一些朋友有所帮助�?/span>

1. 要将lex.yy.c改�ؓ(f��)CPP文�g�Q?/span>lex.yy.cpp。因�?/span>MFC�?/span>C++工程�Q�若不修改则�?x��)出现错误�?/span>

2. ��?/span>#include 改�ؓ(f��)#include �Q�不然会(x��)出现如下错误�Q?/span>unexpected end of file while looking for precompiled header directive�Q?/span>

3. ��?/span>flex安装目录�?/span>include文�g夹的unistd.h��d��?/span>MFC工程内，�q�修�?/span>#include �Q��ؓ(f��)#include "unistd.h"。因�?/span>unistd.h文�g中定义了词法分析需要用��C��些头文�g�?/span>

4. 如果lex源文仉��要用input��d��字符�Q�则应该换用yyinput�Q�因�?/span>input�?x��)�?/span>C++中的��名词重复，�?x��)出现编译错误�?/span>

5. 注意一�?/span>I/O例程的应用，具体误��Q?a href="http://www.shnenglu.com/Plator/archive/2008/05/24/50940.html">http://www.shnenglu.com/Plator/archive/2008/05/24/50940.html

只是短短几个错误�Q�但是解决的�q�程参考了大量资料�Q�虽然不知道�q�些资料��何�h之手�Q�但是在此感谢这些作者！

�?qi��ng)�?/a> 2008-05-24 23:33 发表评论

Lex 入门 [转蝲]

Sat, 24 May 2008 15:28:00 GMT

First!
lex�E�序的结构是�q�样的！

定义
%%
规则
%%
用户代码

一�?Lex �E�序分�ؓ(f��)三个�D�：(x��)�W�一�D�|�� C �?Lex 的全局声明�Q�第二段包括模式�Q�C 代码�Q�，�W�三�D�|��补充�?C 函数�?�q�些�D�以%%来分界�?下面是一个行��C��字数的统计工兗��?/p>

        int num_lines = 0, num_chars = 0;
%%
\n      ++num_lines; ++num_chars;
.       ++num_chars;

%%
main()
        {
        yylex();
        printf( "# of lines = %d, # of chars = %d\n",
                num_lines, num_chars );
        }

Second!
对First内容的回��?
C �?Lex 的全局声明
�q�一�D�中我们可以增加 C 变量声明。这里我们将为字数统计程序声明一个整型变量，来保存程序统计出来的字数。我们还��进�?Lex 的标记声明�?

字数�l�计�E�序的声�?/p>

       %{
        int wordCount = 0;
        %}
        chars [A-za-z\_\'\.\"]
        numbers ([0-9])+
        delim [" "\n\t]
        whitespace {delim}+
        words {chars}+
        %%

两个癑ֈ��h��记指��Z�� Lex �E�序中这一�D늚��l�束和三�D�中�W�二�D늚�开始�?

Lex 的模式匹配规�?
让我们看一�?Lex 描述我们所要匹配的标记的规则。（我们��?C 来定义标记匹配后的动作。）(j��)�l�箋看我们的字数�l�计�E�序�Q�下面是标记匚w��的规则�?
字数�l�计�E�序中的 Lex 规则

       {words} { wordCount++; /*
        increase the word count by one*/ }
        {whitespace} { /* do
        nothing*/ }
        {numbers} { /* one may
        want to add some processing here*/ }
        %%

C 代码
Lex �~�程的第三段�Q�也��是最后一�D�覆盖了 C 的函数声明（有时是主函数�Q�。注意这一�D�必��d��?yywrap() 函数�?Lex 有一套可供��用的函数和变量�?其中之一��是 yywrap。一般来��_(d��)��yywrap() 的定义如下例。我们将�?高�� Lex 中探讨这一问题�?
字数�l�计�E�序�?C 代码�D?/p>

       void main()
        {
        yylex(); /* start the
        analysis*/
        printf(" No of words:
        %d\n", wordCount);
        }
        int yywrap()
        {
        return 1;
        }

Lex �~�程的基本元素就�q�样搞定了，它将帮助你编写简单的词法分析�E�序�?
Third
高��Lex
Lex 有几个函数和变量提供了不同的信息�Q�可以用来编译实现复杂函数的�E�序。下表中列出了一些变量和函数�Q�以�?qi��ng)它们的使用�?详尽的列表请参�?Lex 手册�?
Lex 变量
yyin FILE* �c�d��?它指�?lexer 正在解析的当前文件�?br> yyout FILE* �c�d��?它指向记�?lexer 输出的位�|��?�~�省情况下，yyin �?yyout 都指向标准输入和输出�?br> yytext 匚w��模式的文本存储在�q�一变量中（char*�Q��?br> yyleng �l�出匚w��模式的长度�?br> yylineno 提供当前的行��C��息。（lexer不一定支持。）(j��)

Lex 函数
yylex() �q�一函数开始分析�?它由 Lex 自动生成�?br> yywrap() �q�一函数在文�Ӟ��或输入）(j��)的末��调用。如果函数的�q�回值是1�Q�就停止解析�?因此它可以用来解析多个文件。代码可以写在第三段�Q�这��p��够解析多个文件�?�Ҏ(gu��)��是��?yyin 文�g指针�Q�见上表�Q�指向不同的文�g�Q�直到所有的文�g都被解析。最后，yywrap() 可以�q�回 1 来表�C��析的�l�束�?br> yyless(int n) �q�一函数可以用来送回除了�?n? 个字�W�外的所有读出标记�?br> yymore() �q�一函数告诉 Lexer ��下一个标记附加到当前标记后�?
到此为止�Q�可能你看到l(f��)ex�E�序�q�会(x��)范晕�Q�没关系�Q�下面我们接着来，分析一个类pascal语法的极��析器�Q?
/* �q�个��是注释�?/
/* scanner for a toy Pascal-like language */
��x��部分开�?br>%{ 内的东西�?x��)原��不动地出现在输出文件�?}%

%{
     /* need this for the call to atof() below */
     #include
%}
DIGIT    [0-9]
ID       [a-z][a-z0-9]*
%%
模式部分开�?
{DIGIT}+    {
    printf( "An integer: %s (%d)\n", yytext,
    atoi( yytext ) );
}
{DIGIT}+"."{DIGIT}*        {
    printf( "A float: %s (%g)\n", yytext,
    atof( yytext ) );
}
if|then|begin|end|procedure|function        {
    printf( "A keyword: %s\n", yytext );
}
{ID}        printf( "An identifier: %s\n", yytext );
"+"|"-"|"*"|"/"   printf( "An operator: %s\n", yytext );
"{"[^}\n]*"}"     /* eat up one-line comments */
[ \t\n]+          /* eat up whitespace */
.           printf( "Unrecognized character: %s\n", yytext );
%%
补充部分开�?
main( argc, argv )
   int argc;
   char **argv;
{
    ++argv, --argc; /* skip over program name */
    if ( argc > 0 )
      yyin = fopen( argv[0], "r" );
    else
      yyin = stdin;
    yylex();
}
惌��真正了解lex, [[正则表达式]] 是关�?
Four
yytext 匚w��模式的文本存储变�? 可以通过在申明阶�D��?pointer�?array来控制是一个字�W�指针还是一个字�W�数�l�。指针模式与数组模式各有特点�Q�导致在yytex��x��上也不一��P��具体请参考lex手册�Q?
在模式阶�D�中

模式            动作
[ \t]+        putchar( ' ' );
[ \t]+$       /* ignore this token */

模式部分是正则表辑ּ��Q�动作部分是处理�Ҏ(gu��)��Q�动作部分如果时{开��_(d��)��那么�Q�动作将�?x��)持�l�到},如果动作中出��C��括号{},开始采�?%{ %}来表�C�动作去区段。动作部分如果时 |,��p��C�Z��下一条规则执行相同的动作�?
好的�Q�我们来看一个更为实用一点的lex�E�序�?br>我们先定义三个动�?
ECHO ��yytext输出
BEGIN 开始一个条件处理块
REJECT 指示��析器对当前规则不做处理，而是采用�W�二匚w��规则�?
int word_count = 0;
%%
frob        special(); REJECT;
[^ \t\n]+   ++word_count;
如果frob没有REJECT动作�Q�frob��不�?x��)被计数�Q�因��析器在通常情况下，每个被匹配的对象只会(x��)对一个动作生效，多个REJECT也是允许的，�?x��)寻找下一个最配的规则来做处理。所以，下面的规则会(x��)把输入的"abcd"处理后输�?abcdabcaba".
%%
a        |
ab       |
abc      |
abcd     ECHO; REJECT;
.|\n     /* eat up any unmatched character */

`yymore()' 告诉解析器下一�ơ匹配的规则�Q�满��的部分��会(x��)��d��到当前yytext值得后面而不是替换它�?例如�Q�指定的输入"mega-kludge"�l�过下面的程序处理后��会(x��)输出"mega-mega-kludge"�?
%%
mega-    ECHO; yymore();
kludge   ECHO;
�W�一�?"mega-" 被满��_ƈ且输�? 然后 "kludge" 满��, 但是�q�没有替换之前的"mega-"而是"kludge"附加��C��的后面，然后输出的其实是"mega-kludge".
yymore()需要两件事情需要注意。第一�Q�yymnore()依赖于表现当前匹配项的长度yyleng的��|��所以��用yymore不允许改变yyleng的倹{��第二，yymore()的��用会(x��)使解析器付出一点点性能的代仗��?
有yymore()��有yyless()
yyless(n) �q�回当前匚w��w��了开始的n个字�W�内的所有的内容到输入缓存区�Q�解析器处理下一个匹配时�Q�它们将�?x��)被重新解析。yyless��会(x��)��D��yytext与yyleng的调整。（yyleng��会(x��)�{�于=n�Q?如输�?foobar"被下面的�E�序处理后，��会(x��)输出"boobarbar". 因�ؓ(f��)前n=3个字�W�foo外的字符bar被重新返回到输入�~�存��Z��?
%%
foobar    ECHO; yyless(3);
[a-z]+    ECHO;
参数0对于yyless��会(x��)��D��整个当前匚w��会(x��)被重新解析。除非你改变了解析器本来的处理流�E?如��用begin),�q�将�?x��)导致��@环结束。需要注意的是，yyless是一个宏�Q��ƈ且在flex输入文�g中��用，不能在其他源文�g中��用�?
unput(c) ��字�W�c攑֛�到输入流中，该字�W�可以重新被解析。下面的动作��当前的匚w��值附上括号后重新�q�行匚w��?
{
int i;
/* Copy yytext because unput() trashes yytext */
char *yycopy = strdup( yytext );
unput( ')' );
for ( i = yyleng - 1; i >= 0; --i )
    unput( yycopy[i] );
unput( '(' );
free( yycopy );
}
注意: �׃��每次unput()��指定的字符��d��到输入源的开��_(d��)��所以将字符串添加到输入源开头必��M��后道前处理。一个比较重要的潜在问题是��用unput()的时候，如果采用�?pointer指针模式保存yytext,unput�?x��)破坏yytext的内容，从最双��的字�W�开始将�?x��)破坏左边的一个字�W�。如果在unput()后要用到yytext,你首先必��d��制一份y(t��ng)ytext,或者用%array模式来保存yytext. 最后你不能放一个EOF去试图标志输入流的结束�?
input 从输入源中读取下一个字�W�。例如，下面有的例子��会(x��)吃掉C语言注释

%%
"/*"        {
            register int c;
            for ( ; ; )
                {
                while ( (c = input()) != '*' &&
                        c != EOF )
                    ;    /* eat up text of comment */
                if ( c == '*' )
                    {
                    while ( (c = input()) == '*' )
                        ;
                    if ( c == '/' )
                        break;    /* found the end */
                    }
                if ( c == EOF )
                    {
                    error( "EOF in comment" );
                    break;
                    }
                }
            }

注意: 如果��析器采用用C++�~�译�Q�input()被yyinput()的替代，因�ؓ(f��)input()与C++中的��名�U�input冲突�?
YY_FLUSH_BUFFER ��h��解析器内部缓存以便于下一�ơ的匚w��工作�Q�首先它�?x��)��用YY_INPUT填充�~�存区。这是通用yy_flush_buffer()的一个特例，��会(x��)在多输入�~�存中描�q��?
yyterminate()可以在动作内部返回描�q�区域中使用�Q�它?y��u)��终止解析器�q�返�?�l�解析器调用者，表示操作完成。缺省情况下�Q�到达文件结束位�|�也�?x��)被调用�Q�它是一个宏�Q��ƈ且可能重定义�?/p>

Lex�q�阶
模式
模式在第一阶段或第二个阶段使用�Q�也��是在申明或规则阶段中出玎ͼ�模式定义了匹配的目标�Q�目标被匚w��后将�?x��)执行动作�?br>对于模式不想做太多说明，使用正则表达式定义，可以参看 regex �?pcre.

开始条�?br>lex提供了根据条件激�z�规则的机制。在前缀的规则将�?x��)在解析器�?sc"的开始条件下被匹配�?/p>

[^"]* { /* eat up the string body ... */ ... }
��会(x��)在启动条�?STRING"的情况下被激�z�R�?/p>

\. { /* handle an escape ... */ ... }
��会(x��)�?"INITIAL", "STRING", "QUOTE"三者之一的条件下被激�z�R�?/p>

开始条件在输入源的定义(�W�一�Q�部分被��x��Q�在‘%s' �?’%x'后跟随着名字列表�?%s��x��了包含的开始条�Ӟ��%x��x��了排他的开始条件。开始条件被BEGIN动作�Ȁ�z�R��直��C��一个BEGIN动作�Q�满��_��始条件名�U�的规则��会(x��)被规则，不满��_��动条件的规则��不�?x��)被执行�?/p>

如果是包含条�Ӟ��没有开始条件的规则也会(x��)被激�z�L��行，如果时排他条�Ӟ��只有满��开始条件的规则才会(x��)被执行�?/p>

��h��相同排他条�g的规则的集合可以使解析器独立于其他的规则。因此，排他条�g可以�Ҏ(gu��)��地创建微型解析器处理输入源中的独立与其他部分的一部分�Q�如�Q�注释）(j��)。如果对于包含与排他条�g�q�有��h��Q�可以看下面的例子�?/p>

%s example%%foo do_something();bar something_else();
�{�同�?/p>

%x example%%foo do_something();bar something_else();
上面的程序中如果没有�Q�在example条�g下bar规则��永�q�不�?x��)被�Ȁ�z�R��如果��?lt;example>�Q�将�?x��)导致只能在exmaple开始条件下�Ȁ�z�，而INITIAL条�g下不�?x��)被�Ȁ�z�R��而第一个程序中在�Q何条件下bar都被�?x��)激�z�R��因为第一个程序用example�?s�Q�时包含条�g。页可以通过�Ҏ(gu��)��开始条�?lt;*>来配�|��Q何开始条�Ӟ��上面的程序还可以写�ؓ(f��)�Q?/p>

%x example%%foo do_something();<*>bar something_else();
�~�省规则�Q�显�C�Z�Q何未被匹配的字符�Q�在开始条件下仍然生效。等同于�Q?/p>

<*>.|\\n ECHO;
‘BEGIN(0)’在无开始条件的规则�Ȁ�z�L��件下�q�回原始状态，�q�个状态同于开始条件下�?INITIAL',所�?#8216;BEGIN(INITIAL)'�{�同�?#8217;BEGIN(0)'�?br>BEGIN行�ؓ(f��)在规则部分的开头是默认的代码（BEGIN actions can also be given as indented code at the beginning of the rules section.��L(f��ng)��译）(j��)例如�Q�下面的代码��会(x��)仅需SPECIAL开始条�Ӟ��不管合适yylex()被调用�ƈ且全局变量enter_special是true�?/p>

int enter_special;%x SPECIAL%% if ( enter_special ) BEGIN(SPECIAL);blahblahblah...more rules follow...
��Z��说明开始条�Ӟ��我们用两�U�方法处�?123.456".�~�省��会(x��)被解析�ؓ(f��) '123','.','456'三个标记�Q�如果expect-floats后面��会(x��)被解析�ؓ(f��)��点�?123.456

%{#include %}%s expect%%expect-floats BEGIN(expect);[0-9]+"."[0-9]+ { printf( "found a float, = %f\n", atof( yytext ) ); }\n { /* that's the end of the line, so * we need another "expect-number" * before we'll recognize any more * numbers */ BEGIN(INITIAL); }[0-9]+ { printf( "found an integer, = %d\n", atoi( yytext ) ); }"." printf( "found a dot\n" );
下面的代码能够是被C语言注释�q�且�l�计行数�?/p>

%x comment%% int line_num = 1;"/*" BEGIN(comment);[^*\n]* /* eat anything that's not a '*' */"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */\n ++line_num;"*"+"/" BEGIN(INITIAL);
实际上，�~�写高速解析程序的办法时在每个规则中做��可能多的匹配�?/p>

This scanner goes to a bit of trouble to match as much text as possible with each rule. In general, when attempting to write a high-speed scanner try to match as much possible in each rule, as it's a big win.

注意: 开始条件的名字实际上时一个整形值�ƈ且能够被保存�Q�所以，上面的代码可以扩展�ؓ(f��)�Q?/p>

%x comment foo%% int line_num = 1; int comment_caller;"/*" { comment_caller = INITIAL; BEGIN(comment); }..."/*" { comment_caller = foo; BEGIN(comment); }[^*\n]* /* eat anything that's not a '*' */"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */\n ++line_num;"*"+"/" BEGIN(comment_caller);
而且�Q�可能易使用YY_START宏来讉K��当前的开始条件。如上面的赋值条件可以改写�ؓ(f��)

comment_caller = YY_START

YYSTATE是YY_START的别名（因�ؓ(f��)AT&T lex使用了YYSTATE�Q��?br>注意开始条件没有他们的名字�I�间; %s �?%x ��x��?#define形式一栗��?/p>

到这里，时一个��用排他开始条件如何匹配C风格的引用字�W�串的处理。包含的扩展的�{义，但不包括��(g��)查，因�ؓ(f��)代码太长�?/p>

%x str%% char string_buf[MAX_STR_CONST]; char *string_buf_ptr;\" string_buf_ptr = string_buf; BEGIN(str);\" { /* saw closing quote - all done */ BEGIN(INITIAL); *string_buf_ptr = '\0'; /* return string constant token type and * value to parser */ }\n { /* error - unterminated string constant */ /* generate error message */ }\\[0-7]{1,3} { /* octal escape sequence */ int result; (void) sscanf( yytext + 1, "%o", &result ); if ( result > 0xff ) /* error, constant is out-of-bounds */ *string_buf_ptr++ = result; }\\[0-9]+ { /* generate error - bad escape sequence; something * like '\48' or '\0777777' */ }\\n *string_buf_ptr++ = '\n';\\t *string_buf_ptr++ = '\t';\\r *string_buf_ptr++ = '\r';\\b *string_buf_ptr++ = '\b';\\f *string_buf_ptr++ = '\f';\\(.|\n) *string_buf_ptr++ = yytext[1];[^\\\n\"]+ { char *yptr = yytext; while ( *yptr ) *string_buf_ptr++ = *yptr++; }
通常�Q�如上面的例子中所看到你，�?x��)有许多相同开始条件的处理。开始条件范围可以简化重复操作�?/p>

{}
SCs 是一个或开始条件的列表。在�q�个开始条件范围内�Q�每个规则将�?x��)自动具有前�~� `' 直到 `}' 与开始的 `{' 匚w��. 例如

{ "\\n" return '\n'; "\\r" return '\r'; "\\f" return '\f'; "\\0" return '\0';}
�{��h(hu��n)�?

"\\n" return '\n';"\\r" return '\r';"\\f" return '\f';"\\0" return '\0';
开始条仉��可以嵌套�Q�下面时三个��理开始条件堆栈的参数�?

`void yy_push_state(int new_state)'
��当前的开始条件压栈，切换�?new_state 与��?`BEGIN new_state'�c�M��?
`void yy_pop_state()'
从栈��弹出，�c�M��?BEGIN.
`int yy_top_state()'
�q�回栈顶��|��不改变栈内容�?
开始条件栈动态增长，没有固定限制�Q�如果内容用��，�E�序竟会(x��)�l�止�?

��Z��使用开始条件栈�Q�需要��?`%option stack' 指��o(h��)�?

多输入缓存区

一些允许include文�g解析器的解析器要求从几个输入��中��d��内容。YY_INPUT只在�l�束�~�存时被调用�Q�碰�?include 后需要切换输入源�Q�而解析一个描�q�C��?d��ng)R��要很长时间。�ؓ(f��)了解��x��c�问题，解析器提供了创徏�q�在多个输入�~�存中创建的机制。输入缓存可以通过下面的方式创�?

YY_BUFFER_STATE yy_create_buffer( FILE *file, int size )

参数��Z��~�存兌��的输入文件指针，以及(qi��ng)��_��的可�l�持size字符�Q�如果不��定�Q�size可以使用YY_BUF_SIZE)。返回一个YY_BUFFER_STATE,可以传递到其他的处理过�E�。YY_BUFFER_STATE是一个不可见�l�构yy_buffer_state的指针，所以可以安全地使用`((YY_BUFFER_STATE) 0)'来初始化YY_BUFFER_STATE�Q�如果你愿意�Q�你可以在解析器之外的源�E�序中引用这个不透明�l�构来正��的��x��输入�~�存。可以通过下面的参数来选择一个缓存区�?

void yy_switch_to_buffer( YY_BUFFER_STATE new_buffer )

切换解析器的输入�~�存��会(x��)��D��记接下来的匹配项来自于新的缓存中。yy_switch_to_buffer可能出现在yywrap中�ؓ(f��)�l�箋解析做准备，替换打开一个新的文件�ƈ执行yyin. 通过yy_switch_to_buffer �?yywrap切换输入源不改变开始条件�?

void yy_delete_buffer( YY_BUFFER_STATE buffer )

用于收回与缓存关联的�I�间。你可以使用下面的函数清�I�当前内�?

void yy_flush_buffer( YY_BUFFER_STATE buffer )

此函数废弃缓存内容，下一个解析器试图匚w��一个内�Ҏ(gu��)��会(x��)使用YY_INPUT来更新缓存区�?/p>

`yy_new_buffer()' �?`yy_create_buffer()' 的一个别名，用于提供C++使用new �?delete操作创徏与销毁动态对象的兼容性�?/p>

最�? YY_CURRENT_BUFFER 宏返�?YY_BUFFER_STATE 指针�Q�表�C�当前的�~�存�?/p>

�q�里是一个扩展include使用的一个解析器 (`<>' �Ҏ(gu��)��将�?x��)在以后讨�?:

/* "incl" 状态用于获取include的文件名 */
%x incl

%{
#define MAX_INCLUDE_DEPTH 10
YY_BUFFER_STATE include_stack[MAX_INCLUDE_DEPTH];
int include_stack_ptr = 0;
%}

%%
include BEGIN(incl);

[a-z]+ ECHO;
[^a-z\n]*\n? ECHO;

[ \t]*      /* eat the whitespace */
[^ \t\n]+   { /* got the include file name */
        if ( include_stack_ptr >= MAX_INCLUDE_DEPTH )
            {
            fprintf( stderr, "Includes nested too deeply" );
            exit( 1 );
            }

include_stack[include_stack_ptr++] =
YY_CURRENT_BUFFER;

yyin = fopen( yytext, "r" );

if ( ! yyin )
error( ... );

yy_switch_to_buffer(
yy_create_buffer( yyin, YY_BUF_SIZE ) );

BEGIN(INITIAL);
}

<> {
        if ( --include_stack_ptr < 0 )
            {
            yyterminate();
            }

        else
            {
            yy_delete_buffer( YY_CURRENT_BUFFER );
            yy_switch_to_buffer(
                 include_stack[include_stack_ptr] );
            }
        }

提供三个�q�程来实现内存字�W�串而不是文件输入缓存的解析。它们都要创��Z��个输入缓存来解析字符�Ԍ��q�且�q�回YY_BUFFER_STATE (可以在完成解析后�?`yy_delete_buffer()' 删除).�Q�也可以通过`yy_switch_to_buffer()'来切�? 下一�ơ调用`yylex()' ��会(x��)解析字符丌Ӏ?/p>

`yy_scan_string(const char *str)' 解析0�l�尾字符丌Ӏ?br>`yy_scan_bytes(const char *bytes, int len)' 解析bytes开始的len个字�W?可能包含 0 字符)

注意�Q�上面的两个函数�?x��)创建字�W�串或字节串的副本�?�q�也许时期望的，因�ؓ(f��)`yylex()' �?x��)修改被解析�~�存的内�? 可以使用下面的方式来拒绝使用副本:

`yy_scan_buffer(char *base, yy_size_t size)'

��会(x��)从base开始解析，包含size个字�? 最后的两个字节必须�?YY_END_OF_BUFFER_CHAR (ASCII NUL)。他们不�?x��)被解�? 解析范围�?`base[0]' �?`base[size-2]'�Q�包含）(j��)。如果你没能按照�q�种规定使用base�Q�如�Q�忘��C��最后的两个YY_END_OF_BUFFER_CHAR字节), `yy_scan_buffer()' ��会(x��)�q�回�I�指针而不创徏YY_BUFFER_STATE。yy_size_t�c�d��是个整型�Q�可以�{化�ؓ(f��)整数来反映buffer的长度�?/p>

文�g�l�束规则

�Ҏ(gu��)��规则 "<>" 只是规则在文件结束位�|�发生且yywrap()�q�回�?倹{�?如，没有更多的文件要处理). �q�个动作必须完成下面四�g事情之一:

赋值给yyin一个新的文�?(早期版本的flex, 此操作后必须调用�Ҏ(gu��)��动作 YY_NEW_FILE; �q�个操作已经不需要了);
执行一个返回申�?
执行一个特�D�的`yyterminate()' 动作;
或者��用`yy_switch_to_buffer()' 切换��C��个新的输入缓存区.

<> 不能与其他模式一起��用；它也�总�在开始条件列表申明。如果指定了不合�?<> 规则, 它将�?x��)应用到所有的开始条件而不仅是 <> 动作. 指定 <> 规则仅在 initial 开始条件下匚w��Q�就是用:

下面的规则可以发现象不关闭的注释�cȝ��问题�?/p>

%x quote
%%

...other rules for dealing with quotes...

<>   {
         error( "unterminated quote" );
         yyterminate();
         }
<> {
         if ( *++filelist )
             yyin = fopen( *filelist, "r" );
         else
            yyterminate();
         }

�?qi��ng)�?/a> 2008-05-24 23:28 发表评论

Flex内存泄露问题[转蝲]

Sat, 24 May 2008 15:25:00 GMT

最�q�弄数据仓库的元数据�Q�这工作里面的一��w��头戏��是解析SQL语句。由于数据仓库的数据加工逻辑比较复杂�Q�成百上千行的SQL随处可见�Q�因此如何把其中的数据来源与��d��清晰的整理出来是非常重要的，以前我解析SQL语句用C++自己写，能实现部分功能，�q�次用的工具是Flex和Bison�Q�学�q�编译原理的都知道大名鼎鼎的Lex/yacc�q�两个工��P��Flex和Bison��是Lex/yacc的windows版本�Q�Flex是解析词法的�Q�Bison是用来解析语法的�?br>我写了一个Flex的例子测试，�q�个例子能把SQL语句��按照分号隔开�Q�放入一个list�Q��ƈ且读出每一句SQL的�v始和�l�束的位�|�，以及(qi��ng)该SQL的类型，例如是一个空SQL�q�是只含注释的SQL�Q�还是一个标准SQL。Flex�q�个工具生成��d��后缀是l的词法文�Ӟ��然后输出一个lex.yy.c的文�Ӟ��我写了个�E�序��试�q�个lex.yy.c。我的目标是把这个解析器做成MFC DLL或者能输出xml的标准程序，�q�样以后的元数据��目��p��直接用了�Q�甚臌��通过GUI界面处理SQL�Q�但是Flex生成�?c文�gMFC�E�序无法直接使用�Q�首先要注释掉c文�g中的#include �q�一行，�q�行�?x��)报错，再修改b->yy_is_interactive = file ? (isatty( fileno(file) ) > 0) : 0;�q�一行，让b->yy_is_interactive = 0,然后在把.c文�g的的开头的#include 替换�?include �Q�这样就行了么？�q�不行，VC2003�~�译�q�是报错�Q�我鼓捣半天才发玎ͼ�需要把lex.yy.c文�g重命名成lex.yy.cpp��可以了�Q�这一�p�d��操作太复杂了�Q�我写了一个批处理文�g生成cpp�Q�然后又写了一个VC的宏来修�Ҏ(gu��)��Ӟ��q�样�Q�按两下鼠标一切就都OK了，嘿嘿�Q�懒人就喜欢自动化�?br>然后写了��单的界面输入SQL�q�行解析�Q�解析效果不错，但是�q�行后却发现了两处内存泄�Ԍ��一处是16386字节�Q�一处是40字节。在�q�里先给非程序员普及(qi��ng)一下内存泄露的知识�Q��Q何一个计��机�E�序�Q�在�q�行的时候存放数据是需要内存的�Q�需要多��内存是�E�序向操作系�l�申��L(f��ng)��Q�这块内存用完了��把它还�l�操作系�l�，操作�pȝ��可以再分配给其他�E�序。就像我们去饭馆吃饭�Q�饭菜就是数据，内存��是��和��子�Q�我们点了菜又点汤，�q�时候碗不够了，我们��׃��(x��)喊一壎ͼ�(x��)“老板�Q�再拿两个碗来盛�?#8221;�Q�这��是内存甌��Q�等我们吃完了抹嘴买单走人，服务员收拄��子和��，�q�就是内存回�Ӟ��如果我们看到�q�家饭馆的碗太漂亮了�Q�于是偷��h��C��个（�q�事我经常干�Q�，�q�就是内存泄霌Ӏ�如果偷��的人太多了�Q�这安��馆的��就不够了，你再甌��要碗老板��׃��(x��)说碗不够了，��L(f��ng)��{�一下，于是你们几个人只能用一个碗吃饭�Q�吃的很慢，�q�就叫内存不��뀂C++和C的程序太灉|��了，��h��和送回��都是程序员自己来做�Q�就像一个饭馆没人看��，完全靠个��觉性来�l�持�Q�因此不��是水��^差也好，疏忽也好�Q�C/C++�E�序�?x��)很��?gu��)��产生内存泄露�Q�java和C#��好多了�Q�他们就相当于饭馆门口有搜��n的，你一个碗也带不走�?br>�q�里我发��C��两处内存泄露�Q�一�?6KB左右�Q�你可能�?x��)说�?6KB�Q�现在内存都好几个GB�Q�这么点��什么，但是如果�q�是一个服务器上常�q�不停机�q�行的程序，有很多�h来访问，�?x��)很快把内存吃掉的。虽然我�q�个�E�序不是服务器上�q�行的程序，但是我能容忍�E�序的bug�Q�却不能容忍内存泄露�Q�想当年我刚刚写C(j��)++�E�序的时候，�E�序有内存泄�Ԍ��我死�z�L��不出来是哪里的问题，最后只能告诉客戯��我这个程序要求内存多�Q�你的电(sh��)脑需要增加内存，于是客户增加了内存，但即使这样也不行�Q�还需要半夜重启一下机器才可以。在此我对该客户表示深深的歉意，从此我发誓，再也不让我的�E�序有一个字节的内存泄露�Q�于是深��p��l�coding和调试技术，�l�过多年的浸淫，自己写的代码肯定不会(x��)有这��L(f��ng)��错误了，而且别�h的多复杂的问题代码我拿过来就调试�Q�就跟饭端过来就吃一样easy�?br>�q�回的问题我认�ؓ(f��)很easy�Q�调试呗�Q�一开始以为是list有问题，�q�是很容易出问题的地方，CList是一个模板类�Q�用了好多年了，好用量又��I��我们一直用它，但是CList里面如果攑օ�指针的话��p��注意了，��单的Removeall是不行的�Q�还需要一个一个的delete掉里面的对象指针�Q�我跟踪了一遍，不是它的问题�Q�每�ơ内存泄露的大小都是那么多，与list的大��没关系。难道是我写的CSQLSet和CSQLNode�q�两个类有问题？仔细查了一遍也没问题，奇了怪了�Q�难道是lex.yy.c不能和MFC混在一��L(f��ng)��Q�我有把�q�个�E�序拆出来，用纯c做了一遍，果然没报告内存泄�Ԍ��好像是问题解决了。但是我如果��单的在程序里面用MFC CString�c�，��׃��(x��)报告泄露�Q�CString�q�更是久�l�考验的共产主义战士，不可能有问题的，太��o(h��)人困惑了�Q�后来通过艰苦的内存检查发玎ͼ�其实�U�c的程序也有内存泄�Ԍ��只不�q�VC2003没有报告�|�了�Q�这��直是VC的一个大bug�Q�这太让我失望了�Q�以前用VC6我比较喜�Ƣnumega的调试插�Ӟ��它能发现比较隐秘的bug和泄�Ԍ��但是VC2003我觉得应该不错了�Q�就没去找这��L(f��ng)��插�g�Q�没惛_��啊没惛_��Q�微软还是忽�(zh��n)�了我一下�?br>现在问题��集中在Flex生成的lex.yy.c上了�Q�这个程序很长，好几千行�Q�而且作者肯定是C的高手，很多地方没看懂，太牛了，我从头到��֤�概浏览一遍，里面好几处申请了内存�Q�可能就是它们的问题�Q�但是这�E�序太复杂了无法下手啊，郁闷之中上网google�Q�输入Flex memory leak�Q�结果发��C��Adobe有一个��品也叫Flex�Q�而且也有内存泄露问题�Q�我倒，什么世道啊�Q�我又加入关键字lex.yy.c�Q�这回搜出来的对了，原来不止一个�h发现了这个问题，很多人都在报告这个问题，但是讨论都没�l�果�Q�找到Flex的老家sourceforge.net�Q�打��投诉一下作者，看到上面有讨论，又搜索了一下，作者针对内存泄露的问题说了�Q�对于制作解析非C的解析器来说�Q�可能会(x��)有泄露问题，解决的方案是在你真的准备�l�束解析的时候加上这两句代码�Q?br>yy_delete_buffer(YY_CURRENT_BUFFER);
yy_init = 1;
我加上了�Q�好了，困扰我两天的问题解决了，�q�下世界清静了。但是看到其他的帖子说Bison也会(x��)有内存泄�Ԍ��前面的�\�q�很�ѝ�?

�?qi��ng)�?/a> 2008-05-24 23:25 发表评论

Sat, 24 May 2008 04:05:00 GMT

Lex允许直接使用I/O例程。它们是�Q?

input()�Q�返回下一个输入字�W�；
output(c)�Q�将字符c写入输出
unput(c)�Q�将字符c压回输入��，下次input()时被��d��?

�q�些例程都有默认的宏定义�Q�但是用户可以重写它们以适应不同的需求。这些例�E�定义了外部文�g和内部字�W�之间的关系�Q��ƈ且只能同时存在或更改。它们可以被重写使得输入或者输��定向到特�D�的位置�Q�包括其他的�E�序或者内存；但是字符集的使用必须在整个例�E�中保持�l�一�Q?strong>input必须�q�回0以表�C�文件结束；unput�?strong>input之间的关�p�d��M��留，否则Lex不能完成向前搜烦(ch��)的操作。Lex在不需要的时候不�?x��)向前搜索，但是每一个以+*?$�l�尾的、或者含�?的规则需要这个功能。同��P��当一个表辑ּ�是另一个的前缀�Ӟ��向前搜烦(ch��)也是必不可少的。参阅下文中有关Lex使用的字�W�集的讨论。默认的Lex库��?00个字�W�作为备用限制�?

�Q�但是这些在C++中似乎存在问题，我也正在调试�Q?

�?qi��ng)�?/a> 2008-05-24 12:05 发表评论