午夜亚洲福利在线老司机,国产精品v欧美精品v日本精品动漫,中文在线资源观看视频网站免费不卡

陈梓�?vczh) — Thu, 21 Mar 2013 03:55:00 GMT

今天我写了一个给Visual C++用的配置�Q�用来让VC++在显�C��己写的字�W�串和容器等设施变得跟显�C�STL一��h��亮。VC++的可配置型还是很高的�Q�我们只要写一个xml�Q�就可以改变调试器对自己的数据结构的昄��?

在这里我��单地介绍一下用法。假讑֤�家觉得vlpp�Q�Vczh Library++�Q�也��是GacUI用的那个库）的WString啊List�q�些东西在调试器里面昄��出来的东西太丑，��可以用以下三步来修改它�?/p>

1�Q�去http://gac.codeplex.com/SourceControl/changeset/view/99419#2395529下蝲我写的那个natvis文�g。这个文件在整个zip包里面的位置是Common\vlpp.natvis
2�Q�把�q�个文�g复制到C:\Program Files (x86)\Microsoft Visual Studio 11.0\Common7\Packages\Debugger\Visualizers�Q�如果��用默认安装�\径的话）
3�Q�重启你最喜爱的Visual Studio 2012�Q�就可以看到下面的东西了�Q?/p>

�I�的��指针

有东西的��指针

有内容的“惰性计��?#8221;�c?/p>

有内容但是还没计��的“惰性计��?#8221;�c?/p>

没内容的“惰性计��?#8221;�c?/p>

新鲜热��G的容�?/p>

新鲜热��G的映��?/p>

��p��一对多的映��也是如此的新鲜热��G

List>的互相嵌套也是如此的完美

如果大家惛_��自己的Customized Visualizer的话�Q�可以去参考微软良心提供的文档http://msdn.microsoft.com/en-us/library/vstudio/jj620914.aspx�Q�然后按照上面的步骤写自��q��natvis文�g。在�q�里我把我的natvis贴上来，以供参考：

xml version="1.0" encoding="utf-8"?>
<AutoVisualizer xmlns="http://schemas.microsoft.com/vstudio/debugger/natvis/2010">

  <Type Name="vl::ObjectString<wchar_t>">
    <DisplayString>{{ size={length}, buffer={buffer+start,su} }}DisplayString>
    <StringView>buffer+start,suStringView>
    <Expand>
      <Item Name="[size]">lengthItem>
      <ArrayItems>
        <Size>lengthSize>
        <ValuePointer>buffer+startValuePointer>
      ArrayItems>
    Expand>
  Type>

  <Type Name="vl::ObjectString<char>">
    <DisplayString>{{ size={length}, buffer={buffer+start,s} }}DisplayString>
    <StringView>buffer+start,sStringView>
    <Expand>
      <Item Name="[size]">lengthItem>
      <ArrayItems>
        <Size>lengthSize>
        <ValuePointer>buffer+startValuePointer>
      ArrayItems>
    Expand>
  Type>

  <Type Name="vl::collections::List<*,*>">
    <AlternativeType Name="vl::collections::SortedList<*,*>"/>
    <AlternativeType Name="vl::collections::Array<*,*>"/>
    <DisplayString>{{ size={count} }}DisplayString>
    <Expand>
      <Item Name="[size]">countItem>
      <ArrayItems>
        <Size>countSize>
        <ValuePointer>bufferValuePointer>
      ArrayItems>
    Expand>
  Type>

  <Type Name="vl::collections::Dictionary<*,*,*,*>">
    <AlternativeType Name="vl::collections::Group<*,*,*,*>"/>
    <DisplayString>{{ size={keys.count} }}DisplayString>
    <Expand>
      <Item Name="[size]">keys.countItem>
      <Item Name="Keys">keysItem>
      <Item Name="Values">valuesItem>
    Expand>
  Type>

  <Type Name="vl::Ptr<*>">
    <AlternativeType Name="vl::ComPtr<*>"/>
    <DisplayString Condition="reference == 0">[empty]DisplayString>
    <DisplayString Condition="reference != 0">{*reference}DisplayString>
    <Expand>
      <Item Condition="reference != 0" Name="[ptr]">referenceItem>
    Expand>
  Type>

  <Type Name="vl::Lazy<*>">
    <DisplayString Condition="internalValue.reference == 0">[empty]DisplayString>
    <DisplayString Condition="internalValue.reference != 0 && internalValue.reference->evaluated == false">[not evaluated]DisplayString>
    <DisplayString Condition="internalValue.reference != 0 && internalValue.reference->evaluated == true">{internalValue.reference->value}DisplayString>
    <Expand>
      <Item Condition="internalValue.reference != 0 && internalValue.reference->evaluated == true" Name="[value]">internalValue.reference->valueItem>
    Expand>
  Type>

  <Type Name="vl::ObjectBox<*>">
    <DisplayString>{object}DisplayString>
    <Expand>
      <ExpandedItem>objectExpandedItem>
    Expand>
  Type>

  <Type Name="vl::Nullable<*>">
    <DisplayString Condition="object == 0">[empty]DisplayString>
    <DisplayString Condition="object != 0">{*object}DisplayString>
    <Expand>
      <ExpandedItem Condition="object != 0">*objectExpandedItem>
    Expand>
  Type>

AutoVisualizer>

陈梓�?vczh) 2013-03-21 11:55 发表评论

陈梓�?vczh) — Tue, 01 Jan 2013 07:52:00 GMT

上一��博�?/a>写到了如何给一个非�l�结�W�的文法规则构造出一个压�~�过的下推状态机�Q�那么今天说的就是如何把所有的文法都连接�v来。其实主要的idea�?a href="http://www.shnenglu.com/vczh/archive/2012/12/07/196079.html" target="_blank">�Q�三�Q?/a>和他的勘�?a href="http://www.shnenglu.com/vczh/archive/2012/12/07/196085.html" target="_blank">�Q�三点五�Q?/a>里面已经说得差不多了。但是今天我们要处理的是带信息的transition�Q�所以还有一些地方要注意一下�?/p>

所以在�q�里我们先把几条文法的最后的状态机都列出来�Q�大图）�Q?/p>

接下来的�q�一步，��是要对所有靠非终�l�符�Q�Exp啊Term�q�些�Q�进行蟩转的transition都执行上一��文章所说的传说中的交叉链接。在产生链接的时候，我们�l�shift和reduce的边分别加上shift和reduce。而shift和reduce是有参数�?#8212;—��是被shift走的状态的id。这样可以在parse的时候匹配和处理状态堆栈。在�q�里我门对e3->e1�q�一步做一下操作做��Z��子。红色的�Ҏ��被删掉的�Q�而粗壮的�l�色�Ҏ��被新加进�ȝ��Q?/p>

�U�色的边变成了两条绿色的边，�U�色的边附带的信息则被复制到了绿色的reduce边上。当我们使用�q�个状态机的时候，shift(s3)��p��C�往堆栈里面压入s3�Q�reduce(s3)��p��C�Z��堆栈里面弹出(s3)。当然弹��Z��一定会成功�Q�所以如果不成功的话�Q�这条边��׃��能在当时使用。因此这也就是�ؓ什么在e3跌��{到t0之后�Q�t1知道往回蟩的是e1而不是别的什么地�?#8212;—��如同�ؓ什么C++的函数执行完之后��L��知道如何跌��{回调用它的地方一�?#8212;—因�ؓ把信息推入了堆栈�?/p>

那现在我们就来看一下，当所有的非终�l�符跌��{都处理掉之后�Q�会变成什么样子吧�Q�这个图真是复杂和�ؕ到我不想��d��Q�，��Z��让图变得不那么糟�p�，我把shift都变成��Ԍ��reduce都变成绿�Ԍ��

在添加shift和reduce边之前，每一条边都是有输入token的。但是我们刚刚添加上�ȝ��shift和reduce边却是不输入token的，所以他们是epsilon边，下一步就是要消除他们。上面这个图消除了epsilon边之后，会变成一个状态很��，但是每一条边附带的信息都会非常多�Q�而且像n1�q�种�l�常到达的状态（因�ؓ四则�q�算里面有很多数字）��恢复射出无数条辏V��到了这里这个状态机已经再也��M��出来了。所以我下面��只拿两个例子来甅R��下面要展示的是用Exp来parse单独的一个数字会走的边，当然��是Exp –> Term –> Factor –> Number了：

��׃��被处理成�Q?/p>

注意边上面的信息是要按顺序重新叠加在一��L��。当所有的epsilon辚w��L��了之后，我们��得��C��最�l�的一个状态机。最重要的一件事情出��C��。我们知道，发明LR和LALR�q�种东西��基本上是�ؓ了处理左递归的，所以这�U�图��可以在去除epsilon边的�q�程中自动发现左递归。这是怎么做到的呢�Q�只要在去除epsilon边的时候，发现了一条完全由shift�q�种epsilon边组成的环，那么左递归��发��C��。�ؓ了方便，我们可以只处理直接左递归——��是�q�种环的长度�?的。不包含间接左递归的问法是很容易写出来的。当然这�U�环�q�不一定是首尾相接的，譬如说我们在处理e0的时候就会发现e0->t0->t0�q�种环（当然严格来说环只有最后一截的�q�个部分�Q�。我们的�E�序要很好地应对�q�种情况。因为我们只接受直接左递归�Q�所以类��D��U�结构的epsilon路径可以直接的抛弃他�Q�因为t0->t0会被t0状态单独处理掉。因此这样做�q�不会漏掉什么�?/p>

�l�心的朋友可能会发现�Q�这个结构的图是不能直接处理右递归的（��M��左递归和右递归总要有一个会让你的状态机傻逼就是了�Q�）。关于如何处理有递归�Q�其实内容也不复杂）地方法会�?#8220;下篇”描述出来。那处理左递归有什么用呢？举个例子�Q�我们的e0->e2��是一个左递归�Q�而他会在之前的步骤被处理成shift(e0->e0)和reduce(e1->e2)。我们要��C��shift和reduce的对应关�p�，那么当我们找��C��个左递归的shift之后�Q�我们就可以把对应的reduce�l�标记成“left-recursive-reduce”。这是一个在构造语法树的时候，非常关键的一�U�构造指令�?/p>

处理完这些之后，我们可以把左递归的shift边全部删掉，最后把token和state都统�l�处理成�q�箋的数字，做成一张[state, token] –> [transitions]的二�l�表�Q�每一个表的元素是transition的列表。�ؓ什么是�q�样呢？因�ؓ我们对一个state输入一个token之后�Q�由于保存着state的堆栈（你还记得吗？shift==push�Q�reduce==pop�Q�的栈顶若干个元素的不同�Q�可能会��C��通的路线。于是最后我们就得到了这么一张图�?/p>

下面�q�张囑֏�以通过�q�行gac.codeplex.com上面的Common\UnitTest\UnitTest.sln�Q�VS2012限定�Q�之后，在Common\UnitTest\TestFiles\Parsing.Calculator.Table.txt里面扑ֈ�。这一�l�文仉��是我在测试状态机的时候log下来的�?/p>

如果大家有VS2012的话�Q�通过�q�行我准备的几个输入�Q�譬如说“1*2+3*4”�Q�就可以在Parsing.Calculator.[2].txt里面扑ֈ�所有状态蟩转的轨迹。因为我们��L��需要parse一个Exp�Q�所以我们从22: Exp.RootStart开始。我们假设token stream的第一个和最后一个分别是$TokenBegin�?TokenFinish。上囄��$TryReduce是�ؓ了应对右递归而设计出来的一�U�特�D�输入。由于四则运��里面�ƈ没有右递归�Q�所以这一列就是空的：

StartState: 22[Exp.RootStart]
$TokenBegin => 23[Exp.Start]
    State Stack:
NUMBER[1] => 2[Number.1]
    State Stack: 23[Exp.Start], 21[Term.Start], 19[Factor.Start]
    Shift 23[Exp]
    Shift 21[Term]
    Shift 19[Factor]
    Assign value
    Create NumberExpression
MUL[*] => 5[Term.3]
    State Stack: 23[Exp.Start]
    Reduce 19[Factor]
    Using
    Reduce 21[Term]
    Using
    LR-Reduce 21[Term]
    Assign firstOperand
    Setter binaryOperator = Mul
    Create BinaryExpression
NUMBER[2] => 2[Number.1]
    State Stack: 23[Exp.Start], 5[Term.3], 19[Factor.Start]
    Shift 5[Term]
    Shift 19[Factor]
    Assign value
    Create NumberExpression
ADD[+] => 10[Exp.3]
    State Stack:
    Reduce 19[Factor]
    Using
    Reduce 5[Term]
    Assign secondOperand
    Reduce 23[Exp]
    Using
    LR-Reduce 23[Exp]
    Assign firstOperand
    Setter binaryOperator = Add
    Create BinaryExpression
NUMBER[3] => 2[Number.1]
    State Stack: 10[Exp.3], 21[Term.Start], 19[Factor.Start]
    Shift 10[Exp]
    Shift 21[Term]
    Shift 19[Factor]
    Assign value
    Create NumberExpression
MUL[*] => 5[Term.3]
    State Stack: 10[Exp.3]
    Reduce 19[Factor]
    Using
    Reduce 21[Term]
    Using
    LR-Reduce 21[Term]
    Assign firstOperand
    Setter binaryOperator = Mul
    Create BinaryExpression
NUMBER[4] => 2[Number.1]
    State Stack: 10[Exp.3], 5[Term.3], 19[Factor.Start]
    Shift 5[Term]
    Shift 19[Factor]
    Assign value
    Create NumberExpression
$TokenFinish => 11[Exp.RootEnd]
    State Stack:
    Reduce 19[Factor]
    Using
    Reduce 5[Term]
    Assign secondOperand
    Reduce 10[Exp]
    Assign secondOperand

我们把所有蟩转过的transition的信息都记录下来�Q�就可以构造语法苏了。我们想象一下，在执行这些指令的时候，遇到NUMBER[4]��q��于获得了一个内容�ؓ4的token�Q�shift的话��是往堆栈里面push�q�一个状态的名字�Q�而reduce则是弹出�?/p>

相对应的�Q�因为每一个文法都会创��Z��个对象，所以我们在初始化的时候，要先放一个空对象在堆栈上。shift一�ơ就再创��Z��个空的对象push�q�去�Q�reduce的时候就把栈��的对象弹出来作�?#8220;待处理对�?#8221;�Q�using了就把待处理对象和栈��对象合�qӞ��left-reduce��是把栈��对象弹出来作�ؓ待处理对象的同时�Q�push一个空对象�q�去。assign fieldName��是�?#8220;待处理对�?#8221;保存到栈��对象的叫做fieldName的成员变量里面去。如果栈��对象�ؓ�I�，那么被保存的对象��是刚刚输入的那个token了。因此我们从头到��执行一遍之后，��可以得��C��面的一颗语法树�Q?/p>

BinaryExpression {
    binaryOperator = [Add]
    firstOperand = BinaryExpression {
        binaryOperator = [Mul]
        firstOperand = NumberExpression {
            value = [1]
        }
        secondOperand = NumberExpression {
            value = [2]
        }
    }
    secondOperand = BinaryExpression {
        binaryOperator = [Mul]
        firstOperand = NumberExpression {
            value = [3]
        }
        secondOperand = NumberExpression {
            value = [4]
        }
    }
}

基本上parsing的过�E�就�l�束了。在“下篇”——也就是（六）——里面�Q�我会讲�q�如何处理右递归�Q�然后这个系列基本上��p��完结了�?/p>

陈梓�?vczh) 2013-01-01 15:52 发表评论

陈梓�?vczh) — Sat, 22 Dec 2012 16:28:00 GMT

本来说这一��文章要把构造确定性状态机和look ahead讲完的，当我真正要写的时候发��C��西太多，只好分成两篇了�?a href="http://www.shnenglu.com/vczh/archive/2012/12/07/196085.html" target="_blank">上一��文�?/a>说道一个基本的状态机是如何构造出来的�Q�但是根�?a href="http://www.shnenglu.com/vczh/archive/2012/11/21/195503.html" target="_blank">�W�一��文�?/a>的说法，�q�一�ơ设计的文法是�ؓ了直接构造出语法树服务的�Q�所以必然在执行状态机的时候就要获得构造语法树的一切信息。如果自己开发过�c�M��的东西就会知道，�c�M��LALR�q�种东西�Q�你可以很容易的把整个字�W�串分析完判断他是不是属于这个LALR状态机描述的这个集合，但是你却不能拿到语法分析所走的路径�Q�也��是说你很难直接拿到那颗分析树。没有分析树肯定是做不出语法树的。因此我们得把一些信息插入到状态机里面�Q�才能最�l�把分析树（�q�不一定真的要表达成树�Q�像上一��文章的“分析路径”�Q�其实就是分析树的一�U�可能的表达形式�Q�所��定的语法树构造出来�?/p>

��像�?a href="http://www.shnenglu.com/vczh/archive/2008/05/22/50763.html" target="_blank">构造正则表辑ּ�引擎》一般给状态机��d��信息的方法，��是把一些附加的数据加到状态与状态之间的跌��{��头里面厅R��ؓ了�Ş象的表达�q�个事情�Q�我��拿�W�一��文章的四则�q�算式子来�D例。在�q�里我�ؓ了大家方便，重复一下这个文法的内容�Q�除��M��语树书声明）�Q?/p>

token NAME = "[a-zA-Z_]/w*";
token NUMBER = "/d+(./d+)";
token ADD = "/+";
token SUB = "-";
token MUL = "/*";
token DIV = "//";
token LEFT = "/(";
token RIGHT = "/)";
token COMMA = ",";

rule NumberExpression Number
        = NUMBER : value;

rule FunctionExpression Call
        = NAME : functionName "(" [ Exp : arguments { "," Exp : arguments } ] ")";

rule Expression Factor
        = !Number | !Call;

rule Expression Term
        = !Factor;
        = Term : firstOperand "*" Factor : secondOperand as BinaryExpression with { binaryOperator = "Mul" };
        = Term : firstOperand "/" Factor : secondOperand as BinaryExpression with { binaryOperator = "Div" };

rule Expression Exp
        = !Term;
        = Exp : firstOperand "+" Term : secondOperand as BinaryExpression with { binaryOperator = "Add" };
        = Exp : firstOperand "-" Term : secondOperand as BinaryExpression with { binaryOperator = "Sub" };

那么我们把这个文发�{成状态机之后�Q�要�l�蟩转加上什么呢�Q�从直觉上来��_��跌��{的时候我们会有六�U�要�q�的事情�Q?br />1、Create�Q�这个文法创建的语法树节�Ҏ��某个�c�d��的（区别于在�q�一�ȝ��q�个问法创徏一个返回什么类型的语法树节点）
2、Set�Q�给创徏的语法树节点的某个成员变量设�|�一个指定的�?br />3、Assign�Q�给创徏的语法树节点的某个成员变量设�|�这一�ơ蟩转的�W�号产生的语法树节点�Q�譬如说Exp = Exp: firstOperand “+” Term: secondOperand�Q�走Term的时候，一个语法树节点��׃��被assign�l�那个叫做secondOperand的成员变量）
4、Using�Q��用这一�ơ蟩转的�W�号产生的语法树节点来做�q�次文法的返回��|��譬如说Factor = !Number | !Caller�q�一条）
5、Shift�Q�略
6、Reduce�Q�略

在这里我们�ƈ没有标记整个文法从哪一个非�l�结�W�开始，因�ؓ在实际过�E�中�Q�其实分析师可以从�Q何一个文法开始的。譬如说写IDE的时候，我们可能在某些情况下仅仅只需要分析一个表辑ּ�。所以考虑到每一个非�l�结�W�都有可能被用到�Q�因此我们的“Token��开�?#8221;�?#8220;Token��结�?#8221;��׃��在每一个非�l�结�W�的状态机中都出现。因此在�W�一步创建Epsilon PDA�Q�下推自动机�Q�的时候，��可以先直接生成。在�q�里我们拿Exp做例子：

双虚�U�代表的是Token��和Token��结束，�q��ƈ不是我们现在兛_��的事情。在剩下的�{换中�Q�实现是��h��输入的�{换，而虚�U�则是没有输入的转换�Q�一般称为epsilon边）�?/p>

在这里我们要明确一个概�?#8212;—分析路径。分析�\径代表的是token�?#8220;��?#8221;�q�状态机的时候，状态是如何跌��{的。因此对于实际的分析�q�程�Q�分析�\径其实就是分析树的一�U�表辑�Ş式。而在状态机里面�Q�分析�\径则代表一条从开始到�l�尾的可能的路径。譬如说在这里，分析路径可以有三条：
$e –> e1 –> e2 –> e$
$e –> e3 –> e8 –> e7 –> e6 –> e5 –> e4 –> e$
$e –> e9 –> e14 –> e13 –> e12 –> e11 –> e10 –> e$

因此我们可以清楚�Q�一条�\径上是不能出现多个create的，否则你就不知道应该创建的是什么了。当然create和using都不能同时出玎ͼ�using也不能有多个。而且�׃��create和set都是在描�q�这个非�l�结�W�（在这里是Exp�Q�所创徏的语法树节点的类型和属性，跟执行他们的时机无关�Q�所以其实在同一条分析�\径里面，create和set攑֜�哪里都没关系。就譬如说在上面的第二条分析路径里面�Q�create是在e6->e5里面标记出来的。就��他�U�d��C��e3->e8�Q�做的事情也一栗��反正只要一条�\径上标记了create�Q�那么他在这条�\径被��定之后�Q�就一定会create所指定的具体类型的语法树节炏V��这是相当重要的�Q�因为在后面的分析中�Q�我们很可能需要移动create和set的具体位�|��?/p>

跟上一��文章说的一��P��接下来的一步就是去除epsilon边了。结果如下：

面对�q�种状态机�Q�去除epsilon边就不能跟处理正则表辑ּ�一��L��单的去除了。首先，所有的�l�结状�?#8212;—也就是所有经�q�或者不�l�过epsilon边之后，通过“Token��结�?#8221;�W�号�q�接到最后一个状态的状态，在这里分别是e2、e6和e12——都是不能删掉的。而且所有的“Token��开�?#8221;�?#8220;Token��结�?#8221;——也就是图里面�?转换——是不能带有信息的。所以我们就会看到e6后面的信息全部被�U�d��C��e7->e6�q�条边上面。由于create和set的流动性，我们�q�么做对于状态机的定义完全没有媄响�?/p>

��C��q�里�q�没完，因�ؓ�q�个状态机�q�是有很多冗余的状态的。譬如说e8和e14、e7和e13、e2和e6和e12实际上是可以合�ƈ的。合�q�的�{�略其实十分��单：

1、如果我们有跌��{e0->e1和e0->e2�Q��ƈ且两个蟩转所携带的token输入和信息完全一致的话，那么e1和e2��可以合�q��?br />2、如果我们有跌��{e1->e0和e2->e0�Q��ƈ且两个蟩转所携带的token输入和信息完全一致的话，那么e1和e2��可以合�q��?/p>

所以对于e8和e14我们是完全可以合�q�的。那么e7和e13怎么办呢�Q�根据create和set的流动性，我们只要把这两个东西挪到他的前面一个或者若�q�个跌��{去，那这两个状态就可以合�ƈ了。�ؓ了让��法更加的简单，我们遇到两个跌��{�c�M��的时候，��L��先挪动create和set�Q�然后再看看是不是真的可以合�q�。所以这一步处理完之后��׃��变成下面�q�个样子�Q?/p>

我们在不改变状态机语义的情况下�Q�把Exp的三个状态机最�l�压�~�成了这个样子。看�q�上一��文章的同学们都知道�Q�下一步就是要把所有的状态机�l�统都连接�v来了。关于在�q�接的时候如何具体操作�{换附带的信息、以及做��Z��个确定性的下推状态机的所有事情将在下一��文章详�l�解释。大家敬��h��待�?/p>

陈梓�?vczh) 2012-12-23 00:28 发表评论

可配�|�语法分析器开发纪事（三点五）——生成下推自动机的具体步骤

陈梓�?vczh) — Fri, 07 Dec 2012 10:49:00 GMT

刚刚发了上一��文�?/a>之后��发现状态机画错了。虽然LiveWriter有打开博客�q�修�Ҏ��章的功能�Q�不�q��ؓ了让我留下一个教训，我还是决定发一��勘误。这个教训就是，作分析的时候不要随�?#8220;��x��”�Q�该一步一步来��׃��步一步来。其实�h呢，��是很容易忘掉以前的教训的了。第一个告诉我不能�q�么�q�的人其实是��学三年�U�的数学老师。当时我因�ؓ懒得写字�Q�所以计��应用题的时候省了几步，被批评了�?/p>

故事��׃��状态机开始。文法我��׃��重复了，见上一��文章。现在我们从状态机开始。第一个状态机是直接从文法变过来的�Q?/p>

然后我们把所有的非终�l�符跌��{都通过Shift和Reduce�q�接到该非终�l�符所代表的状态机的状态上面，��׃��变成下面的图。具体的做法是，对于每一条非�l�结�W�的跌��{�Q�譬如说S0 –> Symbol –> S1。首先抹掉这条蟩转。然后增加两条边�Q�分别是S0到Symbol的�v始节点，操作是Shift。还有从Symbol的终�l�节点到S0�Q�操作是Pop Reduce。Shift�{�于把状态S�l�push到堆栈里�Q�然后Pop�{�于在状态里面弹出内�Ҏ��S的栈��元素。如果失败了怎么办呢�Q�那��׃��能用�q�条跌��{。跟上图一��P��所有输�?跌��{到Finish的边�Q�操作都是要Pop的。在刚开始分析的时候，堆栈有一个Null��|��用来代表“语法分析从这里开�?#8221;�?/p>

�q�个囄��_�虚边代表所有跟左递归有关的蟩转。这些边是成对的�Q�分别是左递归跌��{的Shift和Reduce。如果不是�ؓ了实现高性能的语法分析的话，其实�q�个状态机已经��_��了。这个图跟语法分析的“状态蟩转轨�q?#8221;有很大的关系。虽然IDList0你不知道�W�一步要跌��{到IDList0�q�是ID0�Q�不�q�没关系�Q�现在我们先假设我们可以通过某种��秘的方法来预测到。那么，当输入是A,B,C$的时候，状态蟩转轨�q�就会是如下的样子：

��Z��么要�q�么做呢�Q�我们把�q�幅图想象成�?br>1�Q�想做的��头表示push一个状�?br>2�Q�向下的��头表示修改当前状�?br>3�Q�向右的状态表�C�pop一个状态�ƈ修改当前状�?/p>
因此当输入到B的时候，到达ID1�Q��ƈ跌��{到IDList1。这个时候IDList1【左辏V��的所有【还留在堆栈里】的状态时Null和IDList0�Q�当前状态IDList1�Q�输入剩�?C$。这个图特别的有用。当我们分析完�ƈ且把构造语法树的指令附着在这些箭头上面之后，按顺序执行这些指令就可以构造出一颗完整的语法树了�?/p>
但是在实际操作里面，我们�q�没有办法预��?#8220;�q�里要左递归两次”�Q�也没办法在多次reduce的时候选择�I�竟要从哪里跛_��哪里。所以实际上我们要学习从EpsilonNFA到DFA的那个计��过�E�，把Shift和Reduce当成Epsilon�Q�把吃掉一个token当成非Epsilon边，然后执行我之前写的�?a href="http://www.shnenglu.com/vczh/archive/2008/05/22/50763.html" target="_blank">构造可配置词法分析�?/a>》一文中的那个去Epsilon边算法（如何从Nondeterministic到Deterministic�Q�以及相关的Look Ahead�Q�是下一��文章的内容�Q�，然后��可以把状态机变成�q�样�Q?/p>

上面�_�体的Pop表示�Q�这一个Pop是对应于那个左递归Shifting操作的。实际上�q�是做了一个怎样的变化呢�Q�从“物理解释”上来�Ԍ��其实是把“状态蟩转轨�q?#8221;里面那些除了左递归shifting之外的所有不吃掉token的边都去掉了�Q?/p>

在这里我们可以看刎ͼ��Z��么当堆栈是IDList0, IDList0和IDList0, IDList3的时候，从ID0都可以通过吃掉一�?#8221;,”从而蟩转到IDList3。在上面�q�张“状态蟩转轨�q?#8221;里面�Q�这两个事情都发生了�Q�分别是�W�一条向左的��头和第二条向左的方向。而且�q�两条边刚好对应于上囑ָ�有蓝色粗体文字的跌��{�Q�属于左递归Reducing操作�?/p>
所以，其实在这个时候，我们同时解决�?#8220;应该在什么时候进行左递归Shifting”的问题。只要当左递归Reducing已发生，我们立刻在轨�q�上面补上一条左递归Shifting��好了。因此，我们在一开始做parsing的时候，�Ҏ��不需要预先做左递归Shifting。所以当刚刚输入A的时候，“状态蟩转轨�q?#8221;是这样子的：

然后遇到一�?#8221;,”�Q�发��C��?#8220;做漏”了一个左递归Shifting�Q�因此就变成下面�q�个样子�Q?/p>

�q�也��是上一��文章那个Fake-Shift所做的事情了�?/p>

陈梓�?vczh) 2012-12-07 18:49 发表评论

陈梓�?vczh) — Fri, 07 Dec 2012 08:43:00 GMT

上一��博客讲��C��构造符可��的事情。构造完�W�号表之后，��p��q�入语义分析的后一个阶�D�了�Q�构造状态机。跟我以前写的如何实现正则表辑ּ�引擎的两��文�?/a>讲的一��P��自动机先从Epsilon Nondeterministic Automaton开始，然后一步一步构造成Deterministic Automaton。但是语法分析和正则表达式有很大不同�Q�那么这个自动机是什么样子的呢？

�Q�对学术感兴��的人可以去wiki一�?#8220;下推自动�?#8221;�Q?/p>
下推自动机和有限自动机的区别是，下推自动机扩展成普通的自动机的时候，他的状态的数目是无限的�Q�废话）。但是无限的东西是没办法用编�E�来表达的，那怎么办呢�Q�那��加入一个不定长度的“状态描�q?#8221;。下面我举一个简单的文法�Q?/p>
ID = NAME
IDList = ID | IDList “,” ID

�q�样��构成了一个简单的文法�Q�用来分析带逗号分割的名字列表的。那么写成状态机��是如下的�Ş式：

ID0 = �?NAME
ID1 = NAME �?br>IDList0 = �?(ID | IDList “," ID)
IDList1 = (ID | IDList “,” ID) �?br>IDList2 = (ID | IDList �?“,” ID)
IDList3 = (ID | IDList “,” �?ID)

ID0 –> NAME –> ID1
IDList0 –> ID –> IDList1
IDList0 –> IDList –> IDList2
IDList2 –> “,” –> IDList3
IDList3 –> ID –> IDList1

可以很容易的看出�Q�ID0和IDList0是文法的起始状态，而ID1和IDList1是文法的�l�结状态，��L��囑֦�下：

�Q�PowerPoint��d��复制到LiveWriter里面是一�q�图面简直太方便了）

但是�q�样�q�没完。IDList0跛_��IDList2的时候的输入“IDList”其实�q�不够，因�ؓ用作输入的token其实只有NAME�?,"两种。下一步即��演�C�如何从�q�个状态机�~�程名副其实的下推状态机�?/p>
在这里我先介�l�几个概��c��第一个是�U�进�Q�第二个是规�U�。�ؓ什么要用这两个名字呢？因�ؓ大部分�h看的傻逼清华大学出版社的低能编译原理课本都是这么讲的，黑化分别叫Shift和Reduce。好了，什么是Shift呢？IDList0跛_��IDList2的时候，要移�q�IDList。IDList3跛_��IDList1�Q�要�U�进到ID。IDList0跛_��IDList1也要�U�进到ID。这也就是说�Q?strong>状态�{�Uȝ��q�一条非�l�结�W�的边的时候会�U�进到另一条文法的状态机�?/strong>。ID1和IDList1作�ؓID和IDList的终�l�节点，要根�?#8220;从那里移�q�来�?#8221;分别规约然后跌��{�?#8220;IDList2或者IDList1”。这也就是说�Q?strong>一旦你到达了一条闻法的状态机的终�l�状态，��p��开始规�U�然后蟩转到上一�U�的状态了�?/p>
有�h要问�Q�那我怎么知道规约�l�束的时候要跌��{��d��里呢�Q�这个问题问得非常好。让我们回想一下我以前写的如何手写语法分析�?/a>�q�一��文章。里面怎么说的�Q�当你手写递归下降的语法分析器的时候，每一条文法其实都是一个函数。那调用函数的时候程序怎么��q��道函数结束的时候下一条指令是什么呢�Q�那当然是因为编译器帮我们把“调用函数的时候的下一条指令的地址”�l�push�q�了调用堆栈。但是我们现在不手写语法分析器了�Q�而用下推状态机来做�Q�道理也是一��L��。在“�U�进”的时候，先把当前的状态push�q�堆栈，规约的时候，��可以看一�?#8220;栈顶那几个状态都是什�?#8221;�Q�配合一�ơ向前查看（�q�就是Look Ahead。LALR的那个LA�Q�LALR(1)��是在LA的时候偷看一个token�Q�，来决定规�U�到哪里厅R��至于LA在这里的深刻内涵我将下一��文章再说。因为现在我�q�没有做到Nondeterministic到Deterministic的一步，里面有很多黑�U�技�Q�我想集中讨论�?/p>
那现在让我们把上面那�q�图的两个状态机�q��v来，产生一个下推自动机。但是在�q�里我先做第一步。因为IDList0到IDList1的蟩转是一个左递归的过�E�，先暂时不��?/p>

��色的边都是一个输入非�l�结�W�的跌��{�Q�所以实际上在下推状态机里面是不存在的。在�q�张��N��面我们处理了两条ID的边。IDList0会shift�Q�就是在堆栈里面push�Q�自��q��后蟩转到ID0�Q�因此ID1在查看到栈顶是IDList0的时候，他就知道走的是IDList0 –> ID –> IDList1�q�条路，因此��reduce�q�蟩转到了IDList1。IDList3同理�?/p>
但是Shift的时候�ƈ没有产生输入�Q�所以实际上应该�Ҏ��下面�q�个样子�?/p>

�q�样Shift边也��有输入了。而且ID0到ID1也废掉了。实际上ID0自己也应该废掉。现在还有一个问题没解决�Q�就是左递归和Reduce不��生输入的问题。这两个问题实际上是一��L��。我们先来考虑一下�ؓ什么这里没办法用相同的办法来把Reduce处理成��生输入的。实际上是因为，你在�q�一个阶�D�还不知道究竟Reduce要输入什么才能蟩转，特别是token已经�l�束�q�且parse��Z��一个完整的IDList的时候。以前你们是不是在看《Parsing Techniques》和《龙书》都对�ؓ什么一个字�W�串�l�尾要��生一�?字符感到很困惑呢�Q�实际上他是特别有用的。现在我们来�l�他加上大家��明白了。在�q�里�Q�这个文法的目标是��生一个IDList�l�构�Q�所�?当然也要加在IDList的终�l�状态——IDList1上：

然后��p��到Reduce。ID1应该是Reduce到哪里了�Q�第一步自然是Reduce到IDList1。那么IDList1又要Reduce到哪里呢�Q�我们可以看刎ͼ�在IDList�l�束的时候，要么��是跛_��IDList2�Q�要么就是蟩到FINISH。但是IDList2是通过左递归产生的，我们先不��他。蟩到FINISH需要什么条件呢�Q�第一个是输入$�Q�第二个是Pop完状态之后堆栈会为空。所以这个时候我们可以先修改一下ID1到IDList1的Reduce边：

最后就是左递归了。左递归的处理有点像hack�Q�因为实际上你不能预先判断你要不要左递归�Q�也��是看一下token stream有多��个逗号�Q�，然后先shift几个IDList0�q�去�Q�再慢慢来。所以我们只有在满��跌��{关系的时候��时插入一些IDList0。那么这个关�p�L��什么呢�Q�左递归的IDList�l�束——也��是从IDList0跛_��IDList2——之后只有一�U�可能，��是输入","。而且所有指向IDList1的边都是输入ID�Q�所以这条左递归的线应该从ID1�Q�ID的终�l�状态）�q�到IDList2�Q��ƈ且在链接的时候补�?#8220;假shift IDList0”�Q?/p>

��色的两个状态分别是整个parsing�q�程的�v始状态和�l�结状态。这个时候我们把所有没用的边和状态都�q�掉�Q�就变成了：

是不是觉得特别亲切呢�Q�这不就是正则表辑ּ�NAME ( “,” NAME)*的状态机吗？�q�也是因��个文法刚好可以表达�ؓ一个正则文法才有这��L��l�果�Q�如果我们给他加点儿括号改变点优先��什么的�Q�那��׃��变成一个复杂得多的状态机了。好了。现在我们来模拟一下下推状态机的状态�{换和堆栈操作�q�程�Q�来分析一下A,B,C$�q�个输入吧�?/p>
在下面的标示��N��面，我们用s|abc|def来分别表辑ֽ�前状态s、当前堆栈里的状态abc�Q�栈��在双��Q�和正在�{�待的输入def。那么初始状态肯定就�?br>IDList0 | null | A,B,C$

然后��开始了�Q�（用文字表辑֮�在是太难看了�Q�所以脓成图�Q?/p>

如果成功到达FINISH�q�且堆栈和输入都全部没有了的话，那就证明�Q�parsing�q�程完美�l�束�Q�没有�Q何错误发生�?/p>
如何从文法生成下推自动机�q�完成parsing工作的大概过�E�就写到�q�里了。目前开发进度是�?#8220;生成非确定性下推自动机”�q�里。当我完成了生成“��定性下推自动机”——也��是上面的最后一个状态机囄��时候——就会开始写下一��文章，讲面对复杂的文法的时候，下推自动机将要如何调整。同时将重点描述Look Ahead部分�Q�以及�ؓ什么LALR(1)要设计成那个样子�?/p>

陈梓�?vczh) 2012-12-07 16:43 发表评论

可配�|�语法分析器开发纪事（二）——构造符可��

陈梓�?vczh) — Wed, 28 Nov 2012 16:50:00 GMT

上一��博客讲��C��构造语法树的问题。有朋友在留�a�问我�Q��ؓ什么一定要让语法分析器产生语法树，而不是让用户自己军_��要怎么办呢�Q�在�q�里我先解答�q�个问题�?/p>
1、大部分情况下都是真的需要有语法�?br>2、如果要直接�q�回计算�l�果之类的事情的话，只需要写一个visitor�q�行一下语法树��好了，除去自动生成的代码以外（反正�q�不用�h写，不计入代��P��Q�代码量基本上没什么区�?br>3、加入语法树可以让文法本�w�描�q��v来更��单，如果要让�E�序员把文法单独攑֜�一边，然后自己写完整的语义函数来让他生成语法树的话�Q�会让大部分情况�Q�需要语法树�Q�变得特别复杂，而少数情况（不需要语法树�Q�又没有获得什么好处�?/p>
��管�c�M��yacc�q�样的东西的��是不包含语法树的内容而要你自己写的，但是用�v来难道不是很隑֏�吗？

现在转入正题。这一��文章讲的主要是构造符可��的问题。想要把�W�号表构造的好是一件很�ȝ��的问题。我曄��试�q�很多种�Ҏ��Q�包括强�c�d��的符可��Q�弱�c�d��的符可��Q�基于map的符可��{�等�Q�最后还是挑选了跟Visual Studio自带的用来读pdb文�g的DIA�c�d��中的IDIASymbol�Q?a title="http://msdn.microsoft.com/en-us/library/w0edf0x4.aspx" target="_blank">http://msdn.microsoft.com/en-us/library/w0edf0x4.aspx�Q�基本上一��L��l�构�Q�所有的�W�号都只有这么一个symbol�c�，然后包罗万象�Q�什么都有。�ؓ什么最后选择�q�么做呢�Q�因为在做语义分析的时候，其实做的最多的事情不是构造符可��Q�而是查询�W�号表。如果符可��是强�c�d��的画�Q�譬如说�c�d��要一个类�Q�变量要一个类�Q�函数要一个类之类的，��L��需要到处cast来cast去，也找不到什么好�Ҏ��来在完成相同事情的情况下�Q�保留强�c�d��而不在代码里面出现cast。�ؓ什么语法树��p��用visitor来解册��个问题，而符可��׃��行呢�Q�因为通常我们在处理语法树的时候都是递归的�Ş式，而符可��q�不是。在一个上下文里面�Q�实际上我们是知道那个symbol对象�I�竟是什么东西的�Q�譬如说我们查询了一个变量的type�Q�那�q�返回��D��定只能是type了）。这个时候我们要cast才能用，本��n也只是浪费表情而已。这个时候，visitor模式��׃��是和面对�q�种情况了。如果硬要用visitor模式来写�Q�会��D��语义分析的代码分散得�q�于��谱��D��可读性几乎就丧失了。这是一个辩证的问题�Q�大家可以好好体会体会�?/p>
说了�q�么一大段�Q�实际上��是怎么样呢�Q�让我们来看“文法规则”本��n的符可��吧。既然这个新的可配置语法分析器也是通过parse一个文本�Ş式的文法规则来生成parser�Q�那实际上就跟编译器一栯��l�历那么多阶�D�，其中肯定有符可��Q?/p>
class ParsingSymbol : public Object { public: enum SymbolType { Global, EnumType, ClassType, // descriptor == base type ArrayType, // descriptor == element type TokenType, EnumItem, // descriptor == parent ClassField, // descriptor == field type TokenDef, // descriptor == token type RuleDef, // descriptor == rule type }; public: ~ParsingSymbol(); ParsingSymbolManager* GetManager(); SymbolType GetType(); const WString& GetName(); vint GetSubSymbolCount(); ParsingSymbol* GetSubSymbol(vint index); ParsingSymbol* GetSubSymbolByName(const WString& name); ParsingSymbol* GetDescriptorSymbol(); ParsingSymbol* GetParentSymbol(); bool IsType(); ParsingSymbol* SearchClassSubSymbol(const WString& name); ParsingSymbol* SearchCommonBaseClass(ParsingSymbol* classType); };

因�ؓ文法规则本��n的东西也不多�Q�所以这里的symbol只能是上面记载的9�U�对象。这些对象其实特别的�怼��Q�所以我们可以看出唯一的区别就是当GetType�q�回��g��一��L��时候，GetDescriptorSymbol�q�回的对象的意思也不一栗��而这个区别记载在了enum SymbolType的注释里面。实际上�q�种做法在面对超�U�复杂的�W�号表（考虑一下C++�~�译器）的时候�ƈ不太好。那好的做法�I�竟是什么呢�Q�看上面IDIASymbol的链接，那就是答案�?/p>
不可否认�Q�微软设计出来的API大部分还是很有道理的�Q�除了Win32的原生GUI部分�?/p>
我们�q�可以看刎ͼ��q�个ParsingSymbol�cȝ��几乎所有成员函数都是用来查询这个Symbol的内容的。这里还有两个特�D�的函数�Q�就是SearchClassSubSymbol和SearchCommonBaseClass——当且仅当symbol是ClassType的时候才起作用。�ؓ什么有了GetSubSymbolByName�Q�还要这两个api呢？因�ؓ我们在搜索一个类的成员的时候，是要搜烦他的父类的。而一个类的父�cȝ��sub symbol�q�不是类自己的sub symbol�Q�所以就有了�q�两个api。所谓的sub symbol的意思现在也很明了了。enum�c�d��里面的值就是enum的sub symbol�Q�成员变量是�cȝ��sub symbol�Q��M��只要是声明在一个符号内部的�W�号都是�q�个�W�号的sub symbol。这��是所有符号都有的共性�?/p>
当然�Q�有了ParsingSymbol�Q�还要有他的manager才可以完成整个符可��的操作：

class ParsingSymbolManager : public Object { public: ParsingSymbolManager(); ~ParsingSymbolManager(); ParsingSymbol* GetGlobal(); ParsingSymbol* GetTokenType(); ParsingSymbol* GetArrayType(ParsingSymbol* elementType); ParsingSymbol* AddClass(const WString& name, ParsingSymbol* baseType, ParsingSymbol* parentType=0); ParsingSymbol* AddField(const WString& name, ParsingSymbol* classType, ParsingSymbol* fieldType); ParsingSymbol* AddEnum(const WString& name, ParsingSymbol* parentType=0); ParsingSymbol* AddEnumItem(const WString& name, ParsingSymbol* enumType); ParsingSymbol* AddTokenDefinition(const WString& name); ParsingSymbol* AddRuleDefinition(const WString& name, ParsingSymbol* ruleType); ParsingSymbol* CacheGetType(definitions::ParsingDefinitionType* type, ParsingSymbol* scope); bool CacheSetType(definitions::ParsingDefinitionType* type, ParsingSymbol* scope, ParsingSymbol* symbol); ParsingSymbol* CacheGetSymbol(definitions::ParsingDefinitionGrammar* grammar); bool CacheSetSymbol(definitions::ParsingDefinitionGrammar* grammar, ParsingSymbol* symbol); ParsingSymbol* CacheGetType(definitions::ParsingDefinitionGrammar* grammar); bool CacheSetType(definitions::ParsingDefinitionGrammar* grammar, ParsingSymbol* type); };

�q�个ParsingSymbolManager有着�W�号表管理器的以下两个典型作�?/p>
1、创建符受��?br>2、讲�W�号与语法树的对象绑定�v来。譬如说我们在一个context下面推导了一个expression的类型，那下�ơ对于同��L��context同样的expression��׃��需要再推导一�ơ了�Q�语义分析有很多个pass�Q�对同一个expression求类型的操作�l�常会重复很多次�Q�，把它cache下来��可以了�?br>3、搜索符受��具体到�q�个�W�号表，�q�个功能被做�q�了ParsingSymbol里面�?br>4、保存根节点。GetGlobal函数��是�q�这个作用的。所有的根符号都属于global�W�号的sub symbol�?/p>
因此我们可以怎么使用他呢�Q�首先看上面的Add函数。这些函��C��仅会帮你在一个符可��里面��d��一个sub symbol�Q�还会替你做一些检查，譬如说阻止你��d��相同名字的sub symbol之类的。语法树很复杂的时候，很多时候我们有很多不同的方法来�l�一个符��h��加子�W�号�Q�譬如说C#的成员变量和成员函数。成员变量不能同名，成员函数可以�Q�但是成员函数和成员变量却不能同名。这个时候我们就需要把�q�些��d��操作��装��h��Q�这��h��可以在处理语法树�Q�声明一个函数的�Ҏ��可以有很多，所以添加函数符��L��地方也可以有很多�Q�的时候不需要重复写验证逻辑�?/p>
其次��是Cache函数。其实Cache函数�q�么写，不是用来直接调用的。�D个例子，在分析一个文法的时候，我们需要把一�?#8220;�c�d��”语法树�{成一�?#8220;�c�d��”�W�号�Q�譬如说要决定一个文法要create什么类型的语法树节点的时候）。因此就有了下面的函敎ͼ�

ParsingSymbol* FindType(Ptr type, ParsingSymbolManager* manager, ParsingSymbol* scope, collections::List>& errors) { ParsingSymbol* result=manager->CacheGetType(type.Obj(), scope); if(!result) { FindTypeVisitor visitor(manager, (scope?scope:manager->GetGlobal()), errors); type->Accept(&visitor); result=visitor.result; manager->CacheSetType(type.Obj(), scope, result); } return result; }

很明显，�q�个函数做的事情��是�Q�查询一个ParsingDefinitionType节点有没有被查询�q�，如果有直接用cache�Q�没有的话再从头计算他然后cache��h��。因此这些Cache函数��是�l�类似FindType的函数用的，而语义分析的代码则直接��用FindType�Q�而不是Cache函数�Q�来获取一个类型的�W�号。聪明的朋友们可以看出来�Q�这�U�写法蕴含着一个条�Ӟ��是语法树创建完��׃��会改了（废话�Q�当然不会改�Q�）�?/p>
�q�一��的内容��p��到这里了。现在的�q�度是正在写文法生成状态机的算法。下一��文章应该讲的就是状态机�I�竟是怎么�q�作的了。文法所需要的状态机叫做下推状态机�Q�push down automaton�Q�，跟regex用的NFA和DFA不太一��P��理解��h��略有隑ֺ�。所以我想需要用单独的一��文章来通俗的讲一讌Ӏ?/p>

陈梓�?vczh) 2012-11-29 00:50 发表评论

可配�|�语法分析器开发纪事（一�Q?amp;mdash;—构造语法树

陈梓�?vczh) — Wed, 21 Nov 2012 14:42:00 GMT

��像之前的博客文�?/a>所说的�Q�（主要�q�是�Q�因�?a target="_blank">GacUI的原因，我决定开发一个更好的可配�|�轻量��语法分析器来代替之前的落后的版本。在说这个文章之前，我还是想在此向大家推荐一本《编�E�语�a�实现模式》，�q�的��是一本好书，让我相见恨晚�?/p>
其实说到开发语法分析器�Q�我�?007�q�就已经开始在思考类似的问题了。当时C++�q�处于用的不太熟�l�的时候，隑օ�会做��Z��些傻逼的事情�Q�不�q��ȝ��来说当年的idea�q�是能用的。从那时候开始，我�ؓ了锻��D��己，一直在实现各种不同的语�a�。所以给自己开发一个可配置语法分析器也是在所隑օ�的事情了。于是就有：
�W�一版：http://hi.baidu.com/geniusvczh/archive/tag/syngram%E6%97%A5%E5%BF%97
�W�二版：http://www.shnenglu.com/vczh/archive/2009/04/06/79122.html
�W�三版：http://www.shnenglu.com/vczh/archive/2009/12/13/103101.html
�q�有�W�三版的教程�Q?a title="http://www.shnenglu.com/vczh/archive/2010/04/28/113836.html" href="http://www.shnenglu.com/vczh/archive/2010/04/28/113836.html">http://www.shnenglu.com/vczh/archive/2010/04/28/113836.html

上面的所有分析器都致力于在C++里面可以通过直接描述文法和一些语义行为来让系�l�可以迅速构造出一个针对特定目的的用�v来方便的语法分析器，而“第三版”就是到目前为止�q�在用的一个版本。至于�ؓ什么我要做一个新的——也��是�W�四版—�?a href="http://www.shnenglu.com/vczh/archive/2012/10/30/194052.html" target="_blank">之前的文�?/a>已经说了�?/p>
而今天，�W�四版的开发已�l�开始了有好几天。如果大家关心进度的话，可以�?a target="_blank">GacUI的Codeplex��面下蝲代码�Q�然后阅读Common\Source\Parsing下面的源文�g。对应的单元��试可以在Common\UnitTest\UnitTest\TestParsing.cpp里找到�?/p>
于是今天��p��说关于构造语法树的事情�?/p>
用C++写过parser的�h都知道，构造语法树以及语义分析用的�W�号表是一件极其繁琐，而且一不小心就�Ҏ��写出��的事情。但是根据我写过无穷多棵语法树以及构造过无穷多个�W�号表以及附带的副作用，��，啊不�Q�经验，做这个事情还是有一些方法的�?/p>
在介�l�这个方法之前，首先要说一句，��做完下面的所有事情是肯定要疯掉的�Q�所以这一�ơ的可配�|�语法分析器我已�l�决定了一定要TMD写出一个生成语法树的C++代码的工兗��?/p>
一颗语法树�Q�其实就是一大堆互相�l�承的类。一切成熟的语法树结构所��h��的共同特征，不是他的成员怎么安排�Q�而是他一定会附带一�?a target="_blank">visitor模式的机制。至于什么是visitor模式�Q�大家请自行参考设计模式，我就不多说废话了。这一�ơ的可配�|�语法分析器是带有一个描�q�性语法的。也��是��_��跟Antlr或者Yacc一��P��首先在一个文本文仉��面准备好语法树结构和文法规则�Q�然后我的工具会帮你生成一个内存中的语法分析器�Q�以及用C++描述的语法树的声明和实现文�g。这个描�q�性语法就�c�M��下面的这个大家熟悉到不能再熟悉的带函数的四则�q�算表达式结构：

class Expression
{
}

class NumberExpression : Expression
{
    token value;
}

class BinaryExpression : Expression
{
    enum BinaryOperator
    {
        Add,
        Sub,
        Mul,
        Div,
    }

    Expression firstOperand;
    Expression secondOperand;
    BinaryOperator binaryOperator;
}

class FunctionExpression : Expression
{
    token functionName;
    Expression[] arguments;
}

token NAME = "[a-zA-Z_]/w*";
token NUMBER = "/d+(./d+)";
token ADD = "/+";
token SUB = "-";
token MUL = "/*";
token DIV = "http://";
token LEFT = "/(";
token RIGHT = "/)";
token COMMA = ",";

rule NumberExpression Number
        = NUMBER : value;

rule FunctionExpression Call
        = NAME : functionName "(" [ Exp : arguments { "," Exp : arguments } ] ")";

rule Expression Factor
        = !Number | !Call;

rule Expression Term
        = !Factor;
        = Term : firstOperand "*" Factory : secondOperand as BinaryExpression with { binaryOperator = "Mul" };
        = Term : firstOperand "/" Factory : secondOperand as BinaryExpression with { binaryOperator = "Div" };

rule Expression Exp
        = !Term;
        = Exp : firstOperand "+" Term : secondOperand as BinaryExpression with { binaryOperator = "Add" };
        = Exp : firstOperand "-" Term : secondOperand as BinaryExpression with { binaryOperator = "Sub" };

上面的语法树声明借用的C#语法�Q�描�q��v来特别简单。但是要在C++里面辑ֈ�可以使用的程度，肯定要有一个自带的visitor模式。所以出来之后的代码大概��q��g��下面�q�个样子�Q?/p>
class Expression;
class NumberExpression;
class BinaryExpression;
class FunctionExpression;

class Expression : public ParsingTreeCustomBase
{
public:
    class IVisitor : public Interface
    {
    public:
        virtual void Visit(NumberExpression* node)=0;
        virtual void Visit(BinaryExpression* node)=0;
        virtual void Visit(FunctionExpression* node)=0;
    };

    virtual void Accept(IVisitor* visitor)=0;
};

class NumberExpression : public Expression
{
public:
    TokenValue value;

    void Accept(IVisitor* visitor){visitor->Visit(this);}
};

class BinaryExpression : public Expression
{
public:
    enum BinaryOperator
    {
        Add, Sub, Mul, Div,
    };
    Ptr firstOperator;
    Ptr secondOperator;
    BinaryOperator binaryOperator;

    void Accept(IVisitor* visitor){visitor->Visit(this);}
};

class FunctionExpression : public Expression
{
public:
    TokenValue functionName;
    List> arguments;

    void Accept(IVisitor* visitor){visitor->Visit(this);}
};

��Z��么要�q�样做呢�Q�学习过面向对象开发方法的都知道，把一个明显是�l�承�l�构的东西写成一堆union/struct和一个enum来判断他们，是不对的。第一个不好的地方��是�Q�如果其中的成员需要构造函数和析构函数�Q�那union��q��不了了，struct��׃��定会造成大量的内存浪贏V��因��Z��颗语法树是可以很大的。其�ơ，当语法树的结构（主要是添加删除了新的语法树类型）之后�Q�我们根本不可能保证我们所有的swtich(node->enumType)语句都接受到了正��的更新�?/p>
那要如何解决�q�两个问题呢�Q�答案之一��是使用visitor模式。尽��刚开始写��h��的时候可能会有点别扭�Q�但是我们只要把原本是swtich�l�构的代码做一�?a target="_blank">Continuation Passing Style变换�Q�就可以写出使用visitor的版本了。在�q�里我做一个小��的演示�Q�如何把一个“把上面的语法树�q�原成四则运��式子的函数”给用Expression::IVisitor的框架下实现出来�Q?/p>
class FunctionExpression : public Expression
{
public:
    TokenValue functionName;
    List> arguments;

    void Accept(IVisitor* visitor){visitor->Visit(this);}
};

class ExpressionPrinter : public Expression::IVisitor
{
public:
    WString result;

    void Visit(NumberExpression* node)
    {
        result+=node->value.stringValue;
    }

    void Visit(BinaryExpression* node)
    {
        result+=L"(";
        node->firstOperand->Accept(this);
        switch(binaryOperator)
        {
        case Add: result+=L" + "; break;
        case Sub: result+=L" - "; break;
        case Mul: result+=L" * "; break;
        case Div: result+=L" / "; break;
        }
        node->secondOperand->Accept(this);
        result+=L")";
    }

    void Visit(FunctionExpression* node)
    {
        result+=node->functionName.stringValue+L"(";
        for(int i=0;i        {
            if(i>0) result+=L", ";
            arguments[i]->Accept(this);
        }
        result+=L")";
    }
};

WString PrintExpression(Ptr expression)
{
    ExpressionPrinter printer;
    expression->Accept(&printer);
    return printer.result;
}

其实大家可以看到�Q��用了visitor模式�Q�代码量其实也没有多大变化，本来是递归的地方还是递归�Q�本来该计算什么还计算什么，唯一不同的就是原本这个“函数”的参数和返回值都跑到了一个visitor�cȝ��成员变量里面��M��。当�Ӟ��Z��便于使用�Q�一般来说我们会把原本的函数的原型写出来�Q��ƈ且在里面调用visitor模式�Q�就像上面的PrintExpression函数一栗��如果我们高兴的话，完全可以在ExpressionPrinter�q�个visitor�c�里面��用PrintExpression�Q�无非就是在里面构造新的ExpressionPrinter然后获取�l�构�|�了。一般来��_��visitor�c�都是非常的轻量�U�的�Q�在��C��的CPU性能下面�Q�构造多几个完全不会带来多大影响�?/p>
可配�|�语法分析器既然拥有一个描�q�性语法，那么我肯定也针对�q�个描述性语法写了一颗语法树的。这颗语法树的代码在Common\Source\Parsing\ParsingDefinition.h里面�Q�而ParsingLogging.cpp则是跟上面说的一��P��用visitor的方法写了一个庞大的把语法树转回描述性语法的函数。这个函数非常有用，不仅可以用来打log�Q�还可以用来保存�E�序生成的一个语法规则（反正可以parse回来�Q�所以保存成文本是一件特别方便的事情�Q�，甚至是生成错误消息的片段�{�等�?/p>
今天��先讲到�q�里了。现在的可配�|�语法分析器的开发进度是正在写语义分析的部分。等到语义分析写完了�Q�我会再写一��纪事来说明开发语义分析程序和构造符可��的一般做法�?/p>

陈梓�?vczh) 2012-11-21 22:42 发表评论

C++使用Uniscribe�q�行文字自动换行的计��和渲染

陈梓�?vczh) — Tue, 06 Nov 2012 14:34:00 GMT
     摘要: Uniscribe是Windows 2000以来��存在于WinAPI中的一个库。这个库能够提供�l�我们关于字�W�串渲染的很多信息，譬如说哪里可以换行啦�Q�渲染的时候字�W�的��序应该是什么样子啦�Q�还有每一个字�W�的大小什么的。关于Uniscribe的资料可以在http://msdn.microsoft.com/en-us/library/windows/desktop/dd374091(v=vs.85).as...  阅读全文

陈梓�?vczh) 2012-11-06 22:34 发表评论

又到了一�q�一度重构通用可配�|�语法分析器的时候了

陈梓�?vczh) — Mon, 29 Oct 2012 16:23:00 GMT

因�ؓGacUI需要实��C��个文本描�q�的�H�口描述格式�Q�再加上C++�l�常需要处理xml和json�{�常用数据结构，�q�有自己�q�要时不时开发一些语�a�来玩一玩之�cȝ��理由�Q�每一�ơ遇到自��q��技术革新的时候，��L��免不了要对可配置语法分析器做��Z��攏V��上一个版本的可配�|�语法分析器可以见之前的博客文章�?strong>Vczh Library++ 语法分析器开发指�?/a>》�?/p>
��Z��么要重写vlpp的这一部分呢？因�ؓ�l�过多次可配�|�语法分析器的开发，我感觉到了C++直接用来表达文法有很多弱点：

1、C++自��n的类型系�l�导致表辑և�来的文法会有很多噪音。当然这�q�不是C++的错�Q�而是通用的语�a�做这�U�事情��L��会有点噪音的。无论是�?a target="_blank">Monadic Parser Combinators using C# 3.0》也好，我大微��Y研究院的��Z��Haskell�?a target="_blank">Parsec也好�Q�还是boost�?a target="_blank">spirit也好�Q�甚��x��F#�?a target="_blank">Fsyacc也好�Q�都在展�C�Z��parser combinator�q�个强大的概�늚�同时�Q�也暴露��Z��parser combinator的弱点：在语法分析结果和语言的数据结构的�l�合斚w��特别的麻烦。这里的�ȝ��不仅在于会给文法造成很多噪音�Q�而且复杂的parser�q�会使得你的�l�构特别的臃肿（参考Antlr的某些复杂的应用�Q�这里就不一一列�D了）�?/p>
2、难以维护。如果直接用C++描述一个强�c�d��文法的话�Q�势必是要借助parser combinator�q�个概念的。概忉|��w�是很厉害的�Q�而且实现的好的话开发效率会特别的高。但是对于C++�q�种非函数式语言来说�Q�parser combinator�q�种特别函数式的描述攑֜�C++里面��׃��多出很多�ȝ��Q�譬如闭包的语法不够漂亮啦、没有垃圾收集器的问题导致rule与rule的��@环引用问题还要自行处理啦�Q�在很早以前的一��博客论证过了，只要是带完整闭包功能的语�a��Q�都一定不能是用引用计数来处理内存�Q�而必��要一个垃圾收集器的）。尽��我一直以来都�q�是没做��q�方面的bug�Q�但是由于（主要是用来处理何时应该delete对象部分的）逻辑复杂�Q�导致数据结构必��Mؓdelete对象的部分让步，代码�l�护��h��也相当的蛋疼�?/p>
3、有些优化无法做。�D个简单的例子�Q�parser combinator��根本没办法处理左递归。没有左递归�Q�写��h��些文法来也是特别的蛋疹{��还有合�q�共同前�~��{�等的优化也不能做，�q�导致我们必��Mؓ了性能牺牲本来��已�l�充满了噪音的文法的表达�Q��{而�h工作文法的共同前�~�合�ƈ�Q�文法看��h��更�׃��?/p>
当然上面三个理由看�v来好像不太直观，那我��׃�D一个典型的例子。大家应该还记得我以前写�q�一个叫�?a href="http://www.shnenglu.com/vczh/archive/2011/03/20/142261.html" target="_blank">NativeX的语�a��Q�还�l�它做了一�?a href="http://www.shnenglu.com/vczh/archive/2011/02/25/140618.html" target="_blank">带智能提�C�的�~�辑�?/a>�Q�还�?a href="http://www.shnenglu.com/vczh/archive/2010/11/07/132876.html" target="_blank">�q�里�?a href="http://www.shnenglu.com/vczh/archive/2010/12/05/135505.html" target="_blank">�q�里�Q�。NativeX是一个C++实现的C+template+concept mapping的语�a��Q�语法分析器当然是用上一个版本的可配�|�语法分析器来做的。文法规则很复杂�Q�但是被C++�q�么以表达，��更加复杂了�Q?a target="_blank">.\Library\Scripting\Languages\NativeX\NativeXParser.cpp�Q�，已经��C��不仔�l�看��无法维护的地步了�?/p>
�l�g��所�q�ͼ�做一个新的可配置语法分析器出来理由充分，势在必得。但是�Ş式上是什么样子的呢？上面说过我以前给NativeX写过一个带��提示的编辑器。这个编辑器用的是WinForm�Q�那当然也是用C#写的�Q�因此那个对性能要求高到��谱的NativeX�~�辑器用的语法分析器当然也是用C#写的。流�E�大概如下：
1、用C#按照要求声明语法树结�?br>2、��用我的库用C#写一个文�?br>3、我的库会执行这个文法，生成一大段C#写的�{��h的递归下降语法分析器的代码
当时我把�q�个�q�程记录在了�q�篇博客文章里面�?/p>
因此现在��有一个计划，�q�个新的可配�|�语法分析器当然�q�是要完全用C++�Q�但是这��p��正则表达式一��P��
1、首先语法树�l�构和文法都声明在一个字�W�串里面
2、可配置语法分析器可以在内存中动态执行这�D�|��法，�q�按照给定的语法树结构给��Z��个在内存中的动态的数据�l�构
3、可配置语法分析器当然还要附带一个命令行工具�Q�用来读文法生成C++代码�Q�包括自带Visitor模式的语法树�l�构�Q�和C++写的递归下降语法分析�?/p>
所以现在就有一个草�E�，��是那个“声明在字符串里面”的语法树结构和文法的说明。这是一个很有意思的�q�程�?/p>
首先�Q�这个可配置语法分析器需要在内存中表达语法树�l�构�Q�和一个可以执行然后��生动态数据结构的文法。因此我们在使用它的时候，可以选择直接在内存中堆出语法树结构和文法的描�q�ͼ�而不是非得用那个字符串的表达形式。当�Ӟ��字符串的表达形式肯定是十分紧凑的�Q�但�q�不是必��ȝ��Q�只是推荐的�?/p>
其次�Q�parse�q�个“语法树�l�构和文法都声明”当然也需要一个语法分析器是不是？所以我们可以用上面的方法，通过直接在内存中堆出文法来用自己构造出一个自��q��语法分析器�?/p>
再者，有了一个内存中的语法分析器之后�Q�我��可以将上面�W�三步的命��o行工具做出来�Q�然后用它来描述自己的文法，产生��Z��D�C++写的递归下降语法分析器，用来分析“语法树�l�构和文法都声明”，然后��有了一对C++代码文�g�?/p>
最后，把��生出来的�q�对C++代码文�g加进去，我们��有了一个C++直接写，而不是在内存中动态构造出来的“语法树�l�构和文法都声明”的分析器了。然后这个分析器��可以替换掉命��o行工具里面那个原先动态构造出来的语法分析器。当焉��个动态构造出来的语法分析器这个时候已�l�没用了�Q�因为有了生成的C++语法分析器，我们��可以直接��用“语法树�l�构和文法都声明”来描述自己�Q�得到这么一个描�q�的字符�Ԍ��然后随时都可以用�q�个字符串来动态生成语法分析器了�?/p>
总而言之就�?br>1、实现可配置语法分析器，可以直接用数据结构做��Z��个��生动态数据结构的parser combinator�Q�记为PC�?br>2、用PC做一个“语法树�l�构和文法都声明”的语法分析器。这个“语法树�l�构和文法都声明”记为PC Grammar�?br>3、PC Grammar当然可以用来表达PC Grammar自己�Q�这��h��们就得到了一个专门用来说明什么是合法的“语法树�l�构和文法都声明”的描述的字�W�串的这么个文法�Q�记为PC Grammar Syntax Definition�?br>4、通过�q�䆾满��PC Grammar要求的PC Grammar Syntax Definition�Q�我们就可以用PC来解释PC Grammar Syntax Definition�Q�动态��生一个解释PC Grammar的语法分析器
5、有了PC Grammar的语法分析器PC Grammar Parser (in memory version)�Q�之后我们就可以把“文�?>C++代码”的代码生成器做出来�Q�称之�ؓPC Grammar C++ Codegen�?br>6、有了PC Grammar C++ Codegen�Q�我们就可以用他��d��PC Grammar Syntax Definition�Q��生一个直接用C++写的PC Grammar的语法分析器�Q�叫做PC Grammar Parser (C++ version)�?/p>
到此为止�Q�我们获得的东西�?br>1、PC �Q�Parser Combinator�Q?br>2、PC Grammar
3、PC Grammar Syntax Definition
4、PC Grammar Parser (in memory version)
5、PC Grammar Parser (C++ version)
6、PC Grammar C++ Codegen

其中�Q?�?�?�?�?都是可以执行的，2是一个“标准”。到了这一步，我们��可以用PC Grammar Parser (C++ version)来替换掉PC Grammar C++ Codegen里面的PC Grammar Parser (in memory version)了。这��p��gcc要编译一个小�~�译器来�~�译自己得到一个完整的gcc一栗��这个过�E�还可以用来��试PC Grammar C++ Codegen是否写的��_��好�?/p>
那么“语法树�l�构和文法都声明”到地是什么样子的呢？我这里给��Z��个简单的文法�Q�就是用来parse诸如int、vl::collections::List、int*、int&、int[]、void(int, WString, double*)的这些类型的字符串了。下面首先展�C�如何用�q�个描述来解决上面的“类型”的语法书声明：

class Type{}

class DecoratedType : Type
{
    enum Decoration
    {
        Pointer,
        Reference,
        Array,
    }
    Decoration        decoration;
    Type            elementType;
}

class PrimitiveType : Type
{
    token            name;
}

class GenericType : Type
{
    Type            type;
    Type[]            arguments;
}

class SubType : Type
{
    Type            type;
    token            name;
}

class FunctionType : Type
{
    Type            returnType;
    Type[]            arguments;
}

然后��是声明语法分析器所需要的词法元素�Q�用正则表达式来描述�Q?/p>
token SYMBOL        = <|>|\[|\]|$|$|,|::|\*|&
token NAME            = [a-zA-Z_]\w*

�q�里只需要两�U�token��可以了。接下来��是两种�{��h的对于这个文法的描述�Q�用来展�C�全部的功能�?/p>
========================================================

Type SubableType    = NAME[name] as PrimitiveType
                    = SubableType[type] '<' Type[arguments] { ',' Type[arguments] } '>' as GenericType
                    = SubableType[type] '::' NAME[name] as SubType

Type Type            = @SubableType
                    = Type[elementType](
                            ( '*' {decoration = DecoratedType::Pointer}
                            | '&' {decoration = DecoratedType::Reference}
                            | '[' ']' {decoration = ecoratedType::Array}
                            )
                        ) as DecoratedType
                    = Type[returnType] '(' Type[arguments] { ',' Type[arguments] } ')' as FunctionType

========================================================

rule PrimitiveType    PrimitiveType    = NAME[name]
rule GenericType    GenericType        = SubableType[type] '<' Type[arguments] { ',' Type[arguments] } '>'
rule SubType        SubType            = SubableType[type] :: NAME[name]
rule Type            SubableType        = @PrimitiveType | @GenericType | @SubType

rule DecoratedType    DecoratedType    = Type[elementType] '*' {decoration = DecoratedType::Pointer}
                                    = Type[elementType] '&' {decoration = DecoratedType::Reference}
                                    = Type[elementType] '[' ']' {decoration = DecoratedType::Array}
rule FunctionType    FunctionType    = Type[returnType] '(' Type[arguments] { ',' Type[arguments] } ')'
rule Type            Type            = @SubableType | @DecoratedType | @FunctionType

========================================================

如果整套�pȝ��开发出来的话，那么我就会提供一个叫做ParserGen.exe的命令行工具�Q�把上面的字�W�串转换��Z��?strong>可读的、等价与�q�段文法的、��用递归下降�Ҏ��来描�q�的、C++写出来的语法分析器和语法树声明了�?/p>

陈梓�?vczh) 2012-10-30 00:23 发表评论

使用C++和Windows API操作��Z��http协议的xml service

陈梓�?vczh) — Sat, 27 Oct 2012 07:19:00 GMT

在S1�ȝ��@kula的鼓�׃��Q�我开始��用kula提供的api来操作那个傻逼的“鸟窝”�|�站�Q?a style="color: ; text-decoration: underline" target="_blank">https://www.niaowo.me�Q�。不�q�由于我自己在业余时间写的程序都喜欢用C++和Windows API�Q�因此我琢磨了几天，真的让我用C++�l�写了出来�?/p>
我写了一个HttpUtility库来实现C++操作http/https服务的功能，�q�䆾代码可以在这里获得：

HttpUtility.h�Q?a style="color: ; text-decoration: underline" target="_blank">http://gac.codeplex.com/SourceControl/changeset/view/95641#2295555
HttpUtility.cpp�Q?a title="http://gac.codeplex.com/SourceControl/changeset/view/95641#2295554" style="color: ; text-decoration: underline" target="_blank">http://gac.codeplex.com/SourceControl/changeset/view/95641#2295554

使用的时候很��单，只需要HttpRequest里面填满了参敎ͼ�然后��可以用HttpQuery参数获得一个HttpResponse�c�d��Q�这个类型里面写满了http服务器的�q�回倹{��返回内容和cookie�{�的数据。譬如说用来post来登陆鸟�H�，然后拿到cookie之后查询首页的所有帖子，大概��可以这么写�Q?/p>
WString NestleGetSession(const WString& username, const WString& password, const WString& apiKey, const WString& apiSecret)
{
    WString body=L"api_key="+apiKey+L"&api_secret="+apiSecret+L"&username="+username+L"&password="+password;

    HttpRequest request;
    HttpResponse response;

    request.SetHost(L"https://www.niaowo.me/account/token/");
    request.method=L"POST";
    request.contentType=L"application/x-www-form-urlencoded";
    request.SetBodyUtf8(body);
    HttpQuery(request, response);

    if(response.statusCode==200)
    {
        return response.cookie;
    }
    else
    {
        return L"";
    }
}

WString NestleGetXml(const WString& path, const WString& cookie)
{
    HttpRequest request;
    HttpResponse response;

    request.SetHost(L"https://www.niaowo.me"+path+L".xml");
    request.method=L"GET";
    request.cookie=cookie;
    request.acceptTypes.Add(L"application/xml");
    HttpQuery(request, response);


    if(response.statusCode==200)
    {
        return response.GetBodyUtf8();
    }
    else
    {
        return L"";
    }
}

于是我们�l�于获得了一个保存在vl::WString的xml字符串了�Q�那怎么办呢�Q�这个时候需要出动IXMLDOMDocument2来解析我们的xml。只要装了IE的计��机上都是有IXMLDOMDocument2的，而不装IE的Windows PC是不存在的，因此我们��L��可以大胆的��用。当�Ӟ��用IXMLDOMDocument直接来遍历什么东西特别的慢，所以我们需要的是xpath。xpath对于xml��p��regex对于字符串一��P��可以直接查询出我们要的东�ѝ��首先看一下如何操作IXMLDOMDocument2接口�Q?/p>
IXMLDOMNodeList* XmlQuery(IXMLDOMNode* pDom, const WString& xpath)
{
    IXMLDOMNodeList* nodes=0;
    BSTR xmlQuery=SysAllocString(xpath.Buffer());
    if(xmlQuery)
    {
        HRESULT hr=pDom->selectNodes(xmlQuery, &nodes);
        if(FAILED(hr))
        {
            nodes=0;
        }
        SysFreeString(xmlQuery);
    }
    return nodes;
}

WString XmlReadString(IXMLDOMNode* node)
{
    WString result;
    BSTR text=0;
    HRESULT hr=node->get_text(&text);
    if(SUCCEEDED(hr))
    {
        const wchar_t* candidateItem=text;
        result=candidateItem;
        SysFreeString(text);
    }
    return result;
}

void XmlReadMultipleStrings(IXMLDOMNodeList* textNodes, List& candidates, int max)
{
    candidates.Clear();
    while((int)candidates.Count()    {
        IXMLDOMNode* textNode=0;
        HRESULT hr=textNodes->nextNode(&textNode);
        if(hr==S_OK)
        {
            candidates.Add(XmlReadString(textNode));
            textNode->Release();
        }
        else
        {
            break;
        }
    }
}

IXMLDOMDocument2* XmlLoad(const WString& content)
{
    IXMLDOMDocument2* pDom=0;
    HRESULT hr=CoCreateInstance(__uuidof(DOMDocument60), NULL, CLSCTX_INPROC_SERVER, IID_PPV_ARGS(&pDom));
    if(SUCCEEDED(hr))
    {
        pDom->put_async(VARIANT_FALSE);
        pDom->put_validateOnParse(VARIANT_FALSE);
        pDom->put_resolveExternals(VARIANT_FALSE);

        BSTR xmlContent=SysAllocString(content.Buffer());
        if(xmlContent)
        {
            VARIANT_BOOL isSuccessful=0;
            hr=pDom->loadXML(xmlContent, &isSuccessful);
            if(!(SUCCEEDED(hr) && isSuccessful==VARIANT_TRUE))
            {
                pDom->Release();
                pDom=0;
            }
            SysFreeString(xmlContent);
        }
    }
    return pDom;
}

有了�q�几个函��C��后，我们��可以干下面的事情，譬如说从鸟窝首页下蝲�W�一��늚�所有topic的标题：

WString xml=NestleGetXml(L”/topics”, cookie);
IXMLDOMDocument2* pDom=XmlLoad(xml);
List titles;
IXMLNodeList* nodes=XmlQuery(pDom, L”/hash/topics/topic/title/text()”);
XmlReadMultipleStrings(nodes, titles, 100);

��Z��么上面的xpath是hash/topics/topic/title/text()�?因�ؓ�q�个xml的内容大概类��g��Q?br />


            TITLE
…

剩下的大家就�ȝ��代码吧。这个故事告诉我们，只要有一个合适的��装�Q�C++写�v�q�些本来应该让C#来写的东西也不是那么的烦人的�Q�啊哈哈哈哈�?/p>

陈梓�?vczh) 2012-10-27 15:19 发表评论

陈梓�?vczh) — Thu, 30 Aug 2012 13:29:00 GMT

    Visual Studio 2012发布的那一天我��把它搞到手了。新的C++ IDE真的是劲爆了�Q�写代码的感觉毫不亚于C#。我最喜欢的部分是��补全和着色部分。如今C++的宏被渲染成屎红�Ԍ��c�d��被渲染成屎绿�Ԍ��参数被渲染成屎灰�Ԍ��q�样基本不需要要�~�译�Q�看着颜色都知道有没有写对。智能补全已�l�赶��VAX�Q�而且�q�实��C��“�~�写�q��o”�Q�譬如说输入PNT��可以在弹出列表里面昄��所有大写字母�ؓPNT的对象（譬如说ParsingNodeTransition�Q�等�{�。这样做的好处是�Q�我只要打有限几个字�W�就可以补完一整句了，输入速度大大提高�?br />
    所以我升��了几乎所有工�E�。文档生成部分由于还在��用DIA100�Q�所以暂时没有升�U�到2012�Q�不�q�这是迟早的事情。不�q�这�ơ升�U�遇��C��几个��问题�?br />
    �W�一个是�Q�对于没有capture��M��外部变量的lambda expression�Q�它可以隐式转换成一个函数指针。这个功能VS2010是没有的�Q�结果升�U�了之后造成了我几个重蝲函数的问题，不过解决�q�个东西�q�是很简单的�Q�只要把lambda表达式先保存在一个vl::Func变量里面��好了�?br />
    �W�二个是WICImagingFactory。在Windows SDK 7.0里面�Q�CLSID_WICImagingFactory指向了WIC的唯一一个版本。在Windows SDK 8.0里面�Q�出��C��CLSID_WICImagingFactory1和CLSID_WICImagingFactory2�Q��ƈ且CLSID_WICImagingFactory�{�于CLSID_WICImagingFactory2。问题就来了�Q�Windows 7里面�q�没有WICImagingFactory2�Q�结果我CoCreateInstance��是败了。一开始觉得很奇怪，后来想了惻I��直接用VS那强大的Go To Definition功能跛_��了定义CLSID_WICImagingFactory的地方，然后发现了这个事情。因此我��把代码�Ҏ��了，如果sdk用的是高�U�版本，��强制��?.0的�?br />
    VS2012�Ҏ��板语法的��查更加严��g��。以前还可以写typename A::B�Q�现在不行了�Q�得写成typename A::template B。其实后面那个才是标准的�Q�而且VS2010也支持。只是VS2010也允�怽�省略template�?br />
    VS2012对于C++的改�q�已�l�跟C#几乎一模一样了�Q�而且VS2012�q�支持C++的单元测试项目。�ȝ��来说�Q�我十分喜欢�?/div>

陈梓�?vczh) 2012-08-30 21:29 发表评论

陈梓�?vczh) — Sat, 10 Mar 2012 01:04:00 GMT
     摘要: �l�于��C��Ȁ动�h心的时刻了。今天的博客内容��永�q�消除Visual Studio的本地C++XML注释�~�译出来的XML文档没有办法生成可读文档的根本原因�?

首先介绍一下C++的XML注释。在启用注释之前�Q�我们必��d��d��E�属性里面，把[C/C++ -> Output Files -> Generate Xml Documentation Files]讄��成Yes。这��h��们就可以在C++的类啊函��C��面写XML注释�Q�然后被�~�译成一份带有符号链接的XML注释集合。这里先�l�一个GacUI的XML注释的例子：  阅读全文

陈梓�?vczh) 2012-03-10 09:04 发表评论

陈梓�?vczh) — Fri, 09 Mar 2012 22:43:00 GMT
     摘要: GacUI��C��撰写文档的时候了。虽然GacUI本��n的功能还没有全部完成�Q�但是发布一个alpha版还是可以的。因此GacUI需要一份文档。自�?net语言支持XML注释生成文档之后�Q�Visual Studio的本地C++也支持��用XML注释了。只要打开了[工程属�?-> C/C++ -> Output Files -> Generate XML Documentation Files]之后�Q�Visual Studio会在�~�译本地C++工程之后�Q�将所有的XML注释攉��h��Q�放在和可执行文件同一个目录下�?ProjectName.xml>里面。然后我��尝试bing了一下有没有从C++的XML文档生成可读文档的工��P��l�果发现只有.net才支持�?

后来我稍微研�I�了一下（详细内容��会在下一��博客透露�Q�，发现之所以没人写�q�个工具�Q�是因�ؓ只有.net的可执行文�g才包含��够多的元数据�Q�而且�q�些元数据是必须的，否则无法生成一个完整的文档。�D个例子，虽然包含了xml注释和该注释所在的�W�号�Q�但是却没有包含该符��L��l�构信息。结果你试图生成一个函  阅读全文

陈梓�?vczh) 2012-03-10 06:43 发表评论

陈梓�?vczh) — Wed, 11 Jan 2012 11:39:00 GMT

    C++的反��一直是一个很多�h都在做的事情。不�q�今天我�l�于有了一个简单的��x��Q�当然只对VC++�~�译出来的程序有效。首先看下面的一个单元测试：

    如果我们有下面的代码�Q?
1     class A{};
2     class B:public A{};
3     class C:public A{};
4     class D:public B, public C{};
5     class E:virtual public A{};
6     class F:virtual public A{};
7     class G:public E, public F{};
    那么下面的事情一定会发生�Q?
1     D d;
2     A& da1=static_cast<B&>(d);
3     A& da2=static_cast<C&>(d);
4     TEST_ASSERT(&da1!=&da2);
5
6     G g;
7     A& ga1=static_cast<E&>(g);
8     A& ga2=static_cast<F&>(g);
9     TEST_ASSERT(&ga1==&ga2);

    对于�q�种virtual�l�承的事情，到这里还是很�Ҏ��理解的。那现在我们来更�q�一步：
1     class Base
2     {
3     public:
4         size_t size;
5
6         Base()
7             :size(0)
8         {
9         }
10     };
11
12     template<typename T>
13     class Derived : public virtual Base
14     {
15     public:
16         Derived()
17         {
18             if(size<sizeof(T)) size=sizeof(T);
19         }
20     };
21
22     class H : public Derived<H>{};
23     class I : public H, public Derived<I>{};
24     class J : public I, public Derived<J>{};

    首先�Q�H、I和J都各自拥有自��q��唯一的一个Base。J虽然�l�承了Derived、Derived和Derived�Q�但是始�l�只拥有一个Base。因为Base是virtual�l�承的�?br />
    其次�Q�sizeof(Derived)>sizeof(Base)始终是成立的�Q�因为Base的virtual�l�承��D��了Derived里面臛_��要保存一个指向Base�Q�或者可以用来找到Base�Q�的指针。这个条件很重要�Q�因��D��了sizeof(J)>sizeof(I)�q�个条�g是恒成立的�?br />
    好了�Q�那么来看J。由于C++�q�没有规定多重��承的时候，几个父类的构造函数的��序是什么，所以我们需要sizeof(J)>sizeof(I)�q�个条�g。�ؓ什么呢�Q�看Derived�cȝ��构造函�?#8212;—它之让sizeof(T)更大的数据覆盖Base里面的数据�?br />
    所以我们就可以��定下面的事情：
1     const H& h=H();
2     const H& i=I();
3     const H& j=J();
4     TEST_ASSERT(h.size<i.size);
5     TEST_ASSERT(i.size<j.size);
6     TEST_ASSERT(h.size==sizeof(H));
7     TEST_ASSERT(i.size==sizeof(I));
8     TEST_ASSERT(j.size==sizeof(J));

    无论J的三个Derived的构造函数谁先执行，最后能够留下来的Base里面的数据肯定是Derived里面的数据。讲到这里应该很清楚了。如果读者还没想到这跟反��有什么关�pȝ��话，那么��h��一下，如果Base除了size以外�Q�还有一个ITypeDescriptor** typeDescriptor;成员。然后Derived�Ҏ��q�样�Q?
1 template<typename T>
2 class Derived :
3 {
4 public:
5     static ITypeDescriptor* type;
6
7     Derived()
8     {
9         if(){size=sizeof(T); typeDescriptor=&type;}
10     }
11 };

    那么不管你的J拿到手里的类型是什么，哪怕是const H& j�Q�那么j.typeDescriptor肯定��是&Derived::type;

    到这里还没有跟VC++有关�pȝ��东西。假设ITypeDescriptor是一个��够代表反��功能的高��接口的话�Q�那么我们要怎么实现它呢�Q�我们自己来按照字符串去调用各种函数什么的��d��现它肯定�ȝ��到死了。但是如果大家还记的我前面的�q�篇博客文章的话�Q�那么大家肯定想��C��Q�我们可以写一个程序来替我们读pdb生成ITypeDescriptor的代码，�q�有把具体的对象赋��D��Derived::type里面�ȝ��一个初始化函数�Q�啊哈哈哈！当然pdb只能是从Visual C++�~�译出来的，��q��不是�Q�也臛_��只能是Windows上面的。不�q�对GacUI来说�q�无所谓。因为我只要把GacUI在VisualStudio里面�~�译生成反射的代码，�q�个生成之后的代码我�q�是能放到其他地方编译的。到时候我只要�q�同�q�段代码一�q�发布就好了�?br />
    当然�Q�这个程序不仅仅可以帮我实现ITypeDescriptor�Q�还可以帮我实现C语言和C++语言的dll接口的实玎ͼ�因�ؓdll里面肯定不能暴露模板的。下面就仅需要我��L��它做出来��可以了。至此，我们让一个类支持反射的代价很�?#8212;—只要让他�l�承自Derived<自己>��好了�?br />

陈梓�?vczh) 2012-01-11 19:39 发表评论

陈梓�?vczh) — Fri, 09 Oct 2009 15:17:00 GMT
     摘要: 之前因�ؓ非常忙，加上无聊开发什么类似WCF和WPF的东西，最�q�终于找��C��新的目标了，于是之前那些��׃��做了。隔了这么久没法文章主要是因为最�q�没写出什么完整的东西。国庆玩�?天，之前在计划VL++3.0�?

VL++3.0被定位�ؓ一个�ؓ了数据处理而开发的C++库。这个库不的特点在于“其他语�a�的味道很��”。C++的库用�v来不爽主要是因�ؓ老是要我按下划线�Q�而且大量应用非OOP�Ҏ��导致IDE的自动补全无法发挥作用。所以�ؓ了��I补这个缺��h��做了一个很不一��L��东西�Q�也��是VL++了。经�q�了三年多的开发，1.0�?.0已经相��出炉�Q�每一�ơ打��L��都解决了一些前一个版本解决不了的问题�?nbsp; 阅读全文

陈梓�?vczh) 2009-10-09 23:17 发表评论

C++�q�程调用�c�L��作支持Callback Interface

陈梓�?vczh) — Sat, 18 Jul 2009 02:20:00 GMT
     摘要: 今天展示一下如何��用这里描写的库实��C��个简单的聊天工具。Callback Interface是昨晚才加的�Q�但是还有一些features没实玎ͼ��{�做完了再做一个Demo�Q�然后提供源代码�?

使用�q�个东西可以开发一些C/S模式的程序，然后只需要将服务器和客户端看成同一个程序，��客��L��认�ؓ是很多个�U�程��p��了。服务器端提供一些类�l�客��L��创徏�q��用，当这些服务类要求回调的时候，客户端只需要按照回调的接口实现回调�Q�然后将指针提供�l�服务类��p��了。剩下来的链接啊调度啊网�l�传输的问题��全部不用管了，非常方便�?nbsp; 阅读全文

陈梓�?vczh) 2009-07-18 10:20 发表评论

陈梓�?vczh) — Sat, 04 Jul 2009 02:07:00 GMT
     摘要: �q�次展示如何��一个服务器端的C++�c�让客户端调用。��用早上刚刚开发完的工��P��用户可以不用处理��M��传输�q�程中的�q�接和编码解码等操作。这�ơ实��C��个四则运��的语法分析器，客户端发送表辑ּ��Q�服务器端传回语法树�Q��承树那个模型�Q�，客户端将语法树传回去�Q�服务器端传回运��结果�?nbsp; 阅读全文

陈梓�?vczh) 2009-07-04 10:07 发表评论

陈梓�?vczh) — Tue, 30 Jun 2009 04:47:00 GMT
     摘要: 现在不仅可以阅读�cȝ��成员�Q�也可以用函数名的字�W�串去调用函数�ƈ取得�l�果了。代码与�q�篇文章的实例类��|��因此只脓出更改的部分以及�E�序截图�?nbsp; 阅读全文

陈梓�?vczh) 2009-06-30 12:47 发表评论

�D�废版HTTP Server之小试牛刀

陈梓�?vczh) — Mon, 29 Jun 2009 13:19:00 GMT
     摘要: ��Z��l�C++的反��做Demo�Q�不得不研究一下HTTP的协议。后来发现Windows自带了API可以用，于是��写了个��东�ѝ��程序打开之后�Q�如果检��到【http://localhost:8080/vczh/FILENAME】这样子的请求，��将一个目录下面的东西��d��来，然后�q�回。于是就可以用IE来运行某个地方的�|�页了。代码如下：  阅读全文

陈梓�?vczh) 2009-06-29 21:19 发表评论

C++��Z��c�M��反射机制的XML序列化和反序列化完成

陈梓�?vczh) — Mon, 29 Jun 2009 04:12:00 GMT
     摘要: 跟上一��文章一��P��一��L��数据�l�构�Q�但是添加了�Ҏ��l�、列表和映射的更多的支持。首先是代码�Q�然后是序列化后的XML文�g�?nbsp; 阅读全文

陈梓�?vczh) 2009-06-29 12:12 发表评论

重写了C++的类似反��的工具

陈梓�?vczh) — Thu, 25 Jun 2009 14:48:00 GMT
     摘要: 所谓的反射当然不是自动化的�Q�而是需要自己打标记的。下面会展示两䆾文�g�Q�告诉大家我�q�个做了一半的反射是怎么工作的。写�q�个东西的主要目的是�Q�将来可以实现序列化�Q�譬如说序列化到��，或者序列化到XML文�g�Q�或者做其他的事情等�{�（譬如说��用类名创建对象�ƈ�q�行修改�Q��?nbsp; 阅读全文

陈梓�?vczh) 2009-06-25 22:48 发表评论

使用COM实现控�g内容的Drag and Drop

陈梓�?vczh) — Sat, 30 May 2009 05:17:00 GMT
     摘要: 查了MSDN�Q�发现Windows支持Drag and Drop的方法是四个COM�Q�IEnumFORMATETC、IDataObject、IDropSource和IDropTarget。�ؓ了让自己做的一个代码编辑文本框里面的代码可以被拖出��L��q�来�Q�无奈之下只好实��C��q�四个东�ѝ�?

实现了之后，�E�序刚开始需要调用OldInitialize(NULL);�Q�结束的时候调用OnUninitialize();�Q�控件创建的时候调用RegisterDragDrop�Q�控件结束的时候调用RevokeDragDrop。然后就可以通过�q�些COM来做Drag and Drop了。下面是接口的实玎ͼ�  阅读全文

陈梓�?vczh) 2009-05-30 13:17 发表评论

Combinator Parser修改错误处理�Ҏ��

陈梓�?vczh) — Mon, 04 May 2009 10:35:00 GMT
     摘要: 在实验了CMinus语法分析器的错误处理之后发现一个问题，Combinator Parser�q�回的错误是最上��的错误，而不是最底层的错误。因此修改了语法分析器的一部分代码�Q?nbsp; 阅读全文

陈梓�?vczh) 2009-05-04 18:35 发表评论

陈梓�?vczh) — Wed, 08 Apr 2009 13:17:00 GMT
     摘要: 今天闲得无聊�Q�早上�v来习惯性瞟一瞟boost�Q�突然看中了它的MPL库，所以自己实��C��一个子集消��时间�?

已经实现的功能有�Q�整数运��、闭包、列表处理等。我用了自己的unit test框架�Q�通过写一个函数输��Z��个属于自��q��MPL�c�d��的字�W�串�Q�譬如List,List,Empty>>产生"[0 , 1]"�Q�，然后用自己写的字�W�串比较�Q�可以发现库里面是否有错�?

一下有两䆾代码�Q�第一份是使用�Q�第二䆾是自��q��MPL的源代码�Q?nbsp; 阅读全文

陈梓�?vczh) 2009-04-08 21:17 发表评论

实现了Huffman压羃解压��法

陈梓�?vczh) — Sat, 10 Jan 2009 17:16:00 GMT
     摘要: 今天�l�于在流�pȝ��里面��d��了Huffman的压�~�解压算法，现在只需要将一个LZ77��加到Huffman��上面，��p��同时使用两种压羃��法�q�行压羃了。我的Huffman��法使用了Canonical Huffman�~�码�Ҏ��q�行Huffman树的生成�?nbsp; 阅读全文

陈梓�?vczh) 2009-01-11 01:16 发表评论

修改后的LZ77压羃解压源码

陈梓�?vczh) — Wed, 07 Jan 2009 07:35:00 GMT
     摘要: �q�䆾代码跟上一�ơ相比，修正了以下部分：

1、可修改的Window Size。压�~�流会把Window Size写进去，解压��能够自动获取�?
2、发现冗余的地方�Q�每一个标记的压羃块节省了一位�?
3、如果用户一�ơ性写入的字节不够多则会缓存�v来，上一版本则是直接压羃完。这样会丢失某些原本可以压羃的数据，因此修正�?nbsp; 阅读全文

陈梓�?vczh) 2009-01-07 15:35 发表评论

LZ77压羃效果��试

陈梓�?vczh) — Tue, 06 Jan 2009 16:36:00 GMT
     摘要: 今天��我的VL_LZ77Stream修改成了可以讄��H�口大小的压�~�流。我用了一些文件进行压�~�和�Ҏ��?nbsp; 阅读全文

陈梓�?vczh) 2009-01-07 00:36 发表评论

实现了一�?28长度�H�口大小的LZ77压羃解压��法

陈梓�?vczh) — Mon, 05 Jan 2009 17:47:00 GMT
     摘要: �q�个压羃��是Vczh Library++ 2.0庞大的流与控制器�pȝ��的其中一个部分。我准备��其攚w��成可调大小的，�q�且打算��d��LZW与Huffman压羃解压��法。以下是用C++实现的代码�?nbsp; 阅读全文

陈梓�?vczh) 2009-01-06 01:47 发表评论

分解复杂的命令行参数

陈梓�?vczh) — Wed, 24 Dec 2008 09:13:00 GMT
     摘要: 当我们的�E�序需要运行在命��o行环境下的时候，分解复杂的命令行参数往往成�ؓ一件不难但又麻烦的事情。我们经常发�?net的开发工��L��命��o行格式都�?/parameterA:valueA /parameterB:valueB"。如果我们希望��用这�U�格式的命��o行参数的话，如何分析��成为我们需要解决的一个问题�?nbsp; 阅读全文

陈梓�?vczh) 2008-12-24 17:13 发表评论

陈梓�?vczh) — Sat, 22 Nov 2008 10:26:00 GMT
     摘要: 今天��Serialization�q�行了重构，让其支持容器。于是��用以前的基础设施��p��完成�q�个Demo了。代码如下：  阅读全文

陈梓�?vczh) 2008-11-22 18:26 发表评论

午夜亚洲福利在线老司机,国产精品v欧美精品v日本精品动漫,中文在线资源观看视频网站免费不卡

可配�|�语法分析器开发纪事（三点五）——生成下推自动机的具体步骤

可配�|�语法分析器开发纪事（二）——构造符可���

可配�|�语法分析器开发纪事（一�Q?amp;mdash;—构造语法树

C++使用Uniscribe�q�行文字自动换行的计���和渲染

又到了一�q�一度重构通用可配�|�语法分析器的时候了

使用C++和Windows API操作��Z��http协议的xml service

C++�q�程调用�c�L��作支持Callback Interface

�D�废版HTTP Server之小试牛刀

C++��Z���c�M��反射机制的XML序列化和反序列化完成

重写了C++的类似反���的工具

使用COM实现控�g内容的Drag and Drop

Combinator Parser修改错误处理�Ҏ��

实现了Huffman压羃解压���法

修改后的LZ77压羃解压源码

LZ77压羃效果���试

实现了一�?28长度�H�口大小的LZ77压羃解压���法

分解复杂的命令行参数

可配�|�语法分析器开发纪事（二）——构造符可��

C++使用Uniscribe�q�行文字自动换行的计��和渲染

C++��Z��c�M��反射机制的XML序列化和反序列化完成

重写了C++的类似反��的工具

实现了Huffman压羃解压��法

LZ77压羃效果��试

实现了一�?28长度�H�口大小的LZ77压羃解压��法