免费欧美视频,99精品国产在热久久婷婷,欧美性色综合

操作�pȝ��实现�Q�三�Q�：(x��)中断

airtrack — Tue, 05 May 2015 02:03:00 GMT

上一��?/a>提到当访问的��表和页不在内存?sh��)��时会(x��)触�?Page Fault 异常�Q�操作系�l�需要在异常处理函数中分配内存页�q�设�|�好相应的分��表��V��异常是一�U�中断类型，注册异常处理函数��是注册中断处理函数�Q�中断处理函数注册在一个叫 IDT(Interrupt Descriptor Table) 的地斏V�?/div>

IDT

中断处理函数在实模式下注册在 IVT(Interrput Vector Table) 中，在保护模式下注册�?IDT(Interrupt Descriptor Table) 。IDT是包�?256 ��的表，表项的结构如下：(x��)

  struct idt_entry
    {
        uint16_t offset_0;
        uint16_t selector;
        uint8_t zero;
        uint8_t type_attr;
        uint16_t offset_1;
    };

其中 selector �?GDT 的代码段选择器，offerset_0 �?offset_1 分别表示中断处理函数 offset 地址�?0~15bits �?16~31bits �Q�type_attr 的结构如下：(x��)

  7                           0
    +---+---+---+---+---+---+---+---+
    | P |  DPL  | S |    GateType   |
    +---+---+---+---+---+---+---+---+

P表示是否存在�Q�DPL 表示描述�W�的最低调用权限，GateType 定义�?ji��n)中断类型�?2 位的中断�c�d��分别是：(x��)

Task Gate
Interrupt Gate
Trap Gate

Interrupt Gate �?Trap Gate �怼��Q�区别在前者执行中断处理函数前后会(x��)自动关闭和开启中断�?/div>

准备�?IDT �Q�设�|�好 IDTR 寄存器就�?IDT 都设�|�好�?ji��n)。IDTR 寄存器结构如下：(x��)

  struct idtr
    {
        uint16_t limit;
        struct idt_entry *base;
    };

limit 是整个表的大��?-1 字节�Q�base 指向 IDT 表，讄�� IDTR 寄存器的指��o(h��)�?lidt�?/div>

异常和硬件中�?/h2>
�?ji��n)�?IDT 的结构了(ji��n)之后�Q�我们可以设�|�异常和��g中断�?ISR(Interrupt Service Routine)。对于异常，我们只要知道有哪些异�怼�(x��)触发�Q�触发的逻辑是什么样�Q�实现合适的异常处理函数卛_��Q�这里是异常列表�Q�。对于硬件中断，需要通过一个硬件完�?#8212;— PIC(Programmable Interrupt Controller)�?/div>
PIC 分�ؓ(f��) Master �?Slave �Q�每�?PIC 都有一个命令端口和一个数据端口，通过�q�两个端口可以读�?PIC 的寄存器。每�?PIC 都可�q?8 个输入设备，x86�?Slave 需要通过 line 2 �q�接�?Master 上才能响应输入设备，�q�接的输入设备有中断��h��的时候会(x��)产生 IRQ(Interrupt Request)�Q�Master 产生 IRQ 0 ~ IRQ 7�Q�Slave 产生 IRQ 8 ~ IRQ 15。保护模式下可以讑֮� PIC 产生的中断对应的 ISR 所�?IDT 中的 offset�Q�通常讄��Z�� 0x20 开始，�?0x2F �l�束�Q?x0 �?0x1F 被异常占用）(j��)�?/div>
PIC 的端口号如下表：(x��)

PIC 产生的标�?IRQ 如下表：(x��)

PIC 初始化的时候，要设�|?Master �?Slave 通过 line 2 相连�Q�同时设�|�好 IRQ 对应�?ISR �?IDT 中的起始中断受��PIC 提供一�?IMR(Interrupt Mask Register) 寄存器来标识中断是否屏蔽�Q�设�|?bit 位会(x��)屏蔽对应�?IRQ。当 IMR 未设�|�，�q�且 CPU 的中断打开�Q�如果有讑֤�中断��h��发生�Q�那�?ISR ��会(x��)执行。ISR 执行完毕之后要通知 PIC 中断处理完成�Q�需要向 PIC 的命令端口写入一�?EOI(End Of Interrupt) 命��o(h��)(0x20)�Q�中断请求如果来�?Slave�Q�那么需要先往(xi��n) Slave 命��o(h��)端口写入 EOI�Q�再�?Master 命��o(h��)端口写入 EOI�?/div>
Spurious IRQs
�׃�� CPU �?PIC 之间�?a >竞争条�g可能�?x��)��?IRQ 7�Q�Master 产生�Q?�?IRQ 15�Q�Slave 产生�Q?�?Spurious IRQs。�ؓ(f��)�?ji��n)处理这�U�情况，我们要知道什么时候是无效�?IRQ�Q�通过判断 IRR(Interrupt Request Register) 寄存器的值可以获知哪�?IRQ 发生�?ji��n)，�q�个寄存器的每个 bit 表示相应�?IRQ 是否发生。在 IRQ 7 �?IRQ 15 �?ISR 中先��d�� IRR�Q�然后判断对应的 bit 位是否被讄��Q�如果没有设�|�，那么表示当前是一�?Spurious IRQ�Q�不需要处理，也不需要写�?EOI�Q�直接返回即可（如果�?Slave PIC 产生的，需要往(xi��n) Master PIC 写入 EOI�Q�由�?Master 不知�?Slave 产生�?IRQ 是不�?Spurious 的）(j��)�?/div>
PIT
��C��操作�pȝ��都有抢占式多��d��能力�Q�通常是通过讄��一个硬�?Timer�Q�一个进�E�的执行旉��C��(ji��n)之后切换成另一个进�E�执行，�q�个��g Timer �?PIT(Programmable Interval Timer)。PIT 有多�?channel 和多�U�工�?mode�Q�其�?channel 0 �q�接�?PIC �?x��)��?IRQ 0�Q�mode 2 �?mode 3 是常用的工作模式。操作系�l�初始化的时候设�|�好 PIT�Q�同时设�|�好 PIT 产生�?IRQ 0 �?ISR�Q�在�q�个 ISR 中操作系�l�就可以执行多�Q务的调度�?/div>
中断处理�l�束
IDT 中设�|�的 ISR �q�回时不能��用普通的函数�q�回指��o(h��) ret�Q�需要��用一条特�D�的�q�回指��o(h��) iret。在�?ji��n)解了(ji��n)这些之后，我们有�?ji��n)响应外部讑֤�的能力，可以接入外部输入讑֤��?ji��n)，下一步接入键盘�?/div>

airtrack 2015-05-05 10:03 发表评论

airtrack — Mon, 27 Apr 2015 04:53:00 GMT

上一��?/a>�?Bootloader 开始到内核载入使用的都是��^坦内存，��x(ch��ng)��有地址对应实际的物理地址。现代操作系�l�都使用分页来管理内存，分页可以让每个进�E�都有完整的虚拟地址�I�间�Q�进�E�间的虚拟地址�I�间�怺�隔离以提供页层��的保护。另外分��可以让物理内存��于虚拟地址�I�间�Q�同时可以��用磁盘存储暂时未使用的内存页�Q�提供更多的「内存」�?/div>

分页

分页通过 CPU �?MMU(Memory Management Unit) 完成�Q�MMU 通过当前的分��表完成虚拟地址到物理地址的�{换。在 x86 �?MMU 通过两��分页表（也可以开启三�U�）(j��)完成地址转换�Q�这两��分别是页目录(Page Directory)和页�?Page Table)。在 x86 下，�?cr3 寄存器存储页目录的地址�Q�物理地址�Q�，��늛�录和��表都包�?1024 ��，每项 4 字节�Q�因此页目录和页表大��ؓ(f��) 4KB �Q�按�?4KB 一��늚�话，刚好占用一��c(di��n)�?/div>

MMU ��虚拟地址转换成物理地址的方式是�Q�取虚拟地址�?22~31bits 表示��늛�录的下标�Q�获得页目录��定位到��表�Q�再�?12~21bits 表示��表的下标，获得��表��定位到��，最后取 0~11bits 表示��偏�U�R��页目录��和��表��的下标分别�?10bits 表示�Q�刚好最�?1024 ��，��内偏移�?12bits 表示�Q�刚�?4KB�?/div>

��늛�录项�l�构如下�Q?/div>

其中 S 表示��大��是 4KB �q�是 4MB�Q�P 表示��表是否在内存�(sh��)��Q�如果在内存?sh��)��，那�?12�?1 bits 存储�?4KB 寚w��的页表地址�Q�同��h��物理地址�Q�，其它 bit 的含义请参�?a >�q�里�?/div>

��表��结构如下：(x��)

同样的，P 表示此页是否在内存�(sh��)��Q�如果在内存?sh��)��?2~31 bits 存储�?ji��n)页的地址�?/div>

我们知道�?ji��n)页目录和页表的�l�构�Q�准备好��늛�录和��表�Q�就可以开启分��了(ji��n)�Q�开启分��只需把页目录地址攑ֈ� cr3 寄存器中�Q��ƈ�?cr0 的最�?bit �|?1。通过��늛�录项�Q�我们可以发现页表不需要都存在内存当中�Q�当讉K��一个虚拟地址�Q�它对应的页表或者页不存在内存�(sh��)��时会(x��)触发 Page Fault 异常�Q�我们可以在异常处理函数中完成页表或者页的分配，理论上开启分��只需要准备好��늛�录�?/div>

分页前后

准备好页目录��表�Q�设�|?cr3 �?cr0�Q�开启了(ji��n)分页之后�Q�内核的所有地址都变成了(ji��n)虚拟地址�Q�所有的地址都要通过 MMU 映射到物理地址再访问内存。这一变化是需要小�?j��)注意的�Q�开启分��前�Q�访问的所有地址是物理地址�Q�开启分��之后，所有的地址都变成了(ji��n)虚拟地址�Q�因此，如果分页由内核来完成�Q�那么内核就需要考虑到前后的变化�Q�即有一部分代码�q�行在物理地址下，其它代码都运行在虚拟地址下；如果分页�?Bootloader 完成�Q�那�?Bootloader 需要注意这个变化，�q�正��蟩转到内核�Q�让内核完整�q�行在虚拟地址下�?/div>

上一��?/a>我把内核展开��C�� 0x100000 开始的物理内存?sh��)��，�~�译链接内核的时候也把代码段的地址指定�?0x100000 的地址。开启分��之后，内核一般运行在高地址�Q�比�?Linux 内核地址�?0x80000000 开始，W(xu��)indows �?0xC0000000 开始）(j��)�Q�而内核同��h��展开��C�� 0x100000 开始的物理内存?sh��)��。我选择把内核的虚拟地址链接��C�� 0xC0100000 开始，�q�把�q�个虚拟地址映射�?0x100000 的物理地址�Q�开启分��之前运行的代码�Q�凡是涉�?qi��ng)到地址的操作，我都�?x��)把虚拟地址调整为物理地址再操作，开启分��之后，所有虚拟地址��可以正常运行了(ji��n)�?/div>

物理内存��理

操作�pȝ��采用分页方式��理内存�Q�因此物理内存的��理也需按照��늚�方式��理�Q�在 Page Fault 异常触发�Ӟ��在异常处理函��C��分配新的物理��ƈ把它映射到分��表中。这里牵涉到�I�闲物理内存��늚�分配和释放，我们很容易想��C��U�直观的�Ҏ(gu��)��Q�把所有空闲内存页用链表串联�v来，分配释放一��只需寚w��表进行操作。这�U�方式管理对�q�程的物理页分配��单有效，但是对内核本�w��用的内存分配释放�?x��)导致内存利用率不高�Q�因��U�方式管理的最大连�l�内存是一��，而内�怸��l�常�?x��)分配大对象�Q�连�l�多��늚�物理内存有更好的利用率。Linux 采用 Buddy memory allocation 方式��理物理内存�Q��?Slab/Slub ��理内核对象的分配释放�?/div>

我的实现也采�?Buddy 方式��理物理内存�Q�把�I�闲内存��는�多层�U�的 Buddy 方式��理�Q�分别是 order 0 ~ order 10�Q�表�C?2^order ��连�l�内存页块，�?order 0 ��理单页的空闲内存块�Q�order 10 ��理�q�箋(hu��) 1024 ��늚��I�闲内存块。分配内存时�Q�算出最佳的 order�Q�在相应�?order 层��里分配一块内存块�Q�如果当�?order 中没有可用的�I�闲内存块，��向 order + 1 层��中借一块，�q�把借来的空闲内存块�q�_��?2 �?order 层��的空闲内存块�Q�其中一块当作分配结果返回，另一块放入到 order 层��中待以后分配使用。当�W?order 块的内存?sh��)��用完释放时�Q�把�q�块释放的内存块攑օ� order 层��Ӟ��判断与它相连的同样大��的内存块是否在 order 层��中，如果存在�Q�把它和它的 Buddy 合�ƈ成一�?order + 1 的内存块攑օ��?order + 1的层�U�中�?/div>

内存��理器初始化之前

在内存管理初始化之前�Q�内核没有动态内存分配能力，因此很多时候我们需要��用静(r��n)态全局变量。内存管理器初始化时�Q�可能会(x��)使用到动态内存分配，�q�就出现鸡与蛋的问题�Q��ؓ(f��)�?ji��n)解册��个问题，通常�?x��)实��C��个简单的 Boot Allocator 用在内存��理器初始化之前分配动态内存。我的实现是从内核展开的末��位�|�开始徏立一个只分配不释攄�� Boot Allocator�Q�等到内存管理器初始化完成之后，Boot Allocator 的��命便完成�?ji��n)�?/div>

另外�q�有一个问题，我们��理物理内存�Q�需要知道安装了(ji��n)多少物理内存�Q�因此我们要探测安装�?ji��n)多��物理内存�?a >�q�里介绍�?ji��n)几�U�探��方法，我��用的�?BIOS �?INT 0x15, EAX = 0xE820 函数�Q�它�?Bootloader 调用完成�Q�最后通过参数把它传递给操作�pȝ��内核�?/div>

airtrack 2015-04-27 12:53 发表评论

用Rust写了(ji��n)一个Tunnel

airtrack — Tue, 03 Feb 2015 13:03:00 GMT

2014�q�的最后一个星期用Rust写了(ji��n)一个Tunnel�Q�代码放�?a >GitHub上。主要原因是VPN�?2月开始极不稳定，其次是VPN用�v来不爽，每次下东襉K��要关VPN�Q�而用ssh -D时偶��?d��ng)又会(x��)断开�Q�最后干脆自己写一个（其实�q�初��想写，因�ؓ(f��)��C��(ji��n)VPN��׃��x(ch��ng)��腾了(ji��n)�Q��?/div>

�~�译和��?/h3>
��C��语言一般都自带�~�译工具�Q�不用折腾make cmake�{�东西，Rust官方提供�?a >Cargo�Q�所以编译很��单，安装好Cargo�Q�然后到源码目录下Cargo build��完成了(ji��n)�?br />

�~�译完成得到两个可执行文�Ӟ��分别是：(x��)client, server�Q�server启动在服务器上，client启动在本机�ƈ�l�定到地址127.0.0.1:1080�Q�浏览器�׃��理插仉��过SOCKS v5协议�q�接�q�个地址卛_��?

Tunnel逻辑�l�构

下面是逻辑图：(x��)

Client和Server之间通过一条TCP链接相连�Q�客��L(f��ng)��每收��C��个TCP��h��开一个port处理�Q�同时在Server上有一个port与之对应�Q�这样就在Client和Server之间建立�?ji��n)一个会(x��)话层�Q�这个TCP链接的数据全部都在对应的port里传输�?br />

Tunnel本��n跟SOCKS v5不相养I��Z��(ji��n)让浏览器代理能连上，Client提供�?ji��n)SOCKS v5中最��单的NO AUTHENTICATION TCP�Ҏ(gu��)��Q�即无用户名和密码的TCP代理�?br />

Client和Server之间传输的数据都加了(ji��n)密，加密��法是Blowfish�Q�工作模式是Counter Mode�Q�client和server启动时的参数Key卛_��密算法的Key�?/div>

Rust的��用感�?/h3>
以前虽有��x(ch��ng)��Rust�Q�却从没用Rust写过代码�Q�主要是�q�未发布1.0�Q�语法不�E�_��Q�最�q?.0快有眉目�?ji��n)，可以用来写写��东西�?ji��n)。因为有Haskell的基��Q�所以上手Rust�Ҏ(gu��)��来说没什么难度�?br />

Rust提供�?ji��n)ADT(Algebraic Data Type), Pattern Matching, Traits�Q�语法表达能力很强，同时也提供了(ji��n)macro�Q�可自定扩展语法�Q�进一步加��Z��(ji��n)语法表达能力。自动内存管理也让程序更安全�Q�不�q�由此也带来一些语法表达能力的削弱�Q�比如需要在函数�q�回的时候自动调用socket.close_read�Q�通常可以定义一个struct�Q��ƈ让这个struct impl trait Drop�Q�在�l�构体销毁的时候调用socket.close_read�Q�又因�ؓ(f��)socket.close_read需要mut的socket引用�Q�而mut的引用只能borrow一�ơ，所以这个struct一旦borrow�?ji��n)socket的mut引用�Q�之后再调用�q�个socket的mut函数��׃��(x��)报错�Q�一个workaround的方法就是struct保存socket的一份拷贝（socket本��n通过引用计数��理�Q�，虽然可行�Q�但是��L��觉有些重�?ji��n)，仅仅为写��h��方便的一个问题引入了(ji��n)一�ơ引用计数对象的拯��。同时也�?x��)��生一个警告，�׃��那个struct的对象没有被使用�q��?br />

Rust�~�译器报错信息很详细友好�Q�运行时依赖��，Tunnel�~�译出来的的client和server都可以在其它机器上直接运行。其它方面主要是API文档跟不上，最新文档上有的函数�Q�编译器�~�译可能报错�Q�函数已�l�不存在�?ji��n)（刚刚�ȝ��了(ji��n)看最新的文档�Q�std::io变成�?ji��n)std::old_io�Q�。库斚w��Q�虽然Cargo仓库里有一些第三方库，但是��M��数量�q��(sh��)��多�?/div>

airtrack 2015-02-03 21:03 发表评论

操作�pȝ��实现�Q�一�Q�：(x��)从Bootloader到ELF内核

airtrack — Thu, 30 Oct 2014 11:13:00 GMT

Bootloader

我们知道计算机启动是从BIOS开始，再由BIOS军_��从哪个设备启动以�?qi��ng)启动顺序，比如先从DVD启动再从��盘启动�{�。计��机启动后，BIOS�Ҏ(gu��)��配置扑ֈ�启动讑֤��Q��ƈ��d��q�个讑֤�的第0个扇区，把这个扇区的内容加蝲�?x7c00,之后让CPU�?x7c00开始执行，�q�时BIOS已经交出�?ji��n)计��机的控制权�Q�由被加载的扇区�E�序接管计算机�?/div>

�q�第一个扇区的�E�序��叫Boot�Q�它一般做一些准备工作，把操作系�l�内核加载进内存�Q��ƈ把控制权交给内核。由于Boot只能有一个扇区大��，�?12字节�Q�它所能做的工作很有限�Q�因此它有可能不直接加蝲内核�Q�而是加蝲一个叫Loader的程序，再由Loader加蝲内核。因为Loader不是BIOS直接加蝲的，所以它可以�H�破512字节的程序大��限�Ӟ��在实模式下理��Z��可以辑ֈ�1M�Q�。如果Boot没有加蝲Loader而直接加载内核，我们可以把它叫做Bootloader�?/div>

Bootloader加蝲内核��p��d��文�g�Q�在实模式下可以用BIOS的INT 13h中断。内核文件放在哪里，怎么查找��d��Q�这里牵涉到文�g�pȝ��Q�Bootloader要从��盘�Q��Y盘）(j��)的文件系�l�中查找内核文�g�Q�因此Bootloader需要解析文件系�l�的能力。GRUB是一个专业的Bootloader�Q�它对这些提供了(ji��n)很好的支持�?/div>

对于一个Toy操作�pȝ��来说�Q�可以简单处理，把内核文件放到Bootloader之后�Q�即从��Y盘的�W?个扇区开始，�q�样我们可以不需要支持文件系�l�，直接��d��扇区数据加蝲到内存即可�?/div>

实模式到保护模式

我们知道Intel x86�p�d��CPU有实模式和保护模式，实模式从8086开始就有，保护模式�?0386开始引入。�ؓ(f��)�?ji��n)兼容，Intel x86�p�d��CPU都支持实模式。现代操作系�l�都是运行在保护模式下（Intel x86�p�d��CPU�Q�。计��机启动�Ӟ��默认的工作模式是实模式，��Z��(ji��n)让内核能�q�行在保护模式下�Q�Bootloader需要从实模式切换到保护模式�Q�切换步骤如下：(x��)

准备好GDT(Global Descriptor Table)
关中�?/li>
加蝲GDT到GDTR寄存�?/li>
开启A20�Q�让CPU��d��大于1M
开启CPU的保护模式，��x(ch��ng)��cr0寄存器第一个bit�|?
跌��{��C��护模式代�?/li>

GDT是Intel CPU保护模式�q�行的核�?j��)数据结构，所有保护模式操作的数据都从GDT表开始查找，�q�里有GDT的详�l�介�l��?/div>

GDT中的每一个表��由8字节表示�Q�如下图�Q?/div>

其中Access Byte和Flags如下图：(x��)

�q�里是详�l�说明�?/div>

GDTR是一�?字节的寄存器�Q�有4字节表示GDT表的基地址�Q?字节表示GDT表的大小�Q�即最�?5536�Q�实际值是65535�Q?6位最大值是65535�Q�，每个表项8字节�Q�那么GDT表最多可以有8192��V�?/div>

实模式的��d��ȝ��?0bits�Q��ؓ(f��)�?ji��n)让��d��过1M�Q�需要开启A20�Q�可以通过以下指��o(h��)开启：(x��)

  in al, 0x92
    or al, 2
    out 0x92, al

把上�q�步骤完成之后，我们��p��入保护模式了(ji��n)。在保护模式下我们要使用GDT通过GDT Selector完成�Q�它是GDT表项相对于�v始地址的偏�U�，因此它的��g��般是0x0 0x8 0x10 0x18�{��?/div>

ELF文�g

Bootloader�E�序是原始可执行文�g�Q�如果程序由汇编写成�Q�汇�~�编译器�~�译生成的文件就是原始可执行文�g�Q�也可以使用C语言�~�写�Q�编译成可执行文件之后通过objcopy转换成原始可执行文�g�Q?a >�q�篇文章介绍�?ji��n)用C语言写Bootloader�?/div>

那么内核文�g是什么格式的呢？跟Bootloader一��L(f��ng)��当然可以。内�怸�般��用C语言�~�写�Q�每�ơ编译链接完成之后调用objcopy是可以的。我们也可以支持通用的可执行文�g格式�Q�ELF(Executable and Linkable Format)��x(ch��ng)��一�U�通用的格式，它的�l�基癄��?/div>

ELF文�g有两�U�视图（View�Q�，链接视图和执行视图，如下图：(x��)

链接视图通过Section Header Table描述�Q�执行视��N��过Program Header Table描述。Section Header Table描述�?ji��n)所有Section的信息，包括所在的文�g偏移和大��等�Q�Program Header Table描述�?ji��n)所有Segment的信息，即Text Segment, Data Segment和BSS Segment�Q�每个Segment中包含了(ji��n)一个或多个Section�?/div>

对于加蝲可执行文�Ӟ��我们只需��x(ch��ng)��执行视图�Q�即解析ELF文�g�Q�遍历Program Header Table中的每一��，把每个Program Header描述的Segment加蝲到对应的虚拟地址卛_��Q�然后从ELF header中取出Entry的地址�Q�蟩转过��d��开始执行了(ji��n)。对于ELF格式的内核文件来��_(d��)��q�个工作��需要由Bootloader完成。Bootloader支持ELF内核文�g加蝲之后�Q�用C语言�~�写的内核编译完成之后就不需要objcopy�?ji��n)�?/div>

��Z��么写操作�pȝ��

首先是兴��，在现在这个时代，写操作系�l�几乎没有实用�h(hu��n)��|��只能是一个Toy�Q�在写一个Toy OS�Ӟ��可以学习(f��n)掌握很多知识�Q��ƈ把这些知识诏�I�实用�v来。操作系�l�是一个复杂的�pȝ��Q�牵涉到的东西很多，我相信写操作�pȝ��可以帮助理解��C��操作�pȝ��?qi��ng)其它底层知识。我目前才刚开始写�Q�代码放�?a >Github上�?/div>

airtrack 2014-10-30 19:13 发表评论

正则表达式实玎ͼ�三）(j��)

airtrack — Mon, 15 Sep 2014 11:04:00 GMT

��d��׃��(ji��n)两三个星期的业余旉��实现�?ji��n)基于DFA的正则引擎（正则引擎常见的实现方�?/strong>

正则的常见实现方式有三种�Q�DFA、Backtracking、NFA�Q?/div>

DFA是三�U�实��C��效率最高的�Q�不�q�缺点也明显�Q�一是DFA的构造复杂耗时�Q�二是DFA支持的正则语法有限。在早期正则被发明出来时�Q�只有concatenation、alternation、Kleene star�Q�即"ab" "a|b" "a*"�Q�DFA可以��L��搞定。随着计算机的发展�Q�正则像所有其它语�a�一样发展出各种新的语法�Q�很多语法在DFA中难以实玎ͼ�比如capture、backreference�Q�capture倒是有论文描�q?/a>可以在DFA中实玎ͼ�(j��)�?/li>

Backtracking是三�U�实��C��效率最低的�Q�功能确是最强的�Q�它可以实现所有后面新加的语法�Q�因此，大多数正则引擎实现都采用此方法。因为它是回溯的�Q�所以在某些情况下会(x��)出现指数复杂度，�q�篇文章有详�l�的描述�?/li>

NFA(Thompson NFA)有相对DFA来说的构造简单，�q�兼有接�q�DFA的效率，�q�且在面对Backtracking出现指数复杂度时的正则表辑ּ�保持良好的性能�?/li>

NFA-based的实�?/strong>

�q�里描述的NFA是指Thompson NFA。Thompson NFA实现的核�?j��)是对于正则表达式多个可能的匚w��q�发的向前匹配，此过�E�是在模拟DFA�q�行。比如对于正则表辑ּ�"abab|abbb"匚w��字符�?abbb"�Q?/div>

Backtracking的匹配过�E�是取正则的�W�一个子表达�?abab"匚w��Q�前两个字符匚w��成功�Q�匹配第三个字符的时候失败，�q�时引擎回溯选择�W�二个子表达�?abbb"匚w��Q�最�l�匹配成功�?/li>

Thompson NFA是同时取两个子表辑ּ�"abab"�?abbb"匚w��Q�前两个字符匚w��Ӟ��两个子表辑ּ�都能匚w��成功�Q�当匚w��W�三个字�W�时�Q�子表达�?abab"匚w��p�|�Q�因此丢弃，"abbb"匚w��成功接着匚w��Q�最�l�匹配成功�?/li>

上面是一个简单的例子�Q�没有出�?*" "+" "{m,n}"�q�种复杂的metacharacters�Q�在处理�q�种repeat的metacharacter时Thompson NFA优势更加明显�?/div>

在实际复杂的正则表达式中�Q�NFA构造是必然�?x��)��生一堆epsilon边，�q�在�W�二��文�?/a>中有描述。上面描�q�Thompson NFA实际是在模拟DFA�q�行�Q�在每个字符匚w��完成之后需要蟩�q�epsilon边得到后面要匚w��的�ƈ发的状态集合，�q�样持箋(hu��)的�ƈ发匹配下去，当字�W�串匚w��完成时只要有一个达��C��(ji��n)接受状态，��是匚w��成功�Q�若�q�个集合为空�Q�那表示匚w��p�|�?/div>

在我的实��C��Q�构造了(ji��n)一�l�状态和��p��l�状态加epsilon辚w��合构造的有向图，每个状态有自己的状态类型，分�ؓ(f��)两种�Q?/div>

一�U�是匚w��状态类型，即用来匹配字�W�的状态，若字�W�匹配成功，则进入下一个状态；

一�U�是操作状态类型，即不匚w��字符的状态，在每个字�W�匹配结束之后若到达�q�些状态，则会(x��)�q�行相应的操作，比如repeat状态，记录匚w��计数�Q��ƈ判断匚w��计数是否完成再决定是否进入的下面的状态�?/li>

repeat是一�U�会(x��)分化的状态，辑ֈ�最��匹配次数时�Q�可以接着往(xi��n)下走�Q�也可以�l�箋(hu��)重复匚w��repeat的子正则表达式，�q�样��分化成两条�U�了(ji��n)�Q��ƈ且每条线都带有自��q��状态数据，因此�Q�我的实��C��引入的thread来表�C�Z��条匹配线�Q�里面有状态数据�?/div>

Match和Search

状态构造完成了(ji��n)之后�Q�就要开始匹配了(ji��n)。匹配有两种�Q�一�U�是match�Q�即一个正则表辑ּ�能否完整匚w��一个字�W�串�Q�若完整匚w��则匹配成功；另一�U�是search�Q�要在一个字�W�串中或者一块buffer中查找每个满��的匚w��。这里就有个问题�Q�从�W�一个字�W�开始匹配，匚w��?ji��n)几个字�W�之后发现匹配失败了(ji��n)怎么办呢�Q�回退到第二个字符重新匚w��Q�我们知道对于普通的字符串查找，有KMP��法可以保证不回退字符�Q�其实KMP��法的预处理��是构造DFA�Q�，或者有Boyer-Moore��法��量回退��的字符个数。对于正则这�U�复杂的匚w��该怎么办呢�Q�从上面的Thompson NFA的描�q�可以知道匹配过�E�是多条�U��ƈ发匹配，因此可以构造一个始�l��生一条新�U�的状态，若匹配在前面的线��p�|被丢弃之后，后面的新�U�始�l�可以补上，�q�样查找的过�E�就不再需要回退字符�?ji��n)�?/div>

我的实现中，状态构造完成后是这��L(f��ng)��Q?/div>

  // |-----|--------|---------------|-----|-------------|
    // | any | repeat | capture begin |  | capture end |
    // |-----|--------|---------------|-----|-------------|

用repeat-any来��生新的匹配线。若在match模式下，则从�W�三个状态开始匹配，不会(x��)产生新的匚w��U�，一旦匹配过�E�失败了(ji��n)��失败了(ji��n)�?/div>

�l�语

正则表达式语法一直在扩展�Q�新的语法有些很隑֜�DFA和NFA中实玎ͼ�而在Backtracking中的实现又是以牺牲性能��Z��仗��因此有些正则表辑ּ�实现�?x��)结合多�U�实现方式，判断正则表达式的�c�d��选择不同的引擎，比如普通字�W�串加上一些简单的正则语法采用DFA引擎匚w��Q�或者只有普通字�W�串的匹配可以用Boyer-Moore��法�Q�毕竟Boyer-Moore��法在普通文本查找中要优?sh��)��KMP��法�Q�）(j��)�Q�对于复杂的正则表达式采用Backtracking�Q�甚��x(ch��ng)��些正则引擎��用JIT来加速�?/div>

airtrack 2014-09-15 19:04 发表评论

初��分代GC

airtrack — Sun, 17 Nov 2013 14:20:00 GMT

GC的分�c?/h2>
通常情况下GC分�ؓ(f��)两种�Q�分别是�Q�扫描GC(Tracing GC)和引用计数GC(Reference counting GC)。其中扫描GC是比较常用的GC实现�Ҏ(gu��)��Q�其原理是：(x��)把正在��用的对象扑և�来，然后把未被��用的对象释放。而引用计数GC则是�Ҏ(gu��)��个对象都��d��一个计数器�Q�引用增加一个计数器��加一�Q�引用减��一个计数器��减一�Q�当计数器减至零�Ӟ��把对象回攉��放。引用计数GC跟C++中的shared_ptr�c�M��Q�自然也�?x��)存在��@环引用问题�?br />

扫描GC(Tracing GC)是广泛��用的GC�Ҏ(gu��)��Q�最��单的实现方式是mark-sweep�Q�即扫描所有存?g��u)zȝ��对象�q�mark�Q�然后遍历整个GC对象列表�Q�把所有标记过的对象清除标讎ͼ�把未标记�q�的对象释放。如果GC使用的是mark-sweep�Ҏ(gu��)��Q�程序运行一�D�|��间后触发�?ji��n)GC�Q�每�ơGC的时候会(x��)把当前程序中的所有对象都扫描一�ơ，然后释放未��用的对象。这对于分配GC对象��的�E�序来说没有什么问题，当程序中存在大量分配GC对象�Ӟ��每次启动GC扫描所有对象的代�h(hu��n)是很高的�Q�又因�ؓ(f��)GC的过�E�通常是stop-the-world�Q�所以高?sh��)��h(hu��n)的GC�?x��)导致整个程序卡��一�D�|��间。对于这个问题，解决�Ҏ(gu��)��有增量GC(Incremental GC)和分代GC(Generational GC)�?br />

增量GC(Incremental GC)�?x��)把整个GC�q�程分成很多�?phase)�Q�每步的执行可以存在一定间隔运行程序本�w�，�q�就��量把stop-the-world的时间变短，使得�E�序不会(x��)因�ؓ(f��)GC而导致�g�q�太大。Lua默认采用的是�q�种实现�Ҏ(gu��)��Q�Lua 5.2中也引入�?ji��n)分代GC作�ؓ(f��)备选GC�Ҏ(gu��)��?br />

分代GC(Generational GC)把对象分成几�?Generation)�Q�通常把GC分�ؓ(f��)两种�Q�Minor GC和Major GC。刚刚分配出来的对象属于最�q�轻的一代，在一�ơGC�q�后把年��M��中存?g��u)zȝ��对象上升到年老的一代中。把只扫描年��M��代的对象以减��扫描对象数量的GC�q�程�U�Cؓ(f��)Minor GC�Q�只有在特定情况下才�?x��)启动完整的Major GC。分代GC是基于在大多数程序中新创建的对象同时也是最快变成无效的对象的经验设计的�Q�对�q�轻代对象GC�Ӟ��可以释放大多数无效对象，存活下来的对象一般存?g��u)z�L��间也�?x��)更长，因此把它们上升到下一代中以减��最�q�些对象的扫描�?br />

对于GC内存的管理，有移动和非移动之分。移动的��是把一�ơGC�q�后存活的对象compact��C��P��使GC��理的内存�(sh��)��持连�l�，�q�里增加�?ji��n)一个移动对象的开销�Q�不�q�它也同样带来不��好处：(x��)分配释放对象快和更快的序列遍�?在CPU cache中及(qi��ng)在同一个Virtual memory page�?。正因�ؓ(f��)它会(x��)把对象compact��C��P��对象的地址��׃��(x��)发生变化�Q�这也就��D��一个明昄��~�点�Q�不能��用指针引用GC对象�?br />

其它高��GC�Ҏ(gu��)��Q�比�?NET的background GC�Q�几乎不需要stop-the-world��可以在GC�U�程中完成GC�Q�这�U�高�U�技的GC对于我这�U�初�U��h士基本属于不可想象�?br />

初��分代GC设计

�?ji��n)解了(ji��n)基本的GC�Ҏ(gu��)��之后�Q�我�?a >luna�W�二�?/a>实现�?ji��n)一个初�U�的分代GC�Q�把对象分成三代�Q�GCGen0,GCGen1,GCGen2:

GCGen0是最�q�轻的一代，默认所有对象都是分配在�q�代中�?/div>
GCGen1是年老的一代，在一�ơGC�q�后GCGen0代存?g��u)zȝ��对象�?x��)移动到�q�一代中�?/div>
GCGen2是最老的一代，一般情况下用于存放�~�译时分配的�?x��)长期存在的对象�Q�比如函数及(qi��ng)字符串常量�?br />

�׃��我在很多地方直接引用�?ji��n)GC对象的指针，��Z��(ji��n)��单�v见，我没有在GC之后�U�d��对象�Q�而是�Ҏ(gu��)��个对象单独分配释攑ֆ�存。每个对象都有Generation标记和GC标记以及(qi��ng)一个用于指向跟自己属于同代的GC对象的指针�?br />

Minor GC对GCGen0代对象mark-sweep�Q��ƈ把存?g��u)zȝ��对象�U�d��到GCGen1代中。既焉��要mark�Q�自焉��要对所有GCGen0代存?g��u)zȝ��对象标记�Q�这通过对root对象的遍历完成，root是指所有对象的引用入口�Q�比如程序的栈和全局表。对于Minor GC的root对象遍历最��单的�Ҏ(gu��)��是跟Major GC的root遍历完全一��_(d��)��不过�q�样的遍历对于本来就是�ؓ(f��)�?ji��n)减��遍历对象的Minor GC来说��g��不合�Q�所以通常只对某一��块root遍历�Q�比如只�Ҏ(gu��)��上的对象遍历�Q�然后再把存?g��u)zȝ��对象保留不存?g��u)zȝ��对象释放�?br />

Minor GC的root遍历存在一个问题：(x��)假设只把栈上的对象作为root遍历�Q�会(x��)存在一些从GCGen0代分配出来的对象没有被栈上的对象引用�Q�而被全局表中的某个对象引用，或者其它某个非GCGen0对象引用�?ji��n)，�q�样对GCGen0代sweep的时候可能会(x��)把这个存?g��u)zȝ��对象当做无效对象而释放掉�Q�这�U�操作自然也��׃��(x��)��D��整个�E�序crash。于是�ؓ(f��)�?ji��n)控制root遍历的范��_(d��)��又要解决�q�个问题�Q�对非GCGen0对象引用GCGen0对象的时候，需要把�q�个非GCGen0的对象也加入到root遍历列表中去。这时引入了(ji��n)barrier�Q�对于非GCGen0对象引用GCGen0对象�Ӟ��把这个非GCGen0的对象放到barrier列表中�?br />

Major GC是一个完整的GC�Q�它遍历所有的root�q�mark�Q��ƈ把所有的无效的对象都sweep释放�?br />

GC启动的时�?/h2>

GC什么时候启动是一个需要仔�l�考虑的问题，�׃��我实现的GC�q�没有自��q��理内�?Lua也没有自��q��理内存，所有内存分配都通过realloc)�Q�所以我把GCGen0代和GCGen1代的对象数量作�ؓ(f��)启动时机的衡量指标，当GCGen0和GCGen1的对象数量大于它们的阈值时�Q�分别启动Minor GC和Major GC。我觉得对象的数量比起内存占用大��?各种复杂的GC对象��D��内存占用很难�_��的统计，Lua的内存统计也不够�_��)更能反映GC旉��的长短，如果两者结合也�怼�(x��)更好�?br />

通过判断GC对象个数��过阈值时启动GC�Q�同旉��要在GC之后自动调整阈值大��。比如某些程序很快的辑ֈ�GCGen0的阈值�ƈ在Minor GC之后有超�q�一半的对象�q�是存活的，�q�时需要把阈��D��大，以减��GC启动的次敎ͼ��q�个阈��g��不能无限扩大�Q�这不仅�?x��)导致一�D�|��间内内存占用一直上升，也会(x��)��D��一旦触发GC所需扫描的对象数量太多，GC耗时太长�Q�程序运行的延时增加�?br />

�l�语

��Z��(ji��n)减少stop-the-world的时��_(d��)��引入的各�U�方法都�?x��)让GC实现隑ֺ�加大。GC是一个复杂的东西�Q�网上所能找到的资料文章��g��不太多，而有关GC的书�Q�目前只发现《The Garbage Collection Handbook�?/a>(我还没有看过)�Q�而这本书既没有pdf也没有kindle版，只能在美国Amazon上买�U�质书。另外一个参考资料就是各个语�a�的实现源码了(ji��n)�?/div>

airtrack 2013-11-17 22:20 发表评论

正则表达式实玎ͼ�二）(j��)

airtrack — Sun, 01 Sep 2013 15:25:00 GMT

��?a title="上一��? href="http://www.shnenglu.com/airtrack/archive/2013/07/05/201530.html">上一��?/a>已经有近两个月的旉��?ji��n)，�q�段旉��事情�?ch��)（多�?j��)�Q�导致没�?j��)情写，现在争取补上�?/p>

生成epsilon-NFA

epsilon-NFA是包含epsilon边（�I��Q�的NFA�Q�把��单正则表辑ּ�转换成epsilon-NFA的方法如下：(x��)

正则表达式：(x��)”ab” 对应的epsilon-NFA是：(x��)

正则表达式：(x��)”a|b”对应的epsilon-NFA是：(x��)

正则表达式：(x��)”a*” 对应的epsilon-NFA是：(x��)

�q�是最基本�?�U�正则表辑ּ�的NFA表示�Q�其中a*在实际的正则表达式实��C��通常生成的epsilon-NFA不是�q�样的，因�ؓ(f��)有下面这些正则表辑ּ�存在�Q?/p>
a{m}       重复a�Q�m��?br />a{m,n}     重复a�Q�m到n��?br />a{m,}      重复a�Q�至��m��?br />a+         重复a�Q�至��?��?br />a?         重复a�Q?�ơ或1��?/div>
所以对于a*表示重复臛_��0�ơ的实现可以跟上面这些正则表辑ּ�采用相同�Ҏ(gu��)��的实现�?/p>
按照�q�些生成规则��可以把正则表达式�{换成epsilon-NFA�Q�我代码中即把这些生成规则实现成一个AST的visitor�?/p>

epsilon-NFA subset construction to DFA

在生成了(ji��n)epsilon-NFA之后�Q�通常�?x��)有很多epsilon的边存在�Q�也�?x��)有很多无用的state存在�Q�所以通常需要把epsilon�Ҏ(gu��)��除�ƈ合�ƈstate�Q�这个过�E�采用的��法是subset construction�Q�如下：(x��)

subset construction:
start_subset <- epsilon_extend(start_state)    // 把start_state通过epsilon扩展得到起始subset
subsets <- { start_subset }                    // 初始化subsets
work_list <- subsets                           // 初始化work_list
while (!work_list.empty())
{
    subset <- work_list.pop_front()
    for edge in epsilon-NFA                    // 取出NFA中的每条�?/span>
    {
        next_subset <- delta(subset, edge)     // 对subset中的每个state通过edge所到达的state的epsilon�Ҏ(gu��)��展得到next_subset
        if (!subsets.exist(next_subset))       // 如果next_subset不存在于subsets中，则把�q�个next_subset加入到work_list�?/span>
            work_list.push_back(next_subset)
        map[subset, edge] = next_subset        // 构徏subset到next_subset的边映射
        subsets.merge({next_subset})           // 把next_subset合�ƈ到subsets
    }
}

delta:
next_subset <- { }    // 初始化next_subset为空集合
for state in subset
{
    // 取出next_state�q�将它通过epsilon�Ҏ(gu��)��展得到的subset合�ƈ到next_subset�?/span>
    next_state <- map[state, edge]
    if (next_state)
        next_subset.merge(epsilon_extend(next_state))
}

�q�里面��用了(ji��n)epsilon_extend�Q�它是把一个state的所有epsilon边能到达的state构成一个集合，比如上面正则表达式a*对应的epsilon-NFA中的所有state的epsilon_extend是：(x��)

epsilon_extend(1) –> { 1 }
epsilon_extend(2) –> { 1, 2, 4 }
epsilon_extend(3) –> { 1, 3, 4 }
epsilon_extend(4) –> { 4 }

对于一个epsilon-NFA来说�Q�每个state的epsilon_extend是固定的�Q�因此可以对epsilon-NFA中的每个state都求出epsilon_extend�q�保存�(sh��)��来，��法如下�Q?/p>
epsilon_extend_construct:
work_list <- { }
// 为每个state初始化epsilon_extend集合
for state in epsilon-NFA
{
    epsilon_extend(state) <- { state }
    work_list.push_back(state)
}
while (!work_list.empty())
{
    state <- work_list.pop_front()
    state_epsilon_extend <- epsilon_extend(state)
    // 把state通过epsilon所能到辄��state的epsilon_extend
    // 合�ƈ到当前state的epsilon_extend
    for next_state in map[state, epsilon]
        state_epsilon_extend.merge(epsilon_extend(next_state))
    // 如果当前state的epsilon_extend变化�?ji��n)之�?br />    // 把所有通过边epsilon到达state的pre_state都加入到work_list�?/span>
    if (state_epsilon_extend.has_changed())
    {
        for pre_state in epsilon_pre(state)
            work_list.push_back(state)
    }
}

epsilon-NFA通过subset construction构造成完之后，�q�把构造的subsets中的subset转换成DFA中的state�Q�再把NFA中除epsilon边之外的所有边都�{换成DFA的边�Q�这样就把DFA构造完成�?/p>

DFA minimization

从NFA构造完成DFA之后�Q�这时的状态数量一般不是最��的�Q��ؓ(f��)�?ji��n)减��最�l�生成的状态机的状态数量，通常�?x��)对DFA的state�q�行最��化构造，�q�个��法具体如下�Q?/p>
minimization:
// 把所有state划分成accept的state集合和非accept的state集合
state_sets <- { {accept_state(DFA)}, {non_accept_state(DFA)} }
do
{
    work_list <- state_sets
    old_state_sets_size <- state_sets.size()
    state_sets <- { }
    for state_set in work_list
    {
        split_success <- false
        for edge in DFA
        {
            // 如果edge可以把state_set拆分成两个subset�Q�那��把新拆分出来的
            // 两个subset合�ƈ到state_sets里面�Q��ƈbreak�l�箋(hu��)work_list中取��Z��一�?br />            // state_set拆分
            subset1, subset2, split_success <- split(state_set, edge)
            if (split_success)
            {
                state_sets.merge({subset1, subset2})
                break
            }
        }
        if (!split_success)
            state_sets.merge({state_set})
    }
} while (old_state_sets_size != state_sets.size())

�q�里面的split是把一个state_set按edge划分成两个subset�Q�即对于state_set中的每一个state都通过�q�条边edge到达的state属于不同的state_set时就把state_set拆分成两个subset。首先把�W�一个state划分到subset1中，从第二个state开始通过边edge到达的state所属的state_set和第一个state通过边edge到达的state所属的state_set为同一个的时候，把这个state划分到subset1中，否则划分到subset2中�?/p>
�q�个��法��p��样依�ơ把最初的两个state_set�Q�accept的state�l�成的set和非accept的state�l�成的set�Q�划分到不能再划分�ؓ(f��)止，此时��把能合�q�的state都合�q�到�?ji��n)同一个state_set中，�q�时只需要把每个state_set转换成最�l�状态机中的state�Q�即可完成DFA的最��化构造�ƈ转换成状态机。得到状态机之后�Q�就可以使用状态机�q�行字符匚w��?ji��n)�?/p>

airtrack 2013-09-01 23:25 发表评论

airtrack — Fri, 05 Jul 2013 05:30:00 GMT

实现正则表达式的��x(ch��ng)��很早��有�Q�各�U�原因导致没有做�Q�最�q�花�?ji��n)点旉��?a target="_blank">实现�?ji��n)几个简单的正则语法�Q�分别是concatenation、alternation和closure�Q�其他语法及(qi��ng)metacharacter�{�有旉��?ji��n)有��x(ch��ng)��?ji��n)之后再扩展�?/p>

�q�三�U�基本的语法分别是对应这��L(f��ng)��Q?/p>
concatenation: abc    表示匚w��字符串abc

alternation: abc|def   表示匚w��字符串abc或者def

closure: a* 表示匚w��零个到多个a构成的字�W�串

我们知道正则表达式最�l�需要�{换成自动机才能用来匹配字�W�串�Q�我实现的正则通过如下几个步骤把正则表辑ּ�转换成自动机�Q?/p>
正则表达�?>Parse成AST->生成边（字符�Q�集�?>生成NFA->NFA subset construction->转换成DFA->DFA minimization

最后用DFA minimization之后构造的自动机来匚w��字符丌Ӏ?/p>

正则语法的分�?/h3>
一个正则表辑ּ�写出来，要让�q�个正则表达式匹配字�W�串�{�操作之前，我们先需要从正则表达式中提取需要的信息�q�在正则语法错误的时候提�C�错误，�q�个�q�程自然��不�?ji��n)parser。一个parser通常是从一个lexer里面获取一个token�Q�而正则表辑ּ�的token都是字符�Q�那么lexer不需要做��M��的分词操作，只需要简单的把字�W�返回给parser卛_��?/p>
那三�U�基本的正则语法对应的BNF为：(x��)

re ::= alter
re_base ::= char | char_range | '(' re ')'
alter ::= alter_base alter_end
alter_base ::= concat
alter_end ::= '|' alter_base alter_end | epsilon
concat ::= concat_base concat_end
concat_base ::= re_base | closure
concat_end ::= concat_base concat_end | epsilon
closure ::= re_base '*'

�q�个parser分析�?ji��n)正则表辑ּ�之后产生AST�Q�AST的node�c�d��为：(x��)
class ASTNode
{
public:
    ACCEPT_VISITOR() = 0;
    virtual ~ASTNode() { }
};

class CharNode : public ASTNode
{
public:
    explicit CharNode(int c) : c_(c) { }

    ACCEPT_VISITOR();

    int c_;
};

class CharRangeNode : public ASTNode
{
public:
    struct Range
    {
        int first_;
        int last_;

        explicit Range(int first = 0, int last = 0)
            : first_(first), last_(last)
        {
        }
    };

    CharRangeNode() { }

    void AddRange(int first, int last)
    {
        ranges_.push_back(Range(first, last));
    }

    void AddChar(int c)
    {
        chars_.push_back(c);
    }

    ACCEPT_VISITOR();

    std::vector ranges_;
    std::vector<int> chars_;
};

class ConcatenationNode : public ASTNode
{
public:
    void AddNode(std::unique_ptr node)
    {
        nodes_.push_back(std::move(node));
    }

    ACCEPT_VISITOR();

    std::vector> nodes_;
};

class AlternationNode : public ASTNode
{
public:
    void AddNode(std::unique_ptr node)
    {
        nodes_.push_back(std::move(node));
    }

    ACCEPT_VISITOR();

    std::vector> nodes_;
};

class ClosureNode : public ASTNode
{
public:
    explicit ClosureNode(std::unique_ptr node)
        : node_(std::move(node))
{
    }

    ACCEPT_VISITOR();

    std::unique_ptr node_;
};

其中ASTNode作�ؓ(f��)AST的基�c�，�q�提供接口实现Visitor模式讉K��ASTNode�c�d��?/p>

字符�Q�边�Q�集的构�?/h3>
AST构造好�?ji��n)之后，需要把AST转换成NFA。语法中有[a-zA-Z0-9]�q�种字符区间表示法，我们可以用最��单原始的�Ҏ(gu��)��转换�Q�就是把区间中的每个字符都�{化成相应的一条边�Q�NFA中的边）(j��)�Q�这样一来会(x��)��D��字符区间��大�Q�对应边的数量会(x��)��多�Q��得对应的NFA也越大。因此，我们需要构造区间字�W�集合来减少边的数量�?/p>
比如正则表达式是�Q�a[x-z]|[a-z]*e

那么我们希望对应的字�W�集合是�q�样�Q�[a-a] [b-d] [e-e] [f-w] [x-z]

�q�需要构造一个字�W�集�Q�每�ơ插入一个区间的时候，把新插入的区间与已存在的区间�q�行分割�Q�初始时已存在的区间集�ؓ(f��)�I�，那么正则表达式a[x-z]|[a-z]*e的划分步骤如下：(x��)

已存在区间集合{}�Q�插入[a-a]�Q�得到{[a-a]}

已存在区间集合{[a-a]}�Q�插入[x-z]�Q�得到{[a-a], [x-z]}

已存在区间集合{[a-a], [x-z]}�Q�插入[a-z]�Q�得到{[a-a], [b-w], [x-z]}

已存在区间集合{[a-a], [b-w], [x-z]}�Q�插入[e-e]�Q�得到{[a-a], [b-d], [e-e], [f-w], [x-z]}

�q�个区间构造完成了(ji��n)之后�Q�还需要在后面转换成NFA边的时候，�Ҏ(gu��)��字符区间查询出在�q�个集合中，由哪几个区间构成�Q�比如：(x��)

查询区间[a-a]�Q�得到[a-a]

查询区间[x-z]�Q�得到[x-z]

查询区间[a-z]�Q�得到区间[a-a] [b-d] [e-e] [f-w] [x-z]

在�{换成NFA�Ӟ��集合中的每个区间都对应一条边�Q�这��L(f��ng)��对于每个字符对应一条边�Q�边的数量不�?x��)太多�?/p>
有了(ji��n)�q�么一个集合构造的�c�M��后，把正则的AST中的字符信息提取出来构造出�q�么个集合即可，�q�样只需要写个visitor��完成了(ji��n)�Q?/p>
class EdgeSetConstructorVisitor : public Visitor
{
public:
    explicit EdgeSetConstructorVisitor(EdgeSet *edge_set)
        : edge_set_(edge_set)
    {
    }

    EdgeSetConstructorVisitor(const EdgeSetConstructorVisitor &) = delete;
    void operator = (const EdgeSetConstructorVisitor &) = delete;

    VISIT_NODE(CharNode);
    VISIT_NODE(CharRangeNode);
    VISIT_NODE(ConcatenationNode);
    VISIT_NODE(AlternationNode);
    VISIT_NODE(ClosureNode);

private:
    EdgeSet *edge_set_;
};

辚w��合构造完成之后，下一步就是生成NFA�?ji��n)�?/p>

airtrack 2013-07-05 13:30 发表评论

学习(f��n)Haskell

airtrack — Tue, 30 Apr 2013 12:41:00 GMT

最�q�几个月利用上下班的旉��在学�?f��n)Haskell�Q�Haskell有不��让人开阔思�\的东西，也有不少看�v来很��好�Q�用��h��不错�Q�但是读��h��费劲的东�ѝ��Haskell的语法学的差不多�?ji��n)之后，用Haskell写了(ji��n)一个简单的C++代码行统计工�?/a>�Q�写�q�几个版本，留下�?ji��n)两个，一个是直接用模式匹配写的，一个是山寨�?ji��n)一个极��的parse combinator�Q�然后用�q�个山寨的parse combinator写了(ji��n)一个版本，代码估计写的都比较烂�Q�以后进阶学�?f��n)之后有旉��再改。这个统计工具�ƈ不是完整的处理C++的语法，也没对在字符串和宏定义里面的"http://" "/*" "*/"做处理，因此�Ҏ(gu��)��些C++�E�序�l�计代码行，可能不完全正��，但是基本可以用�?/p>

data, type, newtype

Haskell里面用data来定义数据类型，它可以是�q�样�Q?br />
data Mode = ReadMode | WriteMode
data Some = Some Int String
data Thing = { a :: Int, b :: String }
data Func a b = { func :: a -> b }

�W�一行定义了(ji��n)一个Mode�Q�包含ReadMode和W(xu��)riteMode�Q?/p>
�W�二行定义了(ji��n)一个普通数据类型Some�Q�包含一个Int数据和一个String数据�Q?/p>
�W�三行定义了(ji��n)一个普通数据类型Thing�Q�包含类型�ؓ(f��)Int的a和类型�ؓ(f��)String的b�Q?/p>
�W�四行定义了(ji��n)一个符合数据类型Func�Q�里面有个函数类型�ؓ(f��)(a -> b)的数据func�?/p>

�W�一�U�相当于C++中的enum class�Q�第二种�W�三�U�相当于普通的struct数据�Q�第二种和第三种的区别是�W�二�U�不能直接取到Int和String的数据，�W�三�U�可以通过a,b取到数据�Q�第四种相当于C++的template class(struct)�Q�第四种写成�q�样来定义具体的数据�c�d��Q?br />
type IntStringFunc = data Func Int String

type在这里定义了(ji��n)一个别名IntStringFunc�c�d��Q�包含了(ji��n)一个函数类型是Int -> String的func的数据，�q�里的type相当于C++ 11的using别名�Q�因为它�q�可以这样写�Q?/p>

type IntBFunc b = data Func Int b

在C++ 11中，using包含�?ji��n)typedef的功能，也支持了(ji��n)template class的类型typedef�Q�如下：(x��)

template
class SomeType;

template
using SomeTypeInt = SomeTypeint>;

newtype定义的数据类型跟type�c�d��Q�不�q�type定义的纯�_Ҏ(gu��)��别名�Q�别名类型跟原始�c�d��是一致的�Q�而newtype则定义的是一个wrapper�Q�是一�U�新的数据类型，所以是newtype。newtype定义的类型是�~�译时期的wrapper�Q�Haskell保证没有�q�行时期的开销�Q�newtype定义的跟data�c�M��Q?br />
newtype NewType a b = NewType { func :: a -> b }

模式匚w��

上面说道data定义的第二种数据�c�d��Q�包含I(xi��n)nt和String的数据，但是不能直接取到�q�两个数据，所以我们需要定义两个函数来取其中的数据�Q?/p>

some = Some 0 "test"  -- 定义一个数据，�c�d��为Some

-- 定义两个函数用于获取Some的数�?br />getSomeInt Some i _ = i
getSomeString Some _ s = s

getSomeInt some  -- 0
getSomeString some  -- "test"

�q�里的getSomeInt和getSomeString函数都是采用模式匚w��来实玎ͼ�模式匚w��是把数据的�l�构直接写在代码中来匚w��Q�然后取出想要��用的数据卛_��?/p>

Haskell里常用的Maybe数据�c�d��是这样定义的�Q?/p>

data Maybe a = Nothing
                     | Just a

如果要取用Maybe里面的��|��我们通常使用模式匚w��来获取数据，如下�Q?/p>

useMaybe maybe =
     case maybe of
          Nothing -> …  -- Maybe的值是�I?br />          Just a -> …  -- 直接使用a卛_��

useMaybe (Just 1)

下面调用useMaybe的函��C��内取到的a的值就�?�?/p>

Haskell里的内置数据�c�d��list�Q�比如[1, 2, 3, 4]�Q��?可以把新的元素添加到l(f��)ist头部�Q�即�Q?/p>

0 : [1, 2, 3, 4]  -- [0, 1, 2, 3, 4]

�q�样的特性同样可以简单的套用在模式匹配上面，如下�Q?/p>

useList [] =
useList (x:xs) = … -- x是list里面的第一个元素，xs是list的尾�?/div>

模式匚w��可以很直观的匚w��数据的原始表�C�方式，�q�可以取出其中有用的值做其他操作�Q�它是一个简单直观有效的操作数据的方式，甚至可以在嵌套很��q��tuple数据里面直接取出惌��的数据，而不用像C++那样调用tuple::get之类的函数来取出其中的��|��比如�Q?/p>

getTupleValue (_, _, _, (_, _, (x:xs))) = … -- 取得x和xs数据

Visitor模式和C++ template

王垠说设计模�?/a>中值得一提的模式不多�Q�其中之一的visitor模式是在模拟模式匚w��。visitor模式通常是访问获取某个��(h��)承类层次构成的一个树(w��i)形结构中的某个节点的具体�c�d��Q��ƈ对这�U�具体类型做某些操作�Q�而模式匹配是可以从复杂的数据�l�构中直接取出想要的数据�?/p>

C++的template meta-programming也可以看成是一�U�模式匹配，C++里面著名的Factorial求值是�q�样的：(x��)

template <int N>
struct Factorial
{
     enum { value = N * Factorial::value };
};

template <>
struct Factorial<0>
{
     enum { value = 1 };
};

int v = Factorial<10>::value;

而这�D�代码如果用Haskell写是�q�样的：(x��)

factorial 0 = 1
factorial n = n * factorial (n - 1)

v = factorial 10

C++中的模板参数��是用来做模式匹配的�Q�每特化一�U�类型就可以匚w��某种�c�d��Q�然后对那种匚w��的类型做相应的操作。C++的template meta-programming是编译时期（�~�译器运行期�Q�的行�ؓ(f��)�Q�所以它只能操作�c�d��以及(qi��ng)�~�译时期能够��定的��|��而模式匹配是�E�序本��n的运行期的行为�?/p>

Currying

Haskell的Currying是一个很有用的特性，但是我觉得这个特性滥用的话，也会(x��)让程序代码的可读性降低不��。所谓Currying��是可以向一个多参数的函��C��递比它所需的参��C��数更��的参数后返回生成的一个新函数接受剩余的参数的函数。Haskell里的函数默认都是curried的，所以Haskell里面的函数可以随意currying�Q�比如：(x��)

add :: Int -> (Int -> Int)  -- 一般写�?nbsp;Int -> Int -> Int
add a b = a + b

addOne :: Int -> Int
addOne = add 1

addOne 2 -- result: 3

Currying的实现是使用的单参数的lambda构成的闭�?closure)�Q�add可以看成是接受一个Int参数�q�回一个函敎ͼ��q�个函数的类型是Int -> Int�?/p>

Partial application

Currying是一个从左到右部分传参数的一个过�E�，也就是不�?x��)出现参数a�q�没�l�，��q��?ji��n)具体的参数b的情��c(di��n)��如果确定要先给参数b�Q�那么它是Partial application�Q�如下：(x��)

addTwo a = add a 2

addTwo 1 -- result: 3

(+ 2) 1 -- result: 3

(+ 2)�q�种�c�M��的用法可能会(x��)作�ؓ(f��)参数传递给另外一个函数。Partial application是一�U�更宽泛的概念，上面的Currying是一�U�Partial application�?/p>

正如王垠所�?/a>的，如果一个函数接受了(ji��n)多个参数�Q�但是这个函数在实际调用中被Currying�?ji��n)很多次�Q�那最后生成的那个函数它到底接受几个参数是不能很直观的看明白的�Q�比如：(x��)

func a b c d e f = …

do1 = func 1
do2 = do1 2
do3 = do2 3
do4 = do3 4
do5 = do4 5

那当我们看到do5函数的时候，我们是很隑ֈ�断do5到底接受几个参数�Q�尤其是do5跟前面几个doN函数不在同一个地方定义，很有可能do5只是传递给某个函数的参敎ͼ�当然如果�l�每个函数都加上函数�c�d��声明�?x��)清晰许多。当Currying��到�?ji��n)flip之后�Q�那代码的可��L��会(x��)降低更多�Q�所以我觉得Currying是一个很有用的特性，但是如果被滥用的话，那代码的可读性会(x��)是一个问题�?/p>

C++: function + bind

C++中的function + bind其实是一�U�Partial application实现�Q�比如：(x��)

int Func(int a, int b, int c);

std::function<int (int, int)> f1 = std::bind(Func, 1, std::placeholders::_1, std::placeholders::_2);
std::function<int (int)> f2 = std::bind(f1, std::placeholders::_1, 3);
f2(2); // Func(1, 2, 3);

我觉得C++的function + bind�?x��)比Currying的可��L��要好一些，毕竟我们可以完整看到f1和f2的函数类型，知道参数�c�d��?qi��ng)个数和�q�回��|��是有利于代码的可��L��的�Q�当然这里完全可以不写出f1和f2的类型，采用auto�Q�我们同样可以从调用函数bind的placeholder的个数得知bind之后的function的参��C��敎ͼ��q�样我们可以不用看到函数Func的声明，��q��道需要传几个参数。function + bind跟Currying一样会(x��)影响代码的可��L��，如果嵌套的层�ơ越多，可读性就��差�Q�所以��用这些特性的时候不要过度�?/p>

typeclass

Haskell用typeclass来表�C�Z��个concept�Q�它是一�l�抽象函数的集合�Q�一个满��x(ch��ng)��个typeclass的数据类型，它就可以跟其他��用这个typeclass的函数或者数据类型组合��用。typeclass一般这么定义：(x��)

class Monad m where
     (>>=) :: m a -> (a -> m b) -> m b
     (>>) :: m a -> m b -> m b
     return :: a -> m a
     fail :: String -> m a

它定义了(ji��n)一个叫Monad的typeclass�Q�这个typeclass的concept里有四个函数�Q�分别是(>>=), (>>), return和fail�Q�m是一个带�c�d��参数的数据类型。我们上面知道了(ji��n)Maybe是一个带�c�d��参数的data�c�d��Q�它定义如下�Q?/p>

data Maybe a = Nothing
                     | Just a

既然Maybe是一个带�c�d��参数的data�Q�那它就满��Monad typeclass中m的需求，因此可以把Maybe定义成Monad�Q�如下：(x��)

instance Monad Maybe where
     (>>=) maybeA f =
          case maybeA of
               Nothing -> Nothing
               Just a -> f a

     (>>) maybeA maybeB = maybeA >>= (\_ -> maybeB)

     return = Just

     fail = error

�q�里(\_ -> maybeB)定义�?ji��n)一个lambda�Q�参�?_ 紧接 \�Q?> 后面则是函数体。函�?>>)和fail是可以作为默认实现放到class Monad的定义里面，而instance Monad的时候只需要实�?>>=)和return卛_��?/p>

class Monad m where
     (>>=) :: m a -> (a -> m b) -> m b
     (>>) :: m a -> m b -> m b
     (>>) ma mb = ma >>= (\_ -> mb)
     return :: a -> m a
     fail :: String -> m a
     fail = error

对于内置list�c�d��[a]�Q�也是带有一个类型参数a�Q�因此，我们同样可以把[] instance成�ؓ(f��)class Monad�Q�如下：(x��)

instance Monad [] where
     (>>=) (x:xs) f = (f x) ++ (xs >>= f)
     (>>=) [] _ = []
     return a = [a]

函数(>>)和fail我们保留默认的实现即可�?/p>

Monad

上面实现的定义的typeclass��是Haskell著名的Monad�Q�它是组合其他操作的一个基��typeclass�Q�是与no pure交互的一个重要媒介。一般情况下Monad有两�U�，一�U�是数据wrapper�Q�一�U�是action的wrapper。上面定义的Maybe Monad和list Monad都是数据�c�d��的wrapper�Q�它们实��C��(ji��n)Monad定义的接口函敎ͼ�我们�q�可以将其它data instance成Monad�Q�只需要遵循了(ji��n)Monad的接口即可�?/p>

我们知道Haskell的函数都是pure的，没有��M��状态的函数�Q�但是与现实世界交互必然需要媄(ji��ng)响或修改某种状态，�q�且�?x��)需要顺序执行某些操作以完成交互。我们把action操作��装在一个data里面�Q��ƈ让它instance Monad�Q��ؓ(f��)�?ji��n)让前一个action的结果��g��为某�U�状态往(xi��n)下传递，Monad�?>>=)��是��Z��(ji��n)�q�个目的而存在的�Q?>>=) 函数的类型是 m a -> (a -> m b) -> m b�Q�它的意思就是执行封装在m a�q�个数据里面的action�Q�然后把�q�个action的结果值做为参��C��递给(>>=)的第二个参数(a -> m b)�Q�第二个参数是一个函敎ͼ��q�函数可以取用第一个参数的�l�果�Q�再�q�回一个m b的数据，m b的数据也是一个action的封装，�q�样当一�q�串�?>>=)攑ֈ�一��L(f��ng)��时候，��可以把一个状态��g��为action的参数和�l�果值往(xi��n)下传递�?/p>

从Monad的函�?>>)的实现我们可以看刎ͼ�它把m a的action的结果��g��弃直接返回了(ji��n)m b�Q�当一�q�串�?>>)攑ֈ�一��L(f��ng)��时候，其实��是让一�l�action��序执行。通过(>>=)�?>>)�Q�可以把一�l�Monad action data�l�合��h��?/p>

IO Monad

IO Monad是一个把IO action��装的data�Q�我们可以��用IO Monad与外界进行输入输��Z��互，下面是一�?hello world"�Q?/p>

helloWorld = do
     putStr "hello "
     putStrLn "world"

�q�里do语法�p�其实就是用的Monad来实玎ͼ�展开之后是这��P��(x��)

helloWorld =
     (putStr "hello ") >>
     (putStrLn "world")

�?>>)函数��定(putStr "hello ")�?putStrLn "world")需要是同一个Monad�c�d��Q�我们可以查询到putStr和putStrLn的类型是String -> IO ()�Q�那�?putStr "hello ")�?putStrLn "world")的类型都是IO ()�Q�helloWorld函数把两个IO ()的action数据��序�l�合��h��生成一个新的IO ()�Q�当�q�个helloWorld IO action被执行的时候，它会(x��)依次执行��装在它里面的IO action。我们可以把helloWorld IO action攑ֈ�Main函数里面然后�~�译执行�Q�也可以直接在ghci里面执行�?/p>

我们可以自己定义某种data再instance Monad�Q�这样可以构成一�l�data combination�Q�可以实��C�Q意的action combine。我山寨的极��的parse combinator的数据类型定义如下：(x��)

newtype Parser a = Parser {
     runP :: State (ByteString, Context) a
} deriving (Monad, MonadState (ByteString, Context))

�q�里Parser带一个类型参数a�Q�deriving (Monad, MonadState (ByteString, Context))表示�~�译器自动instance Monad和instance MonadState (ByteString, Context)。有�?ji��n)这个Parser之后�Q�可以写出简单的几个combinator�Q�然后��用这几个combinator�l�合成更加复杂的�Q�组合的�q�程��是利用�?ji��n)Monad的组合能力。当所需的combinator都实��C��(ji��n)好了(ji��n)之后�Q�可以最�l�实��C��个Parser a来分析整个C++文�g�Q?/p>

file = repeatP $ spaceLine <||> normalLine

file��把分析整个C++文�g所需的操作都combine��C��(ji��n)一��P��有了(ji��n)�q�个分析整个文�g的Parser a之后�Q�需要把它跑��h��Q�那��需要定义下面这个函敎ͼ�(x��)

runParse :: Parser a -> ByteString -> (a, (ByteString, Context))
runParse p b = runState (runP p) $ (b, emptyContext)

�q�个函数接受一个Parser a和一个文件内容ByteString作�ؓ(f��)参数�Q�把整个Parser a��装的action用于分析文�g内容�Q�再产生一个分析结果�?/p>

�q�里的file�Q�它是一个一个小的combinator构成的，每个combinator是一个action加上它所需数据构成一�?#8220;闭包”再存攑ֈ�Parser a的data里面�Q�其实可以认为实��C��(ji��n)Monad的数据类型是一�?#8220;闭包”的蝲体。在其它语言里，我们可以使用闭包来实现combinator�Q�我记得两年半前�Q�我使用lua的闭包实��C��(ji��n)一�l�游戏副本内容玩法操作的combinator�Q�这些闭包自��q��合在一起之后就能完成一个副本中所需的玩法操作�?/p>

Monad transformer

一�U�Monad�c�d��只能��装和组合一�U�action操作�Q�而与外界交互的时候，很多时候一�U�Monad�c�d��是不够的�Q��ؓ(f��)�?ji��n)让多种Monad�c�d��l�合在一��P��需要定义Monad transformer�Q�它跟Monad一样也是一个数据类型，不同的是它接受至��两�U�类型参敎ͼ�其中一�U�就是Monad的类型，�q�样��可以把某个Monad�c�d��嵌套在它里面�?/p>

newtype StateT s m a = StateT {
     runStateT :: s -> m (a, s)
}

�q�里StateT��是一个Monad transformer�Q�它允许嵌套一个Monad m�c�d��Q�它是typeclass MonadState的一个instance�Q�MonadState如下�Q?/p>

class Monad m => MonadState s m | m -> s where
     get :: m s
     put :: s -> m ()

��Z��(ji��n)让Monad transformer可以嵌套�q�StateT�Q�其它类型的Monad transformer��需要instance MonadState�Q�而StateT Monad transformer��Z��(ji��n)可以嵌套在其它Monad transformer中，��需要对其它Monad transformer抽象出来的typeclass instance�Q�符合这�U�规则的Monad transformer��可以相互之间嵌套了(ji��n)�Q�嵌套的层次可以��L��深，�q�样构造出来的Monad里面有个Monad transformer stack�Q�而这个新构造出来的Monad��可以��用多�U�Monad的action操作�l�合在一起了(ji��n)�?/p>

Monad transformer�?x��)带来一个问题，如果惛_��义一个新的Monad transformer�Q�需要先抽象�?gu��)��个Monad transformer的typeclass�Q�就像MonadState typeclass一��P��然后把其它Monad transformer都instance�q�个新抽象出来的typeclass�Q�这��h��能让�q�个新的Monad transformer嵌套在其它的Monad transformer之中�Q�接着�Q��ؓ(f��)�?ji��n)让其它Monad transformer能够嵌套在新的Monad transformer之中�Q�需要把新的Monad transformer instance其它Monad transformer抽象的typeclass�?/p>

我觉得其实Haskell��Z��么会(x��)有Monad和Monad transformer的存在，是因为Haskell是一个纯函数式语�a��Q�它本��n没有��序执行语句的能力，��Z��(ji��n)能让Haskell拥有修改外部状态�ƈ能够��序执行语句的能力，引入�?ji��n)Monad�Q�又��Z��(ji��n)让多�U�action的Monad能够�l�合��C��P��׃��Monad是一个data type�Q�它不能��单的�l�合��C��P��因�ؓ(f��)�c�d��不一��_(d��)��Z��(ji��n)让它们组合到一��P��又引入了(ji��n)更一般化的Monad transformer�Q�让�q�些Monad transformer嵌套在一��h��成一个stack�Q�才能将�q�些不同�c�d��的Monad�l�合�?/p>

Lazy evaluation

Haskell里面使用的是惰性求值方式，王垠�?a >Haskell的惰性求�?/a>是一个很严重的问题。我目前也觉得惰性求值是一�U�负担，因�ؓ(f��)惰性求��|��?x��)��得程序很��?gu��)��出现space leak�Q�我写的那两个版本的�l�计C++代码行工具都有这个问题，因�ؓ(f��)它是惰性求��|��所以它�?x��)把整个目录的数据全部取出来构造存攑ֈ�内存?sh��)��，最后再�q�行求��|��q�就自然��D��l�计大量C++代码文�g的目录时�Q�占用内存�(sh��)��(x��)很高�Q�几百M上G�Q�，也许当我�q�一步学�?f��n)之后，我能够避免这�U�space leak�Q�但�q�对于一个初学Haskell的�h是一个不��的负担�Q�因为随便写一个小�E�序都有可能耗用几百M的内存，而用其他语言实现的话�Q�内存很�Ҏ(gu��)��很自然的控制在几M之内。（看完优化章节�Q�只对程序修改了(ji��n)几行代码��p��内存?sh��)��用降到可以接受的程度，看来Lazy evaluation的问题没之前惛_��的那么严重。）(j��)

airtrack 2013-04-30 20:41 发表评论

字符�~�码

airtrack — Sun, 23 Dec 2012 05:44:00 GMT
     摘要: �q�篇文章是我两年多前写给同事看的�Q�当时不��同事对�~�码�?ji��n)解甚少�Q�直到现在发现还是很多�h对编码了(ji��n)解甚��，所以我��把�q�篇文章发出来让大家参考一下，希望对一些�h有帮助，不过�q�篇文章是当时花�?个小时左叛_��的，错误在所隑օ�。字�W�编码历史计��机�Q�发明在20世纪中期西方国家。计��机内部使用二进制作��C�Z�Q何东西的基础�Q��ؓ(f��)�?ji��n)能够在计算��Z��使用整数、��Q�Ҏ(gu��)��{�都要对其进行编码，只是�q�个�~�码是在��g层的�Q�CPU指��o(h��)�Q�，...  阅读全文

airtrack 2012-12-23 13:44 发表评论

免费欧美视频,99精品国产在热久久婷婷,欧美性色综合

操作�pȝ��实现�Q�三�Q�：(x��)中断

IDT

Spurious IRQs

PIT

中断处理�l�束

分页

分页前后

物理内存���理

内存���理器初始化之前

用Rust写了(ji��n)一个Tunnel

Tunnel逻辑�l�构

操作�pȝ��实现�Q�一�Q�：(x��)从Bootloader到ELF内核

Bootloader

实模式到保护模式

ELF文�g

��Z��么写操作�pȝ��

正则表达式实玎ͼ�三）(j��)

初��分代GC

初��分代GC设计

GC启动的时�?/h2>

�l�语

正则表达式实玎ͼ�二）(j��)

生成epsilon-NFA

epsilon-NFA subset construction to DFA

DFA minimization

学习(f��n)Haskell

字符�~�码

物理内存��理

内存��理器初始化之前