狠狠综合久久,激情成人av,久久精品国产免费

�~�程之道 — Mon, 06 Nov 2006 02:39:00 GMT

原创�Q�司徒�R�?

5.0 �~�译优化概述

优化是一仉��帔R��要的事情。作��Z��个程序设计者，你肯定希望自��q��E�序既小又快。DOS时代的许多书中都提到�Q�“某某编译器能够生成非常紧凑的代码”，换言之，�~�译器会��Z��把代码尽可能地羃减，如果你能够正��地使用它提供的功能的话。目前，Intel x86体系上流行的C/C++�~�译器，包括Intel C/C++ Compiler, GNU C/C++ Compiler�Q�以及最新的Microsoft和Borland�~�译器，都能够提供非常紧凑的代码。正��地使用�q�些�~�译器，则可以得到性能��_��好的代码�?/p>

但是�Q�机器目前还不能像�h那样做富于创造性的事情。因而，有些时候我们可能会不得不手工来做一些事情�?/p>

使用汇编语言优化代码是一件困难，而且技巧性很强的工作。很多编译器能够生成为处理器�q�行�q�特�D�优化处理的代码�Q�一旦进行修改，�q�些�Ҏ��优化可能��׃��被破坏而失效。因此，在你军_��使用自己的汇�~�代码之前，一定要��试一下，到底是编译器生成的那�D�代码更好，�q�是你的更好�?/p>

本章中将讨论一些编译器在某些时候会做的事情(从某�U�意义上��_��本章内容更像是计��机专业的基��课中《编译程序设计原理》、《计��机�l�成原理》、《计��机体系�l�构》课�E�中的相兛_��?。本章的许多内容和汇�~�语�a��E�序设计本��n关系�q�不是很紧密�Q�它们多数是在�ؓ使用汇编语言�q�行优化做准备。编译器��实做这些优化，但它�q�不��L��q�么做；此外�Q�就�~�译器的设计本质来说�Q�它��实没有义务�q�么做——编译器做的是等义变换，而不是等效变换。考虑下面的代码：

// �E�序�D?
int gaussianSum(){
int i, j=0;

for(i=0; i<100; i++) j+=i;

return j;
}

好的�Q�首先，�l�大多数�~�译器恐怕不会自作主张地把它“篡改”�ؓ

// �E�序�D?(改进1)
int gaussianSum(){
int i, j=0;

for(i=1; i<100; i++) j+=i;

return j;
}

多数�Q�但��实不是全部�Q�编译器也不会把它改�?/p>

// �E�序�D?(改进2)
inline int gaussianSum(){
return 5050;
}

�q�两个修改版本都不同于原先程序的语义。首先我们看刎ͼ�让i�?开始是没有必要的，因�ؓj+=i�Ӟ��i=0不会做�Q何有用的事情�Q�然后是�Q�实际上没有必要每一�ơ都计算1+...+100的和——它可以被预先计��，�q�在需要的时候返回�?/p>

�q�个例子也许�q�不恰当(估计没�h会写出最初版本那��L��代码)�Q�但�q�种实践在程序设计中��实可能出现。我们把改进2�U�Cؓ�~�译时表辑ּ�预先计算�Q�而把改进1成�ؓ循环强度削减�?/p>

然而，一些新的编译器的确会进行这两种优化。不�q�别慌，看看下面的代码：

// �E�序�D?
int GetFactorial(int k){
int i, j=1;

if((k<0) || (k>=10)) return -1;

if((k<=1)) return 1

for(i=1; i

return j;
}

�E�序采用的是一个时间复杂度为O(n)的算法，不过�Q�我们可以把他轻易地改�ؓO(1)的算法：

// �E�序�D? (非规范改�q?
int GetFactorial(int k){
int i, j=1;

static const int FractorialTable[]={1, 1, 2, 6, 24,
120, 720, 5040, 40320, 362880, 3628800};

if((k<0) || (k>=10)) return -1;

return FractorialTable[k];
}

�q�是一个典型的以空间换旉��的做法。通用的编译器不会�q�么做——因为它没有办法在编译时��定你是不是要这么改。可以说�Q�如果编译器真的�q�样做的话，那将是一件可怕的事情�Q�因为那时候你��很隄��道编译器生成的代码和自己想的到底有多大的差距�?/p>

当然�Q�这�c�M��化超��Z��本文的范围——基本上�Q�我把它们归入“算法优化”，而不是“程序优化”一�c�R��类似的优化�q�程需要程序设计�h员对于程序逻辑非常深入��C��解和全盘的掌握，同时�Q�也需要有丰富的算法知识�?/p>

自然�Q�如果你希望自己的程序性能有大�q�度的提升，那么首先应该做的是算法优化。例如，把一�?i>O(n²)的算法替换�ؓ一�?i>O(n)的算法，则程序的性能提升��远�q�超�q�对于个别语句的修改。此外，一个已�l�改写�ؓ汇编语言的程序，如果要再在算法上作大�q�度的修改，其工作量��和重写相当。因此，在决定��用汇�~�语�a��q�行优化之前�Q�必��首先考虑��法优化。但假如已经是最优的��法�Q�程序运行速度�q�是不够快怎么办呢�Q?/p>

好的�Q�现在，假定你已�l��用了已知最好的��法�Q�决定把它交�l�编译器�Q�让我们来看看编译器会�ؓ我们做什么，以及我们是否有机会插手此事，做得更好�?/p>

5.1 循环优化�Q�强度削减和代码外提

比较新的�~�译器在�~�译时会自动把下面的代码�Q?/p>

for(i=0; i<10; i++){
j = i;
k = j + i;
}

臛_��变换�?/p>

for(i=0; i<10; i++);
j=i; k=j+i;

甚至

j=i=10; k=20;

当然�Q�真正的�~�译器实际上是在中间代码层次作这件事情�?/p>

原理如果数据��的某个中间�?�E�序执行�q�程中的计算�l�果)在��用之前被另一中间��D��盖，则相兌��不必进行�?/p>

也许有�h会问�Q�编译器不是都给�׃��做了吗，��它做什么？注意�Q�这里说的只是编译系�l�中优化部分的基本设计。不仅在从源代码��C��间代码的�q�程中存在优化问题，而且�~�译器生成的最�l�的机器语言(汇编)代码同样存在�c�M��的问题。目前，几乎所有的�~�译器在最�l�生成代码的�q�程中都有或多或��的瑕疵�Q�这些瑕�늛��?font color="#ff0000">只能依靠手工修改代码来解冟�?/p>

5.2 局部优化：表达式预计算和子表达式提�?/h3>
表达式预先计��非常简单，��是在编译时��可能地计算�E�序中需要计��的东西。例如，你可以毫不犹豫地写出下面的代码：
const unsigned long nGiga = 1024L * 1024L * 1024L;
而不必担心程序每�ơ执行这个语句时作两遍乘法，因�ؓ�~�译器会自动地把它改�?/p>
const unsigned long nGiga = 1073741824L;
而不是傻乎乎地让计算机在执行到这个初始化赋��D��句的时候才计算。当�Ӟ��如果你愿意在上面的代码中��Z��一些变量的话，�~�译器同样会把常数部分先行计��，�q�拿到结果�?/p>
表达式预计算�q�不会让�E�序性能有飞跃性的提升�Q�但��实减少了运行时的计��强度。除此之外，�l�大多数�~�译器会把下面的代码�Q?/p>
// [假设此时b, c, d, e, f, g, h都有一个确定的非零整数��|��q�且�Q?br />// a[]��Z��个包�?个整数元素的数组�Q�其下标�?�?]
a[0] = bc;
a[1] = b+c;
a[2] = de;
a[3] = bd + cd;
a[4] = bde + cde;
优化�?再次��Q�编译器实际上是在中间代码的层次�Q�而不是源代码层次做这件事情！)�Q?/p>
// [假设此时b, c, d, e, f, g, h都有一个确定的非零整数��|��q�且�Q?br />// a[]��Z��个包�?个整数元素的数组�Q�其下标�?�?]
a[0] = bc;
a[1] = b+c;
a[2] = de;
a[3] = a[1] * d;
a[4] = a[3] * e;
更进一步，在实际代码生成过�E�中�Q�一些编译器�q�会对上�q�语句的�ơ序�q�行调整�Q�以使其�q�行效率更高。例如，��语句调整�ؓ下面的次序：
// [假设此时b, c, d, e, f, g, h都有一个确定的非零整数��|��q�且�Q?br />// a[]��Z��个包�?个整数元素的数组�Q�其下标�?�?]
a[0] = bc;
a[1] = b+c;
a[3] = a[1] d;
a[4] = a[3] * e;
a[2] = d*e;
在某些体�pȝ��构中�Q�刚刚计��完的a[1]可以攑ֈ�寄存器中�Q�以提高实际的计��性能。上�q?个计��Q务之��_��只有1, 3, 4三个计算��d��必须串行地执行，因此�Q�在新的处理器上�Q�这样做甚至能够提高�E�序的�ƈ行度�Q�从而�ɽE�序效率变得更高�?/p>

5.3 全局寄存器优�?/h3>
[待修订内�?/font>] 本章中，从这一节开始的所有优化都是在微观层面上的优化了。换�a�之，�q�些优化是不能��用高�U�语�a�中的对应设施�q�行解释的。这一部分内容��进行较大规模的修订�?/i>
通常�Q�此�c�M��化是��q��译器自动完成的。我个�h�q�不推荐真的�׃�h来完成这些工作——这些工作多半是枯燥而重复性的�Q�编译器通常会比人做得更�?没说的，肯定也更�?。但话说回来�Q��用汇�~�语�a�的程序设计�h员有责�Q了解�q�些内容�Q�因为只有这��h��能更好地��N��处理器�?/p>
在前面的几章中我已经提到�q�，寄存器的速度要比内存快。因此，在��用寄存器斚w��Q�编译器一般会做一�U�称为全局寄存器优化的优化�?/p>
例如�Q�在我们的程序中使用�?个变量：i, j, k, l。它们都作�ؓ循环变量使用�Q?/p>
for(i=0; i<1000; i++){
for(j=0; j<1000; j++){
    for(k=0; k<1000; k++){
      for(l=0; l<1000; l++)
        do_something(i, j, k, l);
    }
}
}
�q�段�E�序的优化就不那么简单了。显�Ӟ��按照通常的压栈方法，i, j, k, l应该按照某个��序被压�q�堆栈，然后调用do_something()�Q�然后函数做了一些事情之后返回。问题在于，无论如何压栈�Q�这些东西大概都得进内存(不可否认某些机器可以用CPU的Cache做这件事情，但Cache是写通式的和回写式的又会造成一些性能上的差异)�?/p>
聪明的读者马上就会指出，我们不是可以在定义do_something()的时候加上inline修饰�W�，让它在本地展开吗？没错�Q�本地展开以增加代码量��Z��h��取性能�Q�但�q�只是问题的一半。编译器��管完成了本地展开�Q�但它仍焉��要做许多额外的工作。因为寄存器只有那么有限的几个，而我们却有这么多的��@环变量�?/p>
把四个变量按照它们在循环中��用的频率排序�Q��ƈ军_��在do_something()块中的优先顺�?攑օ�寄存器中的优先顺�?是一个解��x��案。很明显�Q�我们可以按照l, k, j, i的顺�?从高��C��Q�因为l��被�q�行1000100010001000�ơ运��！)来排列，但在实际的问题中�Q�事情往往没有�q�么��单，因�ؓ你不知道do_something()中做的到底是什么。而且�Q�凭什么就以for(l=0; l<1000; l++)作�ؓ优化的分界点呢？如果do_something()中还有��@环怎么办？
如此复杂的计��问题交�l�计��机来做通常会有比较满意的结果。一般说来，�~�译器能够对�E�序中变量的使用�q�行更全面地估计�Q�因此，它分配寄存器的结果有时虽然让��解，但却是最优的(因�ؓ计算��够进行大量的重复计算�Q��ƈ扑ֈ�最好的�Ҏ��Q�而�h做这件事相对来讲比较困难)�?/p>
�~�译器在许多时候能够作出相当让人满意的�l�果。考虑以下的代码：*
int a=0;
for(int i=1; i<10; i++)
for(int j=1; j<100; j++){
    a += (ij);
}
让我们把它变为某�U��Ş式的中间代码�Q?/p>*
00: 0 -> a
01: 1 -> i
02: 1 -> j
03: ij -> t
04: a+t -> a
05: j+1 -> j
06: evaluate j < 100
07: TRUE? goto 03
08: i+1 -> i
09: evaluate i < 10
10: TRUE? goto 02
11: [�l�箋执行�E�序的其余部分]
�E�序中执行强度最大的无疑�?3�?5�q�一�D�，涉及的需要写入的变量包括a, j�Q�需要读出的变量是i。不�q�，最�l�的�~�译�l�果大大��Z��我们的意料。下面是某种优化模式下Visual C++ 6.0�~�译器生成的代码(我做了一些修�?�Q?/p>
xor eax, eax               ; a=0(eax: a)
mov edx, 1                 ; i=1(edx: i)
push esi                   ; 保存esi(最后要恢复�Q�esi作�ؓ代替j的那个��@环变�?
nexti:
mov ecx, edx               ; [t=i]
mov esi, 999               ; esi=999: 此处修改了原�E�序的语义，但仍�?000�ơ��@环�?/font>
nextj:
add eax, ecx               ; [a+=t]
add ecx, edx               ; [t+=i]
dec esi                    ; j--
jne SHORT nextj            ; jne �{��h�?jnz. [如果�q�需要，则再�ơ��@环]
inc edx                    ; i++
cmp edx, 10                ; i�?0比较
jl SHORT nexti             ; i < 10, 再次�?/font>�?br />pop esi                    ; 恢复esi
�q�段代码可能有些令�h费解。主要是因�ؓ它不仅��用了大量寄存器，而且�q�包括了5.2节中曾提到的子表辑ּ�提取技术。表面上看，多引入的那个变量(t)增加了计��时��_��但要注意�Q�这个t不仅不会降低�E�序的执行效率，相反�q�会让它变得更快�Q�因为同样得��C��计算�l�果(本质上，ij��x��W�j�ơ篏加i的�?�Q�但�q�个�l�果不仅用到了上�ơ运��的�l�果�Q�而且�q�省��M��乘法(很显然计��机计算加法要比计算乘法�?�?/p>
�q�里可能会有人问�Q��ؓ什么要�?99循环�?�Q�而不是按照程序中写的那样�?循环�?99呢？�q�个问题和汇�~�语�a�中的取址有关。在下两节中我将提到�q�方面的内容�?/p>

5.4 x86体系�l�构上的�q�行最大化和指令封�?/h3>
考虑�q�样的问题，我和两个同伴现在在山里，�q�处有一口井�Q�我们带着一口锅�Q��n�Ҏ��树林�Q��n上的饮用水已�l�喝光了�Q�此处允许砍柴和使用明火(当然我们不想引�v火灾:)�Q�需要烧一锅水�Q�应该怎么样呢�Q?/p>
一�U�方案是�Q�三个�h一��h��Ӟ��一��L��_��一��h��_��一��h��水烧开�?/p>
另一�U�方案是�Q�一个�h搭灶�Q�此时另一个�h�ȝ��_��W�三个�h打水�Q�然后把水烧开�?/p>
�q�两�U�方案画出图来是�q�样�Q?/p>
仅仅�q�样很难说明两个�Ҏ��C��孰劣�Q�因为我们�ƈ不明��三个�h一��h��水、一��L��柴、一��h��灶的效率更高�Q�还是分别作效率更高(通常的想法，一起做也许效率会更�?。但假如��_��三个��Z��个只会搭�Ӟ��一个只会砍��_��一个只会打�?当然是说�q�三件事�?�Q�那么，�Ҏ��2的效率就会搞一些了�?/p>
在现实生�z�M��Q�某个�h拥有专长是比较普遍的情况�Q�在设计计算机硬件的时候则更是如此。你不可能指望加法器不做��M��改动��p��d��U�M��甚至整数乘法�Q�然而我们注意到�Q�串行执行的�E�序不可能在同一时刻同时用到处理器的所有功能，因此�Q�我�?很自然地)会希望有一些指令�ƈ行地执行�Q�以充分利用CPU的计��资源�?/p>
CPU执行一条指令的�q�程基本上可以分��Z��面几个阶�D�：取指令、取数据、计��、保存数据。假设这4个阶�D�各需�?个时钟周期，那么�Q�只要资源够用，�q�且4条指令之间不存在串行关系(换言之这些指令的执行先后�ơ序不媄响最�l�结果，或者，更严格地��_��没有��M��一条指令依赖其他指令的�q�算�l�果)指��o也可以像下面�q�样执行�Q?/p>
指��o1 取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td> 　　　
指��o2 　取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td> 　　
指��o3 　　取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td> 　
指��o4 　　　取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td>
�q�样�Q�原本需�?6个时钟周期才能够完成的�Q务就可以�?个时钟周期内完成�Q�时间羃短了一半还多。如果考虑灰色的那些方�?�q�些�Ҏ��可以�?条指令以外的其他指��o使用�Q�只要没有串行关�p�L��冲突)�Q�那么，如此执行对于性能的提升将是相当可观的(此时�Q�CPU的所有部仉��得到了充分利�?�?/p>
当然�Q�作为程序来��_��真正做到�q�样是相当理惛_��的情��c��实际的�E�序中很隑ց�到彻底的�q�行化。假设CPU能够支持4条指令同时执行，�q�且�Q�每条指令都是等周期长度�?周期指��o�Q�那么，�E�序需要保证同一时刻先后发射�?条指令都能够�q�行执行�Q�相互之间没有关联，�q�通常是不太可能的�?/p>
最新的Intel Pentium 4-XEON处理器，以及Intel Northwood Pentium 4都提供了一�U�被�U�Cؓ��线�E?Hyper-Threading^TM)的技术。该技术通过在一个处理器中封装两�l�执行机构来提高指��o�q�行度，�q�依靠操作系�l�的调度来进一步提升系�l�的整体效率�?/p>
�׃��U�程机制是与操作�pȝ��密切相关的，因此�Q�在本文的这一部分中不可能做更为深入地探讨。在后箋的章节中�Q�我��介�l�Win32、FreeBSD 5.x以及Linux中提供的内核�U�线�E�机�?�q�三�U�操作系�l�都支持SMP及超�U�程技术，�q�且以线�E�作��度单�?在汇�~�语�a�中的使用�Ҏ��?/p>
关于�U�程的讨论就此打住，因�ؓ它更多地依赖于操作系�l�，�q�且�Q�无论如何，操作�pȝ��的线�E�调度需要更大的开销�q�且�Q�到目前为止�Q�真正��用支持超�U�程的CPU�Q��ƈ且��用相应操作系�l�的人是非常��的。因此，我们需要关心的实际上还是同一执行序列中的�q�发执行和指令封包。不�q�，令�h遗憾的是�Q�实际上在这斚w��~�译器做的几乎是肯定要比人好�Q�因此，你需要做的只是开启相应的优化�Q�如果你的编译器不支持这��L��Ҏ��，那么��把它扔掉……据我所知，目前在Intel�q�_��上指令封包方面做的最好的是Intel的C++�~�译器，�l�过Intel�~�译器编译的代码的性能令�h惊异地高�Q�甚臛_��AMD公司推出的兼容处理器上也是如此�?/p>
5.5 存储优化
从前一节的图中我们不难看出�Q�方�?中，如果谁的动作慢，那么他就会成为性能的瓶颈。实际上�Q�CPU也不会像我描�q�的那样四��^八稳地运行，指��o执行的不同阶�D�需要的旉��(旉��周期�?是不同的�Q�因此，�~�短关键步骤(卻I��造成瓉��的那个步�?是羃短执行时间的关键�?/p>
臛_��对于使用Intel�p�d��的CPU来说�Q�取数据�q�个步骤需要消耗比较多的时间。此外，假如数据跨越了某�U�边�?�?�?字节�Q�与CPU的字长有�?�Q�则CPU需要启动两�ơ甚��x��多次数的��d��存操作，�q�无疑对性能构成不利影响�?/p>
��Z��q�样的原因，我们可以得到下面的设计策略：

�E�序设计中的内存数据讉K��{�略
��可能减��对于内存的讉K��。在不违背这一原则的前提下�Q�如果可能，��数据一�ơ处理完�?
��可能将数据�?�?字节寚w��Q�以利于CPU存取
��可能一�D�|��间内讉K��范围不大的一�D�内存，而不同时讉K��大量�q�距��ȝ��分散数据�Q�以利于Cache�~�存*
�W�一条规则比较简单。例如，需要求一�l�数据中的最大倹{��最��倹{��^均数�Q�那么，最好是在一�ơ��@环中做完�?/p>
“于是，�q�家伙又攒了一�D�代码”…�?/p>
int a[]={1,2,3,4,5,6,7,8,9,0,1,2,3,4,5,6,7,8,9,0};
int i;
int avg, max, min;
avg=max=min=a[0];
for(i=1; i<(sizeof(a)/sizeof(int)); i++){
avg+=a[i];
if(max < a[i])
    max = a[i];
elseif(min > a[i])
    min = a[i];
}
avg /= i;
Visual C++�~�译器把最开始一�D�赋��D��句翻译成了一�D늮�直可以说是匪��h��思的代码�Q?/p>
; int a[]={1,2,3,4,5,6,7,8,9,0,1,2,3,4,5,6,7,8,9,0};

mov edi, 2                         ; 此时edi没有意义
mov esi, 3                         ; esi也是�Q��时变量而已�?/font>
mov DWORD PTR _a$[esp+92], edi
mov edx, 5                         ; 黑名单加上edx
mov eax, 7                         ; eax也别�?)
mov DWORD PTR _a$[esp+132], edi
mov ecx, 9                         ; ��差你了�Q�ecx

; int i;
; int avg, max, min;
; avg=max=min=a[0];

mov edi, 1                         ; edi摇��n一变，现在它是min了�?/font>
mov DWORD PTR _a$[esp+96], esi
mov DWORD PTR _a$[esp+104], edx
mov DWORD PTR _a$[esp+112], eax
mov DWORD PTR _a$[esp+136], esi
mov DWORD PTR _a$[esp+144], edx
mov DWORD PTR _a$[esp+152], eax
mov DWORD PTR _a$[esp+88], 1       ; �~�译器失�? 此处edi应更�?/font>
mov DWORD PTR _a$[esp+100], 4
mov DWORD PTR _a$[esp+108], 6
mov DWORD PTR _a$[esp+116], 8
mov DWORD PTR _a$[esp+120], ecx
mov DWORD PTR _a$[esp+124], 0
mov DWORD PTR _a$[esp+128], 1
mov DWORD PTR _a$[esp+140], 4
mov DWORD PTR _a$[esp+148], 6
mov DWORD PTR _a$[esp+156], 8
mov DWORD PTR _a$[esp+160], ecx
mov DWORD PTR _a$[esp+164], 0
mov edx, edi                      ; edx是max�?/font>
mov eax, edi                      ; 期待已久的avg, 它被指定为eax
�q�段代码是最优的吗？我个��Z��是。因为编译器完全可以在编译过�E�中直接把它们作为常量数据放入内存。此外，如果预先对a[0..9]10个元素赋��|��q�利用串操作指��o(rep movsdw)�Q�速度会更快一些�?/p>
当然�Q�犯不上因�ؓ�q�些问题责怪编译器。要求编译器知道a[0..9]和[10..19]的内容一��h��免过于苛刅R��我们看看下面的指��o�D�：
; for(i=1; ...

mov esi, edi
for_loop:

; avg+=a[i];

mov ecx, DWORD PTR _a$[esp+esi4+88]
add eax, ecx

; if(max < a[i])

cmp edx, ecx
jge SHORT elseif_min

; max = a[i];

mov edx, ecx

; else if(min > a[i])

jmp SHORT elseif_min
elseif_min:
cmp edi, ecx
jle SHORT elseif_end

; min = a[i];
mov edi, ecx

elseif_end:

; [for i=1]; i<20; i++){

inc esi
cmp esi, 20
jl SHORT for_loop

; }
; avg /= i;

cdq
idiv esi

; esi: i

; ecx: 暂存变量, =a[i]
; eax: avg

; edx: max

; 有趣的代�?..�q�不是所有的时候都有用
; 但是也别随便删除
; edi: min

; i++
; i�?0比较

; avg /= i
上面的程序倒是没有什么惊��Z��处。唯一一个比较吓人的东西是那个jmp SHORT指��o�Q�它是否有用取决于具体的问题。C/C++�~�译器有时会产生�q�样的代码，我过��L��l�错误地把所有的此类指��o当作没用的代码而删掉，后来发现�E�序执行旉��没有明显的变化。通过查阅文档才知道，�q�类指��o实际上是“占位指令”，他们存在的意义在于占据那个地方，一来��其他语句能够正确地按CPU觉得舒服的方式对齐，二来它可以占据CPU的某些周期，使得后箋的指令能够更好地�q�发执行�Q�避免冲�H�。另一个比较常见的、实现类似功能的指��o是NOP�?/p>
占位指��o的去留主要是靠计时执行来判断。由于目前流行的操作�pȝ��基本上都是多��d��的，因此会对计时的精��性有一定媄响。如果需要进行测试的话，需要保证以下几点：

计时��试需要注意的问题
��试必须在没有额外负��L��机器上完成。例如，专门用于�~�写和调试程序的计算�?
��量�l�止计算��Z��q�行的所有服务，特别是杀毒程�?
切断计算机的�|�络�Q�这��L��l�的影响会消�?
��进�E�优先��调高。对于Windows�pȝ��来说�Q�把�q�程(�U�程)讄��为Time-Critical; 对于nix�pȝ��来说�Q�把�q�程讄��为实时进�E?
��测试函数运行尽可能多次�q�行�Q�如10000000�ơ，�q�样能够减少�׃��q�城切换而造成的偶然误�?
最后，如果可能的话�Q�把函数攑ֈ�单进�E�的�pȝ��(例如FreeDOS)中运行�?/li>
对于�l�大多数�E�序来说�Q�计时测试是一个非帔R��要的东西。我个�h們֐�于在�q�行优化后进行计时测试�ƈ比较�l�果。目前，我基于经验进行的优化基本上都能够提高�E�序的执行性能�Q�但我还是不敢过于自信。优化确实会提高性能�Q�但人做的和�~�译器做的思�\不同�Q�有�Ӟ��我们的确会做一些费力不讨好的事情�?/p>

�~�程之道 2006-11-06 10:39 发表评论

�~�程之道 — Mon, 06 Nov 2006 02:36:00 GMT
原创�Q�司徒�R�?

4.0 利用子程序与中断
已经掌握了汇�~�语�a��Q�没错，你现在已�l�可以去破译别�h代码中的�U�密。然而，我们�q�有一仉��要的东西没有提到�Q�那��是自程序和中断。这两�g东西是如此的重要�Q�以至于你的�E�序几乎不可能离开它们�?/p>
4.1 子程�?/h4>
在高�U�语�a�中我们经常要用到子程序。高�U�语�a�中，子程序是如此的神奇，我们能够定义和主�E�序�Q�或其他子程序一��L��变量名，而访问不同的变量�Q��ƈ且，�q�不和程序的其他部分相冲�H��?/p>
然而遗憄��是，�q�种“优劎쀝在汇编语言中是不存在的�?/p>
汇编语言�q�不注重如何减轻�E�序员的负担�Q�相反，汇编语言依赖�E�序员的良好设计�Q�以期发挥CPU的最��x��能。汇�~�语�a�不是�l�构化的语言�Q�因此，它不提供直接的“局部变量”。如果需要“局部变量”，只能通过堆或栈自行实现�?/p>
从这个意义上�Ԍ��汇编语言的子�E�序更像GWBASIC中的GOSUB调用的那些“子�E�序”。所有的“变量�?本质上，属于�q�程的内存和寄存�?为整个程序所�׃�n�Q�高�U�语�a��~�译器所做的�Q�将局部变量放到堆或栈中的操作�Q�只能自行实现�?/p>
参数的传递是靠寄存器和堆栈来完成的。高�U�语�a�中，子程�?函数、过�E�，或类似概�늚�东西)依赖于堆和栈来传递�?/p>
让我们来��单地分析一下一般高�U�语�a�的子�E�序的执行过�E�。无论C、C++、BASIC、Pascal�Q�这一部分基本都是一致的�?/p>

调用者将子程序执行完成时应返回的地址、参数压入堆�?
子程序��用BP指针+偏移量对栈中的参数寻址�Q��ƈ取出、完成操�?
子程序��用RET或RETF指��o�q�回。此�Ӟ��CPU��IP�|��ؓ堆栈中保存的地址�Q��ƈ�l�箋予以执行
毋庸�|�疑�Q�堆栈在整个�q�程中发挥着非常重要的作用。不�q�，本质上对子程序最重要的还是返回地址。如果子�E�序不知道这个地址�Q�那么系�l�将会崩溃�?/p>
调用子程序的指��o是CALL�Q�对应的�q�回指��o是RET。此外，�q�有一�l�指令，即ENTER和LEAVE�Q�它们可以帮助进行堆栈的�l�护�?/p>
CALL指��o的参数是被调用子�E�序的地址。��用宏汇编的时候，�q�通常是一个标受��CALL和RET�Q�以及ENTER和LEAVE配对�Q�可以实现对于堆栈的自动操作�Q�而不需要程序员�q�行PUSH/POP�Q�以及蟩转的操作�Q�从而提高了效率�?/p>
作�ؓ一个编译器的实现实例，我用Visual C++�~�译了一�D�C++�E�序代码�Q�这�D�|��~�代码是使用特定的编译选项得到的结果，正常的RELEASE代码会比它精��得多。包含源代码的部分反汇编�l�果如下(取自Visual C++调试器的�q�行�l�果�Q�我删除�?0条int 3指��o�Q��ƈ加上了一些注释，除此之外�Q�没有做��M��修改)�Q?/p>
1: int myTransform(int nInput){
00401000 push ebp                   ; 保护现场原先的EBP指针
00401001 mov ebp,esp
2: return (nInput*2 + 3) % 7;
00401003 mov eax,dword ptr [nInput] ; 取参�?/font>
00401006 lea eax,[eax+eax+3]        ; LEA比ADD加法更快
0040100A cdq                        ; DWORD->QWORD(扩展字长)
0040100B mov ecx,7                  ; 除数
00401010 idiv eax,ecx               ; �?/font>
00401012 mov eax,edx                ; �?>eax(eax中保存返回�?
3: }
00401014 pop ebp                    ; 恢复现场的ebp指针
00401015 ret                        ; �q�回
; 此处删除10条int 3指��o�Q�它们是方便调试用的�Q��ƈ不媄响程序行为�?/font>
4:
5: int main(int argc, char* argv[])
6: {
00401020 push ebp                   ; 保护现场原先的EBP指针
00401021 mov ebp,esp
00401023 sub esp,10h                ; 为取argc, argv修正堆栈指针�?br />7:int a[3];
8:for(register int i=0; i<3; i++){
00401026 mov dword ptr [i],0        ; 0->i
0040102D jmp main+18h (00401038)    ; 判断循环条�g
0040102F mov eax,dword ptr [i]      ; i->eax
00401032 add eax,1                  ; eax ++
00401035 mov dword ptr [i],eax      ; eax->i
00401038 cmp dword ptr [i],3        ; 循环条�g: i�?比较
0040103C jge main+33h (00401053)    ; 如果不符合条�Ӟ��则应�l�束循环
9: a[i] = myTransform(i);
0040103E mov ecx,dword ptr [i]      ; i->ecx
00401041 push ecx                   ; ecx (i) -> 堆栈
00401042 call myTransform (00401000); 调用myTransform
00401047 add esp,4                  ; esp+=4: 在堆中的新单�?br />                                    ; 准备存放�q�回�l�果
0040104A mov edx,dword ptr [i]      ; i->edx
0040104D mov dword ptr a[edx*4],eax ; ��eax(myTransform�q�回�?
                                    ; 攑֛�a[i]
10: }
00401051 jmp main+0Fh (0040102f)    ; 计算i++�Q��ƈ�l�箋循环
11:return 0;
00401053 xor eax,eax                ; �q�回值应该是0
12: }
00401055 mov esp,ebp                ; 恢复堆栈指针
00401057 pop ebp                    ; 恢复BP
00401058 ret                        ; �q�回调用�?C++�q�行环境)
上述代码��实做了一些无用功�Q�当�Ӟ��q�是因�ؓ�~�译器没有对�q�段代码�q�行优化。让我们来关注一下这�D�代码中�Q�是如何调用子程序的。不考虑myTransform�q�个函数实际�q�行的数��D��，最让我感兴��的是这一行代码：
00401003 mov eax,dword ptr [nInput] ; 取参�?/font>
�q�里nInput是一个简��单单的变量符号吗�Q�Visual C++的调试器昄��不能告诉我们�{�案——它的设计目标是��Z��方便�E�序调试�Q�而不是向你揭�C�编译器生成的代码的实际构造。我用另外一个反汇编器得到的�l�果是：
00401003 mov eax,dword ptr [ebp+8] ; 取参�?/font>
�q�和我们在main()中看到的压栈��序是完全吻合的(注意�Q�程序运行到�q�个地方的时候，EBP=ESP)。main()最�l�将i�?b>�?/b>通过堆栈传递给了myTransform()�?/p>
剖析上面的程序只是说明了我前面所提到的子�E�序的一部分用法。对于汇�~�语�a�来说�Q�完全没有必要拘泥于�l�构化程序设计的框架(在今天，使用汇编的主要目的在于提高执行效率，而不是方便程序的�l�护和调试，因�ؓ汇编不可能在�q�一点上做得比C++更好)。考虑下面的程序：
void myTransform1(int nCount, char* sBytes){
for(register int i=1; i    sBytes[i] += sBytes[i-1];
for(i=0; i    sBytes[i] <<= 1;
}

void myTransform2(int nCount, char* sBytes){
for(register int i=0; i    sBytes[i] <<= 1;
}
很容易看出，�q�两个函数包含了公共部分�Q�即
for(i=0; i    sBytes[i] <<= 1;
目前�Q�还没有�~�译器能够做到将�q�两部分合�ƈ。依然沿用刚才的�~�译选项�Q�得到的反汇�~�结果是(同样地删除了int 3)�Q?/p>
1:void myTransform1(int nCount, char* sBytes){
00401000 push ebp
00401001 mov ebp,esp
00401003 push ecx
2:for(register int i=1; i00401004 mov dword ptr [i],1
0040100B jmp myTransform1+16h (00401016)
0040100D mov eax,dword ptr [i]
00401010 add eax,1
00401013 mov dword ptr [i],eax
00401016 mov ecx,dword ptr [i]
00401019 cmp ecx,dword ptr [nCount]
0040101C jge myTransform1+3Dh (0040103d)
3: sBytes[i] += sBytes[i-1];
0040101E mov edx,dword ptr [sBytes]
00401021 add edx,dword ptr [i]
00401024 movsx eax,byte ptr [edx-1]
00401028 mov ecx,dword ptr [sBytes]
0040102B add ecx,dword ptr [i]
0040102E movsx edx,byte ptr [ecx]
00401031 add edx,eax
00401033 mov eax,dword ptr [sBytes]
00401036 add eax,dword ptr [i]
00401039 mov byte ptr [eax],dl
0040103B jmp myTransform1+0Dh (0040100d)
4:for(i=0; i0040103D mov dword ptr [i],0
00401044 jmp myTransform1+4Fh (0040104f)
00401046 mov ecx,dword ptr [i]
00401049 add ecx,1
0040104C mov dword ptr [i],ecx
0040104F mov edx,dword ptr [i]
00401052 cmp edx,dword ptr [nCount]
00401055 jge myTransform1+6Bh (0040106b)
5: sBytes[i] <<= 1;
00401057 mov eax,dword ptr [sBytes]
0040105A add eax,dword ptr [i]
0040105D mov cl,byte ptr [eax]
0040105F shl cl,1
00401061 mov edx,dword ptr [sBytes]
00401064 add edx,dword ptr [i]
00401067 mov byte ptr [edx],cl
00401069 jmp myTransform1+46h (00401046)
6: }
0040106B mov esp,ebp
0040106D pop ebp
0040106E ret
7:
8:void myTransform2(int nCount, char* sBytes){
00401070 push ebp
00401071 mov ebp,esp
00401073 push ecx
9:for(register int i=0; i00401074 mov dword ptr [i],0
0040107B jmp myTransform2+16h (00401086)
0040107D mov eax,dword ptr [i]
00401080 add eax,1
00401083 mov dword ptr [i],eax
00401086 mov ecx,dword ptr [i]
00401089 cmp ecx,dword ptr [nCount]
0040108C jge myTransform2+32h (004010a2)
10: sBytes[i] <<= 1;
0040108E mov edx,dword ptr [sBytes]
00401091 add edx,dword ptr [i]
00401094 mov al,byte ptr [edx]
00401096 shl al,1
00401098 mov ecx,dword ptr [sBytes]
0040109B add ecx,dword ptr [i]
0040109E mov byte ptr [ecx],al
004010A0 jmp myTransform2+0Dh (0040107d)
11: }
004010A2 mov esp,ebp
004010A4 pop ebp
004010A5 ret
12:
13:int main(int argc, char* argv[])
14: {
004010B0 push ebp
004010B1 mov ebp,esp
004010B3 sub esp,0CCh
15:char a[200];
16:for(register int i=0; i<200; i++)a[i]=i;
004010B9 mov dword ptr [i],0
004010C3 jmp main+24h (004010d4)
004010C5 mov eax,dword ptr [i]
004010CB add eax,1
004010CE mov dword ptr [i],eax
004010D4 cmp dword ptr [i],0C8h
004010DE jge main+45h (004010f5)
004010E0 mov ecx,dword ptr [i]
004010E6 mov dl,byte ptr [i]
004010EC mov byte ptr a[ecx],dl
004010F3 jmp main+15h (004010c5)
17: myTransform1(200, a);
004010F5 lea eax,[a]
004010FB push eax
004010FC push 0C8h
00401101 call myTransform1 (00401000)
00401106 add esp,8
18: myTransform2(200, a);
00401109 lea ecx,[a]
0040110F push ecx
00401110 push 0C8h
00401115 call myTransform2 (00401070)
0040111A add esp,8
19:return 0;
0040111D xor eax,eax
20: }
0040111F mov esp,ebp
00401121 pop ebp
00401122 ret
非常明显圎ͼ�0040103d-0040106e�?0401074-004010a5�q�两�D�代码存在少量的差别�Q�但很显然只是对寄存器的偏好不同(�~�译器在优化�Ӟ��q�可能会减少堆栈操作�Q�从而提高性能�Q�但在这里只是��用了不同的寄存器而已)
对代码进行合�q�的好处是非常明昄��。新的操作系�l�往往使用��式内存��理。当内存不��Ӟ��E�序往往会频�J�引发页面失�?Page faults)�Q�从而引发操作系�l�从��盘中读取一些东�ѝ��磁盘的速度赶不上内存的速度�Q�因此，�q�一行�ؓ��导致性能的下降。通过合�ƈ一部分代码�Q�可以减��程序的大小�Q�这意味着减少��面失效的可能性，从而��Y件的性能会有所提高?/p>
当然�Q�这样做的代价也不算低——你的程序将变得难懂�Q��ƈ且难于维护。因此，再进行这��L��优化之前�Q�一定要注意�Q?/p>

优化前的�E�序必须是正��的。如果你不能��保�q�一点，那么�q�种优化必将�l�你的调试带来极大的�ȝ��?
优化前的�E�序实现最�?/font>是最优的。仔�l�检查你的设计，看看是否已经使用了最合�?卻I��对于此程序而言最�?的算法，�q�且已经在高�U�语�a�许可的范围内�q�行了最好的实现�?
优化最�?/font>能够非常有效地减��程序大��?例如�Q�如果只是减��十几个字节�Q�恐怕就没什么必要了)�Q�或非常有效地提高程序的�q�行速度(如果代码只是�q�行一�ơ，�q�且只是节省几个旉��周期�Q�那么在多数场合都没有意�?。否则，�q�种优化��得不偿失�?/li>
4.2 中断
中断应该说是一个陈旧的话题。在新的�pȝ��中，它的作用正在逐渐被削弱，而变成操作系�l�专用的东西。�ƈ不是所有的计算机系�l�都提供中断�Q�然而在x86�pȝ��中，它的作用是不可替代的�?/p>
中断实际上是一�cȝ��D�的子程序。它通常��q��l�调用，以响应突发事件�?/p>
例如�Q�进行磁盘操作时�Q��ؓ了提高性能�Q�可能会使用DMA方式�q�行操作。CPU向DMA控制器发出指令，要求外设和内存直接交换数据，而不通过CPU。然后，CPU转去�q�行起他的操作；当数据交换结束时�Q�CPU可能需要进行一些后�l�操作，但此时它如何才能知道DMA已经完成了操作呢�Q?/p>
很显然不是依靠CPU��L��询状态——这样DMA的优势就不明显了。�ؓ了尽可能地利用DMA的优势，在完成DMA操作的时候，DMA会告诉CPU“这事儿我办完了”，然后CPU会根据需要进行处理�?/p>
�q�种处理可能很复杂，需要若�q�条指��o来完成。子�E�序是一个不错的��L��Q�不�q�，CALL指��o需要指定地址�Q�让外设��CPU执行一条CALL指��o也违背了CPU作�ؓ核心控制单元的设计初街��考虑到这些，在x86�pȝ��中引入了中断向量的概��c�?/p>
中断向量表是保存在系�l�数据区(实模式下�Q�是0:0开始的一�D�区�?的一�l�指针。这�l�指针指向每一个中断服务程序的地址。整个中断向量表的结构是一个线性表�?/p>
每一个中断服务有自己的唯一的编��P��我们通常�U�C��Z��断号。每一个中断号对应中断向量表中的一��，也就是一个中断向量。外讑֐�CPU发出中断��h��Q�而CPU自己��根据当前的�E�序状态决定是否中断当前程序�ƈ调用相应的中断服务�?/p>
不难�Ҏ��造成中断的原因将中断分�ؓ两类�Q�硬件中断和软�g中断。硬件中断有很多分类�Ҏ��Q�如�Ҏ��是否可以屏蔽分类、根据优先��高低分类�Q�等�{�。考虑到这些分�c�dƈ不一定科学，�q�且对于我们介绍中断的��用没有太大的帮助�Q�因此我�q�不打算太详�l�地介绍�?在本教程的高�U�篇中，关于加密解密的部分会提到某些��g中断的利用，但那是后�?�?/p>
在设计操作系�l�时�Q�中断向量的概念曄��带来�q�很大的便利。操作系�l�随时可能升�U�，�q�样�Q�通过CALL来调用操作系�l�的服务(如果说每个程序都包含对于文�g�pȝ��、进�E�表�q�些应该由操作系�l�管理的数据的直接操作的话，不仅会造成�E�序的臃肿，而且不利于系�l�的安全)��显得不太合适了——没��知道�Q�以后的操作�pȝ��的服务程序入口点会不会是那儿。��Y件中断的存在��册��个问题提供了方便�?/p>
对于一台包含了BIOS的计��机来说�Q�启动的时候系�l�已�l�提供了一部分服务�Q�例如显�C�服务。无��Z��的BIOS、显�C�卡有多么的“个性”，只要他们和IBM PC兼容�Q�那么此时你肯定可以通过调用16(10h)号中断来使用昄��服务。调用中断的指��o�?/p>

int 中断�?br />
�q�将引发CPU去调用一个中断。CPU��保存当前的�E�序状态字�Q�清除Trap和Interrupt两个标志�Q�将卛_��执行的指令地址压入堆栈�Q��ƈ调用中断服务(�Ҏ��中断向量�?�?/p>
�~�写中断服务�E�序不是一件容易的事情。很多时候，中断服务�E�序必须写成可重入代�?/b>(或纯代码�Q�pure code)。所谓可重入代码是指�Q�程序的�q�行�q�程中可以被打断�Q��ƈ由开始处再次执行�Q��ƈ且在合理的范围内(多次重入�Q�而不造成堆栈溢出�{�其他问�?�Q�程序可以在被打断处�l�箋执行�Q��ƈ且执行结果不受媄响�?/p>
�׃��在多�U�程环境中等其他一些地方进行程序设计时也需要考虑�q�个因素�Q�因此这里着重讲一下可重入代码的编写�?/p>
可重入代码最主要的要求就是，�E�序不应使用某个指定的内存地址的内�?对于高��语言来说�Q�这通常是全局变量�Q�或对象的成�?。如果可能的话，应��用寄存器�Q�或其他方式来解冟뀂如果不能做到这一点，则必��d��开始、结束的时候分别禁止和启用中断�Q��ƈ且，�q�行旉��不能太长�?/p>
下面用C语言分别举一个可重入函数�Q�和两个非可重入函数的例�?�? �q�些例子应该是在某本多线�E�或操作�pȝ��的书上看到的�Q�遗憄��是我想不��h��是哪本书了，在这里先感谢那位作者提供的范例)�Q?/p>
可重入函敎ͼ�
void strcpy(char* lpszDest, char* lpszSrc){
while(*dest++=*src++);
*dest=0;
}
非可重入函数
char cTemp;                                   // 全局变量

void SwapChar(char* lpcX, char* lpcY){
cTemp = *lpcX; *lpcX = *lpcY; lpcY = cTemp; // 引用了全局变量�Q�在分��n内存的多个线�E�中可能造成问题
}
非可重入函数
void SwapChar2(char* lpcX, char* lpcY){
static char cTemp;                          // 静态变�?/font>
cTemp = *lpcX; *lpcX = *lpcY; lpcY = cTemp; // 引用了静态变量，在分享内存的多个�U�程中可能造成问题
}
中断利用的是�pȝ��的栈。栈操作是可重入�?因�ؓ栈可以保证“先�q�后出�?�Q�因此，我们�q�不需要考虑栈操作的重入问题。��用宏汇编器写出可重入的汇�~�代码需要注意一些问题。简单地��_��q�脆不要用标号作为变量是一个不错的��L��?/p>
使用高��语言�~�写可重入程序相�Ҏ��讲轻松一些。把持住不访问那些全局(或当前对象的)变量�Q�不使用静态局部变量，坚持只适用局部变量，写出的程序就��是可重入的�?/p>
书归正传�Q�调用��Y件中断时�Q�通常都是通过寄存器传�q�、传出参数。这意味着你的int指��o周围也许会存在一些“帮手”，比如下面的代码：
mov ax, 4c00h
int 21h
��是通过调用DOS中断服务�q�回父进�E�，�q�带回错误反馈码0。其中，ax中的数据4c00h��是传递给DOS中断服务的参数�?/p>
到这里，x86汇编语言的基��部分��基本上讲完了，《简明x86汇编语言教程》的初�񔽋�——汇�~�语�a�基础也就到此告一�D�落。当�Ӟ��目前为止�Q�我只是蜻蜓�Ҏ��一般提��C��一些学习x86汇编语言中我认�ؓ需要注意的重要概念。许多东西，包括全部汇编语句的时序特�?指��o执行周期敎ͼ�以及指��o周期中各个阶�D늚�节拍数等)、功能、参数等�{�，限于个�h水��^和篇�q�我都没有作详细介绍。如果您对这些内�Ҏ��兴趣�Q�请参考Intel和AMD两大CPU供应商网站上提供的开发�h员参考�?/p>
在以后的��明x86汇编语言教程中�񔽋�和高�񔽋�中�Q�我��着重介�l�汇�~�语�a�的调试技术、优化，以及一些具体的应用技巧，包括反跟�t�、反反跟�t�、加密解密、病毒与反病毒等�{��?/p>

�~�程之道 2006-11-06 10:36 发表评论

��明x86汇编语言教程�Q�五�Q?

�~�程之道 — Mon, 06 Nov 2006 02:33:00 GMT
原创�Q�司徒�R�?br />
3.4 串操�?/h3>
我们前面已经提到�Q�内存可以和寄存器交换数据，也可以被赋予立即数。问题是�Q�如果我们需要把内存的某部分内容复制到另一个地址�Q�又怎么做呢�Q?/p>
设想��DS:SI处的�q�箋512字节内容复制到ES:DI�Q�先不考虑可能的重叠）。也�怼�有�h写出�q�样的代码：

NextByte: mov cx,512
mov al,ds:[si]
mov es:[di],al
inc si
inc di
loop NextByte ; 循环�ơ数
我不喜欢上面的代码。它的确能达��C��用，但是�Q�效率不好。如果你是在做优化，那么写出�q�样的代码意味着赔了夫�h又折��c�?/p>
Intel的CPU的强��Ҏ��串操作。所谓串操作��是由CPU��d��成某一数量的、重复的内存操作。需要说明的是，我们常用的KMP��法�Q�用于匹配字�W�串中的模式�Q�的改进——Boyer��法�Q�由于没有利用串操作�Q�因此在Intel的CPU上的效率�q��最优。好的编译器往往可以利用Intel CPU的这一�Ҏ��优化代码，然而，�q��所有的时候它都能产生最好的代码�?/p>
某些指��o可以加上REP前缀�Q�repeat, 反复之意�Q�，�q�些指��o通常被叫做串操作指��o�?/p>
举例来说�Q�STOSD指��o��EAX的内容保存到ES:DI�Q�同时在DI上加或减四。类似的�Q�STOSB和STOSW分别�?字节�?字的上述操作�Q�在DI上加或减的数�?�?�?/p>
计算��a�通常是不允许二义性的。�ؓ什么我要说“加或减”呢�Q�没错，孤立地看STOS?指��o�Q��ƈ不能知道到底是加�q�是减，因�ؓ�q�取决于“方向”标�?DF, Direction Flag)。如果DF被复位，则加�Q�反之则减�?/p>
�|�位、复位的指��o分别是STD和CLD�?/p>
当然�Q�REP只是几种可用前缀之一。常用的�q�包括REPNE�Q�这个前�~�通常被用来比较两个串�Q�或搜烦某个特定字符�Q�字、双字）。REPZ、REPE、REPNZ也是非常常用的指令前�~��Q�分别代表ZF(Zero Flag)在不同状态时重复执行�?/p>
下面说三个可以复制数据的指��o�Q?/p>
助记�W?/font> 意义
movsb ��DS:SI的一字节复制到ES:DI�Q�之后SI++、DI++
movsw ��DS:SI的一字节复制到ES:DI�Q�之后SI+=2、DI+=2
movsd ��DS:SI的一字节复制到ES:DI�Q�之后SI+=4、DI+=4
于是上面的程序改写�ؓ
cld
mov cx, 128
rep movsd ; 复位DF
; 512/4 = 128�Q�共128个双�?br />; 行动�Q?/font>
�W�一句cld很多时候是多余的，因�ؓ实际写程序时�Q�很��会出现�|�DF的情��c��不�q�在正式军_��删掉它之前，��你仔�l�地调试自己的程序，�q�确认每一个能够走到这里的路径中都不会��DF�|�位�?/p>
错误�Q�非预期的）的DF是危险的。它很可能断送掉你的�E�序�Q�因��直接造成�~�冲区溢�?/b>问题�?/p>
什么是�~�冲区溢出呢�Q�缓冲区溢出分�ؓ两类�Q�一�c�L��写入�~�冲��Z��外的内容�Q�一�c�L��d��~�冲��Z��外的内容。后一�U�往往更隐蔽，但随便哪一个都有可能断送掉你的�E�序�?/p>
�~�冲区溢出对于一个网�l�服务来说很可能更加危险。怀有恶意的用户能够利用它执行自己希望的指��o。服务通常拥有更高的特权，而这很可能会造成�Ҏ��提升�Q�即使不能提升攻击者拥有的�Ҏ��Q�他也可以利用这�U�问题��服务崩溃�Q�从而�Ş成一�ơ成功的DoS�Q�拒�l�服务）��d��。每�q�CERT的安全公告中�Q�都�?成左右的问题是由于缓冲区溢出造成的�?/p>
在��用汇�~�语�a��Q�或C语言�~�写�E�序�Ӟ��很容易在无意中引入缓冲区溢出。然而�ƈ不是所有的语言都会引入�~�冲区溢出问题，Java和C#�Q�由于没有指针，�q�且�~�冲区采取动态分配的方式�Q�有效地消除了造成�~�冲区溢出的土壤�?/p>
汇编语言中，�׃��REP*前缀都用CX作�ؓ计数器，因此情况会好一些（当然�Q�有时也会更�p�糕�Q�因为由于CX的限�Ӟ��很可能��原本可能改变�E�序行�ؓ的缓冲区溢出的范围羃��，从而更为隐蔽）。避免缓冲区溢出的一个主要方法就是仔�l�检查，�q�包括两斚w��Q�设�|�合理的�~�冲区大��，和根据大��编写程序。除此之外，非常重要的一点就是，在汇�~�语�a��q�个�U�别写程序，你肯定希望去掉所有的无用指��o�Q�然而再��L��之前�Q�一定要�q�行严格的测试；更进一步，如果能加上注释，�q��过善用宏来做调试模式检查，往往能够辑ֈ�更好的效果�?/p>
3.5 关于保护模式中内存操作的一点说�?/h3>
正如3.2节提到到的那��P��保护模式中，你可以��?2位的�U�性地址�Q�这意味着直接讉K��4GB的内存。由于这个原因，选择器不用像实模式中�D�寄存器那样频繁��C��攏V��顺便提一句，�q�䆾教程中所说的保护模式指的�?86以上的保护模式，或者，Microsoft通常�U�Cؓ“增强模式”的那种�?/p>
在�ؓ选择器装入数值的时候一定要非常��心。错误的数值往往会导致无效页面错�?在Windows中经常出�?)。同�Ӟ��也不要忘��C��的地址�?2位的�Q�这也是保护模式的主要优势之一�?/p>
现在假设存在一个描�q�符描述从物理的0:0开始的全部内存�Q��ƈ已经加蝲�q�DS(数据选择�?�Q�则我们可以通过下面的程序来操作VGA的VRAM�Q?/p>
mov edi,0a0000h
mov byte ptr [edi],0fh ; VGA昑֭�的偏�U�量
; ��第一字节改�ؓ0fh
很明显，�q�比实模式下的程�?/p>
mov ax,0a000h
mov ds,ax
mov di,0
mov [di],0fh ; AX -> VGA�D�地址
; ��AX��D��入DS
; DI清零
; 修改�W�一字节
看上去要舒服一些�?/p>
3.6 堆栈
到目前�ؓ止，您已�l�了解了基本的寄存器以及内存的操作知识。事实上�Q�您现在已经可以写出很多的底层数据处理程序了�?/p>
下面我来说说堆栈。堆栈实在不是一个让人陌生的数据�l�构�Q�它是一�?span class="tip" id="oFILO" title="">先进后出(FILO)�Q?b>先进后出(FILO)是这样一个概念：最�?/b>放进表中的数据在取出�?b>最�?/b>出来�?b>先进后出(FILO)�?b>先进先出(FIFO, 和先�q�后出的规则相反)�Q�以�?b>随机存取是最主要的三�U�存储器讉K��方式。对于堆栈而言�Q�最后放入的数据在取出时最先出现。对于子�E�序调用�Q�特别是递归调用来说�Q�这是一个非常有用的�Ҏ��。）的线性表�Q�能够帮助你完成很多很好的工作�?/p>
一个铁杆的汇编语言�E�序员有时会发现�pȝ��提供的寄存器不够。很昄��Q�你可以使用普通的内存操作来完成这个工作，��像C/C++中所做的那样�?
没错�Q�没错，可是�Q�如果数据段�Q�数据选择器）以及偏移量发生变化怎么办？更进一步，如果希望保存某些在这�U�操作中可能受到影响的寄存器的时候怎么办？��实�Q�你可以把他们也存到自己的那片内存中�Q�自己实现堆栈�?/p>
太麻烦了…�?/p>
既然�pȝ��提供了堆栈，�q�且性能比自己写一份更好，那么��Z��么不直接加以利用呢？
�pȝ��堆栈不仅仅是一�D�内存。由于CPU对它实施��理�Q�因此你不需要考虑堆栈指针的修正问题。可以把寄存器内容，甚至一个立��x��直接攑ֈ�堆栈里，�q�在需要的时候将其取出。同�Ӟ��pȝ��q�不要求取出的数据仍然回到原来的位置�?/p>
除了昑ּ�地操作堆栈（使用PUSH和POP指��o�Q�之外，很多指��o也需要��用堆栈，如INT、CALL、LEAVE、RET、RETF、IRET�{�等。配对��用上�q�指令�ƈ不会造成什么问题，然而，如果你打��用LEAVE、RET、RETF、IRET�q�样的指令实现蟩�?比JMP更�ؓ�ȝ��Q�然而有�Ӟ��例如在加密��Y件中�Q�或者需要修改调用者状态时�Q�这是必要的)的话�Q�那么我的徏议是�Q�先搞清楚它们做的到底是什么，�q�且�Q�精��地了解自己要做什么�?/p>
正如前面所说的�Q�有两个昑ּ�地操作堆栈的指��o�Q?/p>
助记�W?/font>
功能
PUSH ��操作数存入堆栈�Q�同时修正堆栈指�?/td>
POP ��栈��内容取出�ƈ存到目的操作��C��Q�同时修正堆栈指�?/td>
我们现在来看看堆栈的操作�?/p>
执行之前
执行代码
mov ax,1234h
mov bx,10
push ax
push bx
之后�Q�堆栈的状态�ؓ
之后�Q�再执行
pop dx
pop cx
堆栈的状态成�?/p>
当然�Q�dx、cx中的内容��分别是000ah�?234h�?/p>
注意�Q�最后这张图中，我没有抹�?234h�?00ah�Q�因为POP指��o�q�不从内存中抹去数倹{��不�q�尽��如此，我个��Z��焉��常反对��l��用这两个敎ͼ�你可以通过修改SP来再�ơPOP它们�Q�，然而这很容易导致错误�?/p>
一定要保证堆栈�D�|��_��的空间来执行中断�Q�以及其他一些隐式的堆栈操作。仅仅统计PUSH的数量�ƈ据此计算堆栈所需的大��很可能造成问题�?/p>
CALL指��o��返回地址攑ֈ�堆栈中。绝大多数C/C++�~�译器提供了“堆栈检查”这个编译选项�Q�其作用在于保证C�E�序�D�中没有忘记对堆栈中多余的数据进行清理，从而保证返回地址有效�?/p>
本章��结
本章中介�l�了内存的操作的一些入门知识。限于篇�q�，我不打算展开�l�讲指��o�Q�如cmps*�Q�lods*�Q�stos*�Q�等�{�。这些指令的用法和前面介�l�的movs*基本一��P��只是有不同的作用而已�?/p>

�~�程之道 2006-11-06 10:33 发表评论

�~�程之道 — Fri, 03 Nov 2006 10:00:00 GMT
原创�Q�司徒�R�?

�W�三�?操作内存
在前面的章节中，我们已经了解了寄存器的基本��用方法。而正如结��提到的那样�Q�仅仅��用寄存器做一点运��是没有什么太大意义的�Q�毕竟它们不能保存太多的数据�Q�因此，对编�E��h员而言�Q�他肯定�q�切地希望访问内存，以保存更多的数据�?/p>
我将分别介绍如何在保护模式和实模式操作内存，然而在此之前，我们先熟悉一下这两种模式中内存的�l�构�?/p>
3.1 实模�?/h3>
事实上，在实模式中，内存比保护模式中的结构更令�h困惑。内存被分割成段�Q��ƈ且，操作内存�Ӟ��需要指定段和偏�U�量。不�q�，理解�q�些概念是非常容易的事情。请看下面的图：
�D?寄存器这�U�格局是早期硬件电路限制留下的一个伤疤。地址�ȝ��在当时有20-bit�?/p>
然�?0-bit的地址不能攑ֈ�16-bit的寄存器里，�q�意味着�?-bit必须攑ֈ�别的地方。因此，��Z��讉K��所有的内存�Q�必��M��用两�?6-bit寄存器�?/p>
�q�一设计上的折衷�Ҏ��D��了今天的�D?偏移量格局。最初的设计中，其中一个寄存器只有4-bit有效�Q�然而�ؓ了简化程序，两个寄存器都�?6-bit有效�Q��ƈ在执行时求出加权和来标识20-bit地址�?/p>
偏移量是16-bit的，因此�Q�一个段�?4KB。下面的囑֏�以帮助你理解20-bit地址是如何�Ş成的�Q?/p>
�D?偏移量标识的地址通常记做 �D?偏移�?的�Ş式�?/p>
�׃��q�样的结构，一个内存有多个对应的地址。例如，0000:0010�?001:0000指的是同一内存地址。又如，
0000:1234 = 0123:0004 = 0120:0034 = 0100:0234
0001:1234 = 0124:0004 = 0120:0044 = 0100:0244
作�ؓ负面影响之一�Q�在�D�上�?相当于在偏移量上�?6�Q�而不是一个“全新”的�D�c��反之，在偏�U�量上加16也和在段上加1�{��h。某些时候，据此认�ؓ�D늚�“粒度”是16字节�?/p>
�l�习�?br />��试一下将下面的地址转化�?0bit的地址�Q?/p>
2EA8:D678 26CF:8D5F 453A:CFAD 2933:31A6 5924:DCCF
694E:175A 2B3C:D218 728F:6578 68E1:A7DC 57EC:AEEA
�E�高一些的要求是，写一个程序将�D��ؓAX、偏�U�量为BX的地址转换�?0bit的地址�Q��ƈ保存于EAX中�?/p>
[上面习题的答�?/span>]
地址转换
2EA8:D678 -> 物理�?3C0F8
694E:175A -> 物理�?6AC4A
26CF:8D5F -> 物理�?2FA4F
2B3C:D218 -> 物理�?385E8
453A:CFAD -> 物理�?5235D
728F:6578 -> 物理�?78E68
2933:31A6 -> 物理�?2C4D6
68E1:A7DC -> 物理�?735FC<
�~�程
shl eax,4
add eax,bx
注意 �~�程问题�{�案�q�不唯一�Q�但�l�出的这份参考答案应该已�l�是“优化到头”了�?/font>

我们现在可以写一个真正的�E�序了�?/p>
�l�典�E�序�Q�Hello, world
;;; 应该得到一�?9字节�?com文�g

.MODEL TINY
.CODE

CR equ 13
LF equ 10
TERMINATOR equ '$'

ORG 100h

Main PROC
mov dx,offset sMessage
mov ah,9
int 21h
mov ax,4c00h
int 21h
Main ENDP

sMessage:
DB 'Hello, World!'
DB CR,LF,TERMINATOR

END Main

; .COM文�g的内存模型是‘TINY�?br />; 代码�D�开�?br />
; 回�R
; 换行
; DOS字符串结束符

; 代码起始地址为CS:0100h

; 令DS:DX指向Message
; int 21h(DOS中断)功能9 -
; 昄��字符串到标准输出讑֤�
; int 21h功能4ch -
; �l�止�E�序�q�返回AL的错误代�?br />　
　

; �E�序�l�束的同时指定入口点为Main
那么�Q�我们需要解释很多东�ѝ�?/p>
首先�Q�作为汇�~�语�a�的抽象，C语言拥有“指针”这个数据类型。在汇编语言中，几乎所有对内存的操作都是由对给定地址的内存进行访问来完成的。这��P��在汇�~�语�a�中，�l�大多数操作都要和指针��生或多或��的联系�?/p>
�q�里我想��的是�Q�由于这一�Ҏ��，汇编语言中同样会出现C�E�序中常见的�~�冲区溢出问题。如果你正在设计一个与安全有关的系�l�，那么最好是仔细��查你用到的每一个串�Q�例如，它们是否一定能够以你预期的方式�l�束�Q�以及（如果使用的话�Q�你的缓冲区是否能保证实际可能输入的数据不被写入到它以外的地斏V��作��Z��个汇�~�语�a��E�序员，你有义务��查每一行代码的可用性�?/p>
�E�序中的equ伪指令是宏汇�~�特有的�Q�它的意思接�q�于C或Pascal中的const�Q�常量）。多数情况下�Q�equ伪指令�ƈ不�ؓ�W�号分配�I�间�?/p>
此外�Q�汇�~�程序执行一��Ҏ��作是非常�J�琐的，通常�Q�在对与效率要求不高的地方，我们习惯使用�pȝ��提供的中断服务来完成��d��。例如本例中的中�?1h�Q�它是DOS时代的中断服务，在Windows中，它也被认为是Windows API的一部分�Q�这一点可以在Microsoft的文档中查到�Q�。中断可以被理解为高�U�语�a�中的子程序，但又不完全一样——中断��用系�l�栈来保存当前的机器状态，可以��q��件发��P��通过修改机器状态字来反馈信息，�{�等�?/p>
那么�Q�最后一�D�通过DB存放的数据到底保存在哪里了呢�Q�答案是紧挨着代码存放。在汇编语言中，DB和普通的指��o的地位是相同的。如果你的汇�~�程序�ƈ不知道新的助记符�Q�例如，新的处理器上的CPUID指��o�Q�，而你很清楚，那么可以用DB 机器码的方式��写下指��o。这意味着�Q�你可以��越汇编器的能力撰写汇编�E�序�Q�然而，直接用机器码�~�程是几乎肯定是一件费力不讨好的事——汇�~�器厂商会经常更新它所支持的指令集以适应市场需要，而且�Q�你可以期待你的汇编其能够��生正��的代码�Q�因为机器查表是不会出错的。既然机器能够帮我们做将�E�序转换��Z��码这件事情，那么��Z��么不让它来做呢？
�l�心的读者不隑֏�玎ͼ�在程序中我们没有对DS�q�行赋倹{��那么，�q�是否意味着�E�序的结果将是不可预��的呢？�{�案是否定的。DOS�Q�或Windows中的MS-DOS VM�Q�在加蝲.com文�g的时候，会对寄存器进行很多初始化�?com文�g被限制�ؓ��于64KB�Q�这��P��它的代码�D�c��数据段都被装入同样的数��|��卻I��初始状态下DS=CS�Q��?/p>
也许会有��Q�“嘿�Q�这听�v来不太好�Q�一�?4KB的程序能做得了什么呢�Q�还有，你吹得天�׃ؕ坠的堆栈�D�在什么地方？”那么，我们来看看下面这个新的Hello world�E�序�Q�它是一个EXE文�g�Q�在DOS实模式下�q�行�?/p>
;;; 应该得到一�?61 字节的EXE文�g

.MODEL SMALL
.STACK 200h

CR equ 13
LF equ 10
TERMINATOR equ '$'

.DATA

Message DB 'Hello, World !'
DB CR,LF,TERMINATOR

.CODE

Main PROC
mov ax, DGROUP
mov ds, ax

mov dx, offset Message
mov ah, 9
int 21h

mov ax, 4c00h
int 21h
Main ENDP

END main 　
; 采用“SMALL”内存模�?br />; 堆栈�D?/font>
; 回�R
; 换行
; DOS字符串结束符
; 定义数据�D?/font>
; 定义昄��?/font>
; 定义代码�D?/font>

; ��数据段
; 加蝲到DS寄存�?/font>
; 讄��DX
; 昄��

; �l�止�E�序
561字节�Q�实现相同功能的�E�序大了�q�么多！��Z��么呢�Q�我们看刎ͼ��E�序拥有了完整的堆栈�D�c��数据段、代码段�Q�其中堆栈段��占掉�?12字节�Q�其余的基本上没什么变化�?/p>
分成多个�D�|��什么好处呢�Q�首先，它让�E�序昑־�更加清晰——你肯定更愿意看一个结构清楚的�E�序�Q�代码中hard-coded的字�W�串、数据让��得费解。比如，mov dx, 0152h肯定不如mov dx, offset Message来的亲切。此外，通过分段你可以��用更多的内存�Q�比如，代码�D�腾出的�I�间可以做更多的事情。exe文�g另一个吸引�h的地�Ҏ��它能够实现“重定位”。现在你不需要指定程序入口点的地址了，因�ؓ�pȝ��会找��C��的程序入口点�Q�而不是死板的100h�?/p>
�E�序中的�W�号也会在系�l�加载的时候重新赋予新的地址。exe�E�序能够保证你的设计�Ҏ��地被实现�Q�不需要考虑太多的细节�?/p>
当然�Q�我们的主要目的是将汇编语言作�ؓ高��语言的一个有用的补充。如我在开始提到的那样�Q�真正完全用汇编语言实现的程序不一定就好，因�ؓ它不便于�l�护�Q�而且�Q�由于结构的原因�Q�你也不太容易确保它是正��的�Q�汇�~�语�a�是一�U�非�l�构化的语言�Q�调试一个精心设计的汇编语言�E�序�Q�即使对于一个老手来说也不��L��一场恶梦，因�ؓ你很可能掉到别�h预设的“陷阱”中——这些技巧确实提高了代码性能�Q�然而你很可能不理解它，于是你把它改掉，接着��发现程序彻底��|掉了。��用汇�~�语�a�加强高��语言�E�序�Ӟ��你要做的通常只是使用汇编指��o�Q�而不必搭建完整的汇编�E�序。绝大多敎ͼ�也是目前我遇到的全部�Q�C/C++�~�译器都支持内嵌汇编�Q�即在程序中使用汇编语言�Q�而不必撰写单独的汇编语言�E�序——这可以节省你的不少�_�֊��Q�因为前面讲�q�的那些伪指令，如equ�{�，都可以用你熟悉的高��语言方式来编写，�~�译器会把它转换为适当的�Ş式�?/p>
需要说明的是，在高�U�语�a�中一定要注意�~�译�l�果。编译器会对你的汇编�E�序做一些修改，�q�不一定符合你的要求（附带说一句，有时�~�译器会很聪明地调整指��o��序来提高性能�Q�这�U�情况下最好测试一下哪�U�写法的效果更好�Q�，此时需要做一些更深入的修改，或者用db来强制编码�?/p>
3.2 保护模式
实模式的东西说得太多了，��管我已�l�删掉了许多东西�Q��ƈ把一些原则性的问题拿到了这一节讨论。这样做不是没有理由的——保护模式才是现在的�E�序�Q�除了操作系�l�的底层启动代码�Q�最常用的CPU模式。保护模式提供了很多令�h耳目一新的功能�Q�包括内存保护（�q�是保护模式�q�个名字的来源）、进�E�支持、更大的内存支持�Q�等�{��?/p>
对于一个编�E��h员来��_��能“偷懒”是一件��o人愉快的事情。这里“偷懒”是说把“应该”由�pȝ��做的事情做的事情全都交给�pȝ��。�ؓ什么呢�Q�这��一个基本思想——�h��L��犯错误的时候，然而规则不会，正确��C��解规则之后，你可以期待它像你所了解的那��h��行。对于C�E�序来说�Q�你自己用C语言写的实现相同功能的函数通常没有�pȝ��提供的函数性能好（除非你用了比函数库好很多的算法）�Q�因为系�l�的函数往往使用了更好的优化�Q�甚臛_��能不是用C语言直接�~�写的�?/p>
当然�Q�“偷懒”的意思是��_��把那些应该让机器做的事情交给计算机来做，因�ؓ它做得更好。我们应该把�_�֊�集中到设计算法，而不是编写源代码本��n上，因�ؓ�~�译器几乎只能做�{��h优化�Q�而实现相同功能，但��用更好算法的�E�序实现�Q�则几乎只能�׃�h自己完成�?/p>
举个例子�Q�这样一个函敎ͼ�
int fun(){
int a=0;
register int i;
for(i=0; i<1000; i++) a+=i;
return a;
}
在某�U�编译模式[DEBUG]下被�~�译�?/p>
push ebp
mov ebp,esp
sub esp,48h
push ebx
push esi
push edi
lea edi,[ebp-48h]
mov ecx,12h
mov eax,0CCCCCCCCh
rep stos dword ptr [edi]
mov dword ptr [ebp-4],0
mov dword ptr [ebp-8],0
jmp fun+31h
mov eax,dword ptr [ebp-8]
add eax,1
mov dword ptr [ebp-8],eax
cmp dword ptr [ebp-8],3E8h
jge fun+45h
mov ecx,dword ptr [ebp-4]
add ecx,dword ptr [ebp-8]
mov dword ptr [ebp-4],ecx
jmp fun+28h
mov eax,dword ptr [ebp-4]
pop edi
pop esi
pop ebx
mov esp,ebp
pop ebp
ret ; 子程序入�?/font>

; 保护现场

; 初始化变�?调试版本�Ҏ��?br />; 本质是在堆中挖一块地儿，存CCCCCCCC�?br />; 用串操作�q�行�Q�这��发挥Intel处理器优�?br />; ‘a=0�?br />; ‘i=0�?/font>
; 走着
; i++

; i<1000?

; a+=i;

; return a;
; 恢复现场
　
; �q�回
而在另一�U�模式[RELEASE/MINSIZE]下却被编译�ؓ
xor eax,eax
xor ecx,ecx
add eax,ecx
inc ecx
cmp ecx,3E8h
jl fun+4
ret
; a=0;
; i=0;
; a+=i;
; i++;
; i<1000?
; �?>�l�箋�l�箋
; return a
如果让我来写�Q�多半会写成
mov eax, 079f2ch
ret
; return 499500
��Z��么这样写呢？我们看到�Q�i是一个外界不能媄响、也无法��L��的内部状态量。作��D늨�序来��_��对它的计��对于结果�ƈ没有直接的媄响——它的存在不�q�是方便��法描述而已。�ƈ且我们看到的�Q�这�D늨�序实际上无论执行多少�ơ，其结果都不会发生变化�Q�因此，直接�q�回计算�l�果��可以了�Q�计��是多余的（如果说一定要��，那么应该是编译器在编译过�E�中完成它）�?/p>
更进一步，我们甚至希望�~�译器能够直接把�q�个函数变成一个符号常量，�q�样�q�操作堆栈的�q�程也省掉了�?/p>
�W�三�U�结果属于“等效”代码，而不是“等价”代码。作为用��P��很多时候是希望�~�译器这样做的，然而由于目前的技术尚不成熟，有时�q�种做法会造成一些问题（gcc和g++的顶�U�优化可以造成�~�译出的FreeBSD内核行�ؓ异常�Q�这是我在FreeBSD上遇到的唯一一�ơ��Y件原因的kernel panic�Q�，因此�Q��ƈ不是所有的�~�译器都�q�样做（另一斚w��的原因是�Q�如果编译器在这斚w��做的太过火，例如自动求解全部“固定”问题，那么如果你的�E�序是解军_��定的问题“很大”，如求解迷宫，那么在编译过�E�中你就会找锤子来砸计算��Z��Q�。然而，作�ؓ�~�译器制造商�Q��ؓ了提高自��q��产品的竞争力�Q�往往会��用第三种代码来做函数库。正如前面所提到的那��P��q�种优化往往不是�~�译器本�w�的作用�Q�尽��现代编译程序拥有编译执行、��@环代码外提、无用代码去除等诸多优化功能�Q�但它都不能保证�E�序最优。最后一�U�代码恐怕很��有�~�译器能够做刎ͼ�不信你可以用自己常用的编译器加上各种优化选项试试:)
发现什么了吗？三种代码中，对于内存的访问一个比一个少。这样做的理由是�Q�尽可能地利用寄存器�q�减��对内存的访问，可以提高代码性能。在某些情况下，使代码既��又快是可能的�?/p>
书归正传�Q�我们来说说保护模式的内存模型。保护模式的内存和实模式有很多共同之处�?/p>
毫无疑问�Q�以'protected mode'(保护模式), 'global descriptor table'(全局描述�W�表), 'local descriptor table'(本地描述�W�表)�?selector'(选择�?搜烦�Q�你会得到完整介�l�它们的大量信息�?/p>
保护模式与实模式的内存类��|��然而，它们之间最大的区别��是保护模式的内存是“线性”的�?/p>
新的计算��Z��Q?2-bit的寄存器已经不是什么新鲜事�Q�如果你哪天听说你的CPU的寄存器不是32-bit的，那么它——简直可以肯定地说——的字长要比32-bit�q�要多。新的个人机上已�l�开始逐步采用64-bit的CPU了）�Q�换�a�之，实际上段/偏移量这一格局已经不再需要了。尽��如此，在��l�看保护模式内存�l�构�Ӟ��仍请��C��D?偏移量的概念。不妨把�D�寄存器看作对于保护模式中的选择器的一个模拟。选择器是全局描述�W�表(Global Descriptor Table, GDT)或本地描�q�符�?Local Descriptor Table, LDT)的一个指针�?/p>
如图所�C�，GDT和LDT的每一个项目都描述一块内存。例如，一个项目中包含了某块被描述的内存的物理的基地址、长度，以及其他一些相关信息�?/p>
保护模式是一个非帔R��要的概念�Q�同时也是目前撰写应用程序时�Q�最常用的CPU模式�Q�运行在新的计算��Z��的操作系�l�很��有在实模式下运行的�Q��?/p>
��Z��么叫保护模式呢？它“保护”了什么？�{�案是进�E�的内存。保护模式的主要目的在于允许多个�q�程同时�q�行�Q��ƈ保护它们的内存不受其他进�E�的�늊�。这有点�c�M��于C++中的机制�Q�然而它的强制力要大得多。如果你的进�E�在保护模式下以不恰当的方式讉K��了内存（例如�Q�写了“只诠Z��内存，或读了不可读的内存，�{�等�Q�，那么CPU��׃��产生一个异常。这个异常将交给操作�pȝ��处理�Q�而这�U�处理，假如你的�E�序没有特别说明操作�pȝ��该如何处理的话，一般就是杀掉做错了事情的进�E��?/p>
我像�q�样的对话框大家一定非常熟悉（临时写了一个程序故意造成的错误）�Q?/p>
好的�Q�只是一个程序崩溃了�Q�而操作系�l�的其他�q�程照常�q�行�Q�同��L��E�序在DOS中几乎是板上钉钉的死机，因�ؓNULL指针的位�|�恰好是中断向量表）�Q�你甚至�q�可以调试它�?/p>
保护模式�q�有其他很多好处�Q�在此就不一一赘述了。实模式和保护模式之间的切换问题我打��放在后面的“高�U�技巧”一章来�Ԍ��因�ؓ多数�E�序�q�不涉及�q�个�?/p>
了解了内存的格局�Q�我们就可以�q�入下一节——操作内存了�?/p>
3.3 操作内存
前两节中�Q�我们介�l�了实模式和保护模式中��用的不同的内存格局。现在开始解释如何��用这些知识�?/p>
回忆一下前面我们说�q�的�Q�寄存器可以用作内存指针。现在，是他们发挥作用的时候了�?/p>
可以��内存想象�ؓ一个顺序的字节��。��用指针，可以��L��地操作（��d��Q�内存�?/p>
现在我们需要一些其他的指��o格式来描�q�对于内存的操作。操作内存时�Q�首先需要的��是它的地址�?/p>
让我们来看看下面的代码：
mov ax,[0]
�Ҏ��可��C�，里面的表辑ּ�指定的不是立��x��Q�而是偏移量。在实模式中�Q�DS:0中的那个字（16-bit长）��被装入AX�?/p>
然�?是一个常敎ͼ�如果需要在�q�行的时候加以改变，��需要一些特�D�的技巧，比如�E�序自修攏V��汇�~�支持这个特性，然而我个�h�q�不推荐�q�种�Ҏ��——自修改大大降低�E�序的可��L��，�q�且�q�降低稳定性，性能�q�不一定好。我们需要另外的技术�?/p>
mov bx,0
mov ax,[bx]
看�v来舒服了一些，不是吗？BX寄存器的内容可以随时更改�Q�而不需要用冗长的代码去修改自��n�Q�更不用担心由此带来的不�E�_��问题�?/p>
同样的，mov指��o也可以把数据保存到内存中�Q?/p>
mov [0],ax
在存储器与寄存器之间交换数据应该��_��清楚了�?/p>
有些时候我们会需要操作符来描�q�内存数据的宽度�Q?/p>
操作�W?/font> 意义
byte ptr 一个字�?8-bit, 1 byte)
word ptr 一个字(16-bit)
dword ptr 一个双�?32-bit)
例如�Q�在DS:100h处保�?234h�Q�以字存放：
mov word ptr [100h],01234h
于是我们��mov指��o扩展为：
mov reg(8,16,32), mem(8,16,32)
mov mem(8,16,32), reg(8,16,32)
mov mem(8,16,32), imm(8,16,32)
需要说明的是，加减同样也可以在[]中��用，例如�Q?/p>
mov ax,[bx+10]
mov ax,[bx+si]
mov ax,es:[di+bp]
�{�等。我们看刎ͼ�对于内存的操作，即��使用MOV指��o�Q�也有许多种可能的方式。下一节中�Q�我们将介绍如何操作丌Ӏ?/p>
感谢 �|�友水杉指出此答案中的一处错误�?br />感谢 Heallven 指出.COM�E�序实例�~�译��p�|的问�?/p>

�~�程之道 2006-11-03 18:00 发表评论

�~�程之道 — Fri, 03 Nov 2006 09:53:00 GMT
原创�Q�司徒�R�?

2.2 使用寄存�?/h3>
在前一节中的x86基本寄存器的介绍�Q�对于一个汇�~�语�a��~�程人员来说是不可或�~�的。现在你知道�Q�寄存器是处理器内部的一些保存数据的存储单元。仅仅了解这些是不��以写��Z��个可用的汇编语言�E�序的，但你已经可以大致��L��一般汇�~�语�a��E�序了（不必惊讶�Q�因为汇�~�语�a�的祝记符和英文单词非常接�q�）�Q�因��Z��已经了解了关于基本寄存器的绝大多数知识�?/p>
在正式引入第一个汇�~�语�a��E�序之前�Q�我�_�略��C��l�一下汇�~�语�a�中不同进制整数的表示�Ҏ��。如果你不了解十�q�制以外的其他进�Ӟ��h��鼠标�U�d��?span class="tip" id="oRadixes" title="">�q�里�?/font>

数字计算机内部只支持二进制数�Q�因��栯��机只需要表�C�Z��U?某些情况�?�U�，�q�一内容��过了这份教�E�的范围�Q�如果您感兴��，可以参考数字逻辑电�\的相关书�c?状�? 对于电�\而言�Q�这表现为高、低电��^�Q�或者开、关�Q�分别非常明显，因而工作比较稳定；另一斚w��Q�由于只有两�U�状态，设计��h��也比较简单。这��P��使用二进制意味着低成本、稳定，多数情况下，�q�也意味着快速�?

与十�q�制�c�M��Q�我们可以用下面的式子来换算��Z��个�Q意�Ş如am-1……a3a2a1a0 的m位r�q�制数对应的数值n�Q?br />
�E�序设计中常用十六进制和八进制数字代替二�q�制敎ͼ�其原因在于，16�?�?的整�ơ方�q�，�q�样�Q�一位十六或八进制数可以表示整数个二�q�制位。十六进制中�Q?使用字母A、B、C、D、E、F表示10-15�Q�而十六进制或八进制数制表�C�的的数字比二进制数更短一些�?br />

　　汇编语言中的整数帔R��表示
十进制整�?br />�q�是汇编器默认的数制。直接用我们熟悉的表�C�方式表�C�即可。例如，1234表示十进制的1234。不�q�，如果你指定了使用其他数制�Q�或者有凡事都进行完整定义的��爱好，也可以写成[十进制数]d或[十进制数]D的�Ş式�?
十六�q�制�?br />�q�是汇编�E�序中最常用的数�Ӟ��我个人比较偏�׃��用十六进制表�C�数据，至于��Z��么，以后我会作说明。十六进制数表示�?[十六�q�制数]h�?[十六�q�制数]H�Q�其中，如果十六�q�制数的�W�一位是数字�Q�则开头的0可以省略。例如，7fffh, 0ffffh�Q�等�{��?
二进制数
�q�也是一�U�常用的数制。二�q�制数表�C�Zؓ[二进制数]b或[二进制数]B。一般程序中用二�q�制数表�C�掩码（mask code�Q�等数据非常的直观，但需要些很长的数据（4位二�q�制数相当于一位十六进制数�Q�。例如，1010110b�?
八进制数
八进制数现在已经不是很常用了�Q�确实还在用�Q�一个典型的例子是Unix的文件属性）。八�q�制数的形式是[八进制数]q、[八进制数]Q、[八进制数]o、[八进制数]O。例如，777Q�?/li>
需要说明的是，�q�些�Ҏ��是针对宏汇编器（例如�Q�MASM、TASM、NASM�Q�说的，调试器默认��用十六进制表�C�整敎ͼ��q�且不需要特别的声明�Q�例如，在调试器中直接用FFFF表示十进制的65535�Q�用10表示十进制的16�Q��?/p>
现在我们来写一��段汇编�E�序�Q�修改EAX、EBX、ECX、EDX的数倹{�?/p>
我们假定�E�序执行之前�Q�寄存器中的数值是�?�Q?/p>
　 ? X
H L
EAX 0000 00 00
EBX 0000 00 00
ECX 0000 00 00
EDX 0000 00 00
正如前面提到的，EAX的高16bit是没有办法直接访问的�Q�而AX对应它的�?6bit�Q�AH、AL分别对应AX的高、低8bit�?/p>
mov eax, 012345678h
mov ebx, 0abcdeffeh
mov ecx, 1
mov edx, 2 ; ��?12345678h送入eax
; ��?abcdeffeh送入ebx
; ��?00000001h送入ecx
; ��?00000002h送入edx
则执行上�q�程序段之后�Q�寄存器的内容变为：
　 ? X
H L
EAX 1234 56 78
EBX abcd ef fe
ECX 0000 00 01
EDX 0000 00 02
那么�Q�你已经了解了mov�q�个指��o�Q�mov是move的羃写）的一�U�用法。它可以��数送到寄存器中。我们来看看下面的代码：
mov eax, ebx
mov ecx, edx ; ebx内容送入eax
; edx内容送入ecx
则寄存器内容变�ؓ�Q?/p>
　 ? X
H L
EAX abcd ef fe
EBX abcd ef fe
ECX 0000 00 02
EDX 0000 00 02
我们可以看到�Q�“move”之后，数据依然保存在原来的寄存器中。不妨把mov指��o理解为“送入”，或“装入”�?/p>
�l�习�?/b>
把寄存器恢复成都为全0的状态，然后执行下面的代码：
mov eax, 0a1234h
mov bx, ax
mov ah, bl
mov al, bh ; ��?a1234h送入eax
; ��ax的内定w��入bx
; ��bl内容送入ah
; ��bh内容送入al
思考：此时�Q�EAX的内容将是多��？[�{�案]
EAX的内容�ؓ000A3412h.

下面我们��介�l�一些指令。在介绍指��o之前�Q�我们约定：

　　 使用Intel文档中的寄存器表�C�方�?/b>
reg32 32-bit寄存器（表示EAX、EBX�{�）
reg16 16-bit寄存器（�?2位处理器中，�q�AX、BX�{�）
reg8 8-bit寄存器（表示AL、BH�{�）
imm32 32-bit立即敎ͼ�可以理解为常敎ͼ�
imm16 16-bit立即�?
imm8 8-bit立即�?/li>
在寄存器中蝲入另一寄存器，或立��x��的��|��
mov reg32, (reg32 | imm8 | imm16 | imm32)
mov reg32, (reg16 | imm8 | imm16)
mov reg8, (reg8 | imm8)
例如�Q�mov eax, 010h表示�Q�在eax中蝲�?0000010h。需要注意的是，如果你希望在寄存器中装入0�Q�则有一�U�更快的�Ҏ��Q�在后面我们��提到�?/p>
交换寄存器的内容�Q?/p>
xchg reg32, reg32
xchg reg16, reg16
xchg reg8, reg8
例如�Q�xchg ebx, ecx�Q�则ebx与ecx的数值将被交换。由于系�l�提供了�q�个指��o�Q�因此，采用其他�Ҏ��交换�Ӟ��速度��会较慢�Q��ƈ需要占用更多的存储�I�间�Q�编�E�时要避免这�U�情况，卻I��量利用�pȝ��提供的指令，因�ؓ多数情况下，�q�意味着更小、更快的代码�Q�同时也杜绝了错误（如果说Intel的CPU在交换寄存器内容的时候也会出错，那么它就不用卖CPU了。而对于你来说�Q�检查一行代码的正确性也昄��比检查更多代码的正确性要�Ҏ��Q�刚才的习题的程序用下面的代码将更有效：
mov eax, 0a1234h
mov bx, ax
xchg ah, al ; ��?a1234h送入eax
; ��ax内容送入bx
; 交换ah, al的内�?/font>
递增或递减寄存器的��|��
inc reg(8,16,32)
dec reg(8,16,32)
�q�两个指令往往用于循环中对指针的操作。需要说明的是，某些时候我们有更好的方法来处理循环�Q�例如��用loop指��o�Q�或rep前缀。这些将在后面的章节中介�l��?/p>
��寄存器的数��g��另一寄存器，或立��x��的值相加，�q�存回此寄存器：
add reg32, reg32 / imm(8,16,32)
add reg16, reg16 / imm(8,16)
add reg8, reg8 / imm(8)
例如�Q�add eax, edx�Q�将eax+edx的值存入eax。减法指令和加法�c�M��Q�只是将add换成sub�?/p>
需要说明的是，与高�U�语�a�不同�Q�汇�~�语�a�中，如果要计��两��C��和（差、积、商�Q�或一般地��_��q�算�l�果�Q�，那么必然有一个寄存器被用来保存结果。在PASCAL中，我们可以用nA := nB + nC来让nA保存nB+nC的结果，然而，汇编语言�q�不提供�q�种�Ҏ��。如果你希望保持寄存器中的结果，需要用另外的指令。这也从另一个侧面反映了“寄存器”这个名字的意义。数据只是“寄存”在那里。如果你需要保存数据，那么需要将它放到内存或其他地方�?/p>
�c�M��的指令还有and、or、xor�Q�与�Q�或�Q�异或）�{�等。它们进行的是逻辑�q�算�?/p>
我们�U�add、mov、sub、and�{�称��Zؓ指��o助记�W�（�q�么叫是因�ؓ它比机器语言�Ҏ��记忆�Q�而�v作用��是方便��忆，某些资料中也�U�Cؓ指��o、操作码、opcode[operation code]�{�）�Q�后面的参数成�ؓ操作敎ͼ�一个指令可以没有操作数�Q�也可以有一两个操作敎ͼ�通常有一个操作数的指令，�q�个操作数就是它的操作对象；而两个参数的指��o�Q�前一个操作数一般是保存操作�l�果的地方，而后一个是附加的参数�?/p>
我不打算在这份教�E�中用大量的��幅介绍指��o——很多�h做得比我更好�Q�而且指��o本��n�q�不是重点，如果你学会了如何�l�织语句�Q�那么只要稍加学习就能轻易掌握其他指令。更多的指��o可以参�?a >Intel提供的资料。编写程序的时候，也可以参考一些在�U�参考手册。Tech!Help和HelpPC 2.10��管已经很旧�Q�但��以应付�l�大多数需要�?/p>
聪明的读者也许已�l�发玎ͼ�使用sub eax, eax�Q�或者xor eax, eax�Q�可以得��C��mov eax, 0�c�M��的效果。在高��语言中，你大概不会选择用a=a-a来给a赋��|��因�ؓ��试会告诉你�q�么做更慢，��直就是在自找�ȝ��Q�然而在汇编语言中，你会得到相反的结论，多数情况下，以由快到慢的速度排列�Q�这三条指��o��是xor eax, eax、sub eax, eax和mov eax, 0�?/p>
��Z��么呢�Q�处理器在执行指令时�Q�需要经�q�几个不同的阶段�Q�取指、译码、取数、执行�?/p>
我们反复��Q�寄存器是CPU的一部分。从寄存器取敎ͼ�光��度很显然要比从内存中取数快。那么，不难理解�Q�xor eax, eax要比mov eax, 0更快一些�?/p>
那么�Q��ؓ什么a=a-a通常要比a=0慢一些呢�Q�这和编译器的优化有一定关�p�R��多数编译器会把a=a-a��译成类��g��面的代码(通常�Q�高�U�语�a�通过ebp和偏�U�量来访问局部变量；�E�序中，x为a相对于本地堆的偏�U�量�Q�在只包含一�?2-bit整�Ş变量的程序中�Q�这个值通常�?)�Q?/p>
mov eax, dword ptr [ebp-x]
sub eax, dword ptr [ebp-x]
mov dword ptr [ebp-x],eax
而把a=0��译�?/p>
mov dword ptr [ebp-x], 0
上面的翻译只是示意性的�Q�略��M��很多必要的步骤，如保护寄存器内容、恢复等�{�。如果你对与�~�译�E�序的实现过�E�感兴趣�Q�可以参考相应的书籍。多数编译器�Q�特别是C/C++�~�译器，如Microsoft Visual C++�Q�都提供了从源代码到宏汇�~�语�a��E�序的附加编译输出选项。这�U�情况下�Q�你可以很方便地了解�~�译�E�序执行的输出结果；如果�~�译�E�序没有提供�q�样的功能也没有关系�Q�调试器会让你看到编译器的编译结果�?/p>
如果你明��地知道�~�译器编译出的结果不是最优的�Q�那��可以着手用汇编语言来重写那�D�代码了。怎么��认是否应该用汇�~�语�a�重写呢？

　　使用汇编语言重写代码之前需要确认的几�g事情
首先�Q�这�U�优�?b>最�?/b>�?b>明显的效�?/b>。比如，一�D��@环中的计��，�{�等。一条语句的执行旉��是很短的�Q�现在新的CPU的指令周期都�?.000000001s以下�Q�Intel甚至已经做出�?GHz主频�Q�主频的倒数是时钟周期）的CPU�Q�如果你的代码自始至�l�只执行一�ơ，�q�且你只是减��了几个旉��周期的执行时��_��那么改变��是无法让�h察觉的；很多情况下，�q�种“优化”�ƈ不被提倡，��管它确实减��了执行旉��Q�但为此需要付出大量的旉��、�h力，多数情况下得不偿失（极端情况�Q�比如你的设备内存�h格非常昂�늚�时候，�q�种优化也许会有意义�Q��?
其次�Q�确认你已经使用�?b>最好的��法�Q��ƈ且，你优化的�E�序的实现是正确的。汇�~�语�a�能够提供同样��法的最快实玎ͼ�然而，它�ƈ不是万金油，更不是解决一切的灵丹妙药。用高��语言实现一�U�好的算法，不一定会比汇�~�语�a�实现一�U�差的算法更慢。不�q�需要注意的是，旉��、空间复杂度最��的��法不一定就是解��x��一特定问题的最佳算法。�D例说�Q�快速排序在完全逆序的情况下�{��h于冒泡排序，�q�时其他�Ҏ��比它快。同�Ӟ��用汇�~�语�a�优化一个不正确的算法实玎ͼ��给调试带来很大的麻烦�?
最后，��认�?b>已经��高�U�语�a��~�译器的性能发挥到极�?/b>。Microsoft的编译器在RELEASE模式和DEBUG模式会有差异相当大的输出�Q�而对于GNU�p�d��的编译器而言�Q�不同��别的优化也会生成几乎完全不同的代码。此外，在编�E�时对于问题的严格定义，可以极大地帮助编译器的优化过�E�。如何优化高�U�语�a�代码�Q��其编译结果最优超��Z��本教�E�的范围�Q�但如果你不能确认已�l�发挥了�~�译器的最大效能，用汇�~�语�a�往往是一�U�更��力的�Ҏ��?
�q�有一炚w��帔R��要，那就是你明白自己做的是什么�?/b>好的高��语言�~�译器有时会有一些让人难以理解的行�ؓ�Q�比如，重新排列指��o��序�Q�等�{�。如果你发现�q�种情况�Q�那么优化的时候就应该��心——编译器很可能比你拥有更多的关于处理器的知识�Q�例如，对于一个超标量处理器，�~�译器会�Ҏ��令序列进行“封包”，使他们尽可能的�ƈ行执行；此外�Q�宏汇编器有时会自动插入一些nop指��o�Q�其作用是将指��o凑成整数字长�Q?2-bit�Q�对�?6-bit处理器，�?6-bit�Q�。这些都是提高代码性能的必要措施，如果你不了解处理器，那么最好不要改动编译器生成的代码，因�ؓ�q�种情况下，盲目的修改往往不会得到预期的效果�?/li>
曄��在一份杂志上看到�q�有人用�U�机器语�a��~�写�E�序。不清楚到底�q�是不是�~�辑的失误，因�ؓ一个头脑正常的人恐怕不会这么做�E�序�Q�即使它不长、也不复杂。首先，汇编器能够完成某些封包操作，即��不行�Q�也可以用db伪指令来写指令；用汇�~�语�a�写程序可以防止很多错误的发生�Q�同�Ӟ��它还减轻了�h的负担，很显�Ӟ��“完全用机器语言写程序”是完全没有必要的，因�ؓ汇编语言可以做出完全一��L��事情�Q��ƈ且你可以依赖它，因�ؓ计算��Z��会出错，而�h��L��出错的时候。此外，如前面所�a��Q�如果用高��语言实现�E�序的代价不大（例如�Q�这�D�代码在�E�序的整个执行过�E�中只执行一遍，�q�且�Q�这一遍的执行旉��也小于一�U�）�Q�那么，��Z��么不用高�U�语�a�实现呢？
一些比较狂热的�~�程爱好者可能不太喜�Ƣ我的这�U�观炏V��比方说�Q�他们可能希望精益求�_�֜�优化每一字节的代码。但多数情况下我们有更重要的事情�Q�例如，你的��法是最优的吗？你已�l�把�E�序在高�U�语�a�许可的范围内优化到尽头了吗？�q�不是所有的人都有资��D��栯��。汇�~�语�a�是这样一件东西，它��够的强大�Q�能够控制计��机�Q�完成它能够实现的�Q何功能；同时�Q�因为它的强大，也会提高开发成本，�q�且�Q�难于维护。因此，我个人的��是，如果在��Y件开发中使用汇编语言�Q�则应在软�g接近完成的时候��用，�q�样可以减少很多不必要的投入�?/p>
�W�二章中�Q�我介绍了x86�p�d��处理器的基本寄存器。这些寄存器对于x86兼容处理器仍然是有效的，如果你偏爱AMD的CPU�Q�那么��用这些寄存器的程序同样也可以正常�q�行�?/p>
不过现在说用汇编语言�q�行优化�q��ؓ时尚早——不可能写程序，而只操作�q�些寄存器，因�ؓ�q�样只能完成非常��单的操作�Q�既然是��单的操作�Q�那可能��׃��让�h觉得乏味�Q�甚��x��一台��够快的机器穷丑֮�的所有结果（如果可以�I��D的话�Q�，�q�直接写�E�序调用�Q�因��样通常会更快。但话说回来�Q�看完接下来的两章——内存和堆栈操作�Q�你��可以独立完成几乎所有的��d��了，配合�W�五章中断、第六章子程序的知识�Q�你��知道如何驾驭处理器�Q��ƈ让它��Z��工作�?/p>

�~�程之道 2006-11-03 17:53 发表评论

�~�程之道 — Fri, 03 Nov 2006 09:46:00 GMT
原创�Q�司徒�R�?

�W�二�?认识处理�?/h2>
中央处理�?CPU)在微机系�l�处于“领导核心”的��C��。汇�~�语�a�被编译成机器语言之后�Q�将由处理器来执行。那么，首先让我们来了解一下处理器的主要作用，�q�将帮助你更好地��N��它�?/p>
典型的处理器的主要�Q务包�?/b>
从内存中获取机器语言指��o�Q�译码，执行
�Ҏ��指��o代码��理它自��q��寄存�?
�Ҏ��指��o或自��q��的需要修改内存的内容
响应其他��g的中断请�?
一般说来，处理器拥有对整个�pȝ��的所有�ȝ��的控制权。对于Intel�q�_��而言�Q�处理器拥有�Ҏ��据、内存和控制�ȝ��的控制权�Q�根据指令控制整个计��机的运行。在以后的章节中�Q�我们还��讨论系�l�中同时存在多个处理器的情况�?/p>
处理器中有一些寄存器�Q�这些寄存器可以保存特定长度的数据。某些寄存器中保存的数据对于�pȝ��的运行有�Ҏ��的意义�?/p>
新的处理器往往拥有更多、具有更大字长的寄存器，提供更灵�zȝ��取指、寻址方式�?/p>
寄存�?/b>
如前所�q�ͼ�处理器中有一些可以保存数据的地方被称作寄存器�?/p>
寄存器可以被装入数据�Q�你也可以在不同的寄存器之间�U�d��q�些数据�Q�或者做�c�M��的事情。基本上�Q�像四则�q�算、位�q�算�{�这些计��操作，都主要是针对寄存器进行的�?/p>
首先让我来介�l�一�?0386上最常用�?个通用寄存器。先瞧瞧下面的图形，试着理解一下：
上图中，数字表示的是位。我们可以看出，EAX是一�?2-bit寄存器。同�Ӟ��它的�?6-bit又可以通过AX�q�个名字来访问；AX又被分�ؓ高、低8bit两部分，分别由AH和AL来表�C��?/p>
对于EAX、AX、AH、AL的改变同时也会媄响与被修改的那些寄存器的倹{��从而事实上只存在一�?2-bit的寄存器EAX�Q�而它可以通过4�U�不同的途径讉K��?/p>
也许通过名字能够更容易地理解�q�些寄存器之间的关系。EAX中的E的意思是“扩展的”，整个EAX的意思是扩展的AX。X的意思Intel没有明示�Q�我个�h认�ؓ表示它是一个可变的�?。而AH、AL中的H和L分别代表高和�?�?/p>
��Z��么要�q�么做呢�Q�主要由于历史原因。早期的计算机是8位的�Q?086是第一�?6位处理器�Q�其通用寄存器的名字是AX�Q�BX�{�等�Q?0386是Intel推出的第一�ƾIA-32�p�d��处理器，所有的寄存器都被扩充�ؓ32位。�ؓ了能够兼容以前的16位应用程序，80386不能��这些寄存器依旧命名为AX、BX�Q��ƈ且简单地��他们扩充�ؓ32位——这��增加处理器在处理指令方面的成本�?/p>
Intel微处理器的寄存器列表�Q�在本章先只介绍80386的寄存器�Q�MMX寄存器以及其他新一代处理器的新寄存器将在以后的章节介绍�Q?/p>
通用寄存�?/b>
下面介绍通用寄存器及其习惯用法。顾名思义�Q�通用寄存器是那些你可以根据自��q��意愿使用的寄存器�Q�修改他们的值通常不会对计��机的运行造成很大的媄响。通用寄存器最多的用途是计算�?/p>
EAX
32-bit�?/p>
通用寄存器。相对其他寄存器�Q�在�q�行�q�算斚w��比较常用。在保护模式中，也可以作为内存偏�U�L��针（此时�Q�DS作�ؓ�D?寄存器或选择器）
EBX
32-bit�?/p>
通用寄存器。通常作�ؓ内存偏移指针使用�Q�相对于EAX、ECX、EDX�Q�，DS是默认的�D�寄存器或选择器。在保护模式中，同样可以赯��个作用�?/td>
ECX
32-bit�?/p>
通用寄存器。通常用于特定指��o的计数。在保护模式中，也可以作为内存偏�U�L��针（此时�Q�DS作�ؓ 寄存器或�D�选择器）�?/td>
EDX
32-bit�?/p>
通用寄存器。在某些�q�算中作为EAX的溢出寄存器�Q�例如乘、除�Q�。在保护模式中，也可以作为内存偏�U�L��针（此时�Q�DS作�ؓ�D?寄存器或选择器）�?/td>
上述寄存器同EAX一样包括对应的16-bit�?-bit分组�?/p>
用作内存指针的特�D�寄存器
ESI
32-bit�?
通常在内存操作指令中作�ؓ“源地址指针”��用。当�Ӟ��ESI可以被装入�Q意的数��|��但通常没有人把它当作通用寄存器来用。DS是默认段寄存器或选择器�?/td>
EDI
32-bit�?/p>
通常在内存操作指令中作�ؓ“目的地址指针”��用。当�Ӟ��EDI也可以被装入��L��的数��|��但通常没有人把它当作通用寄存器来用。DS是默认段寄存器或选择器�?/td>
EBP
32-bit�?/p>
�q�也是一个作为指针的寄存器。通常�Q�它被高�U�语�a��~�译器用以徏造‘堆栈��’来保存函数或过�E�的局部变量，不过�Q�还是那句话�Q�你可以在其中保存你希望的�Q何数据。SS是它的默认段寄存器或选择器�?/td>
注意�Q�这三个寄存器没有对应的8-bit分组。换�a�之，你可以通过SI、DI、BP作�ؓ别名讉K��他们的低16位，却没有办法直接访问他们的�?位�?/p>
�D�寄存器和选择�?/b>
实模式下的段寄存器到保护模式下摇�w�一变就成了选择器。不同的是，实模式下的“段寄存器”是16-bit的，而保护模式下的选择器是32-bit的�?/p>
CS 代码�D�，或代码选择器。同IP寄存�?�E�后介绍)一同指向当前正在执行的那个地址。处理器执行时从�q�个寄存器指向的�D�（实模式）或内存（保护模式�Q�中获取指��o。除了蟩转或其他分支指��o之外�Q�你无法修改�q�个寄存器的内容�?/td>
DS 数据�D�，或数据选择器。这个寄存器的低16 bit�q�同ESI一同指向的指��o��要处理的内存。同�Ӟ��所有的内存操作指��o 默认情况下都用它指定操作�D?实模�?或内�?作�ؓ选择器，在保护模式。这个寄存器可以被装入�Q意数��|��然而在�q�么做的时候需要小心一些。方法是�Q�首先把数据送给AX�Q�然后再把它从AX传送给DS(当然�Q�也可以通过堆栈来做).
ES 附加�D�，或附加选择器。这个寄存器的低16 bit�q�同EDI一同指向的指��o��要处理的内存。同��L��Q�这个寄存器可以被装入�Q意数��|��Ҏ��和DS�c�M��?/td>
FS F�D�|��F选择�?推测F可能是Free?)。可以用�q�个寄存器作为默认段寄存器或选择器的一个替代品。它可以被装入�Q何数��|��Ҏ��和DS�c�M��?/td>
GS G�D�|��G选择�?G的意义和F一��P��没有在Intel的文档中解释)。它和FS几乎完全一栗��?/td>
SS 堆栈�D�|��堆栈选择器。这个寄存器的低16 bit�q�同ESP一同指向下一�ơ堆栈操�?push和pop)所要��用的堆栈地址。这个寄存器也可以被装入��L��数��|��你可以通过入栈和出栈操作来�l�他赋��|��不过�׃��堆栈对于很多操作有很重要的意义，因此�Q�不正确的修�Ҏ��可能造成对堆栈的破坏�?/td>
* 注意一定不要在初学汇编的阶�D�|��q�些寄存器弄淗��他们非帔R��要，而一旦你掌握了他们，你就可以对他们做��L��的操作了。段寄存器，或选择器，在没有指定的情况下都是��用默认的那个。这句话在现在看来可能有点稀里糊涂，不过你很快就会在后面知道如何��d��?/p>
�Ҏ��寄存�?指向到特定段或内存的偏移�?�Q?/p>
EIP �q�个寄存器非常的重要。这是一�?2位宽的寄存器 �Q�同CS一同指向即��执行的那条指��o的地址。不能够直接修改�q�个寄存器的��|��修改它的唯一�Ҏ��是蟩转或分支指��o�?CS是默认的�D�|��选择�?
ESP �q�个32位寄存器指向堆栈中即��被操作的那个地址。尽��可以修改它的��|��然而�ƈ不提倡这样做�Q�因为如果你不是非常明白自己在做什么，那么你可能造成堆栈的破坏。对于绝大多数情况而言�Q�这对程序是致命的�?SS是默认的�D�|��选择�?
IP: Instruction Pointer, 指��o指针
SP: Stack Pointer, 堆栈指针
好了�Q�上面是最基本的寄存器。下面是一些其他的寄存器，你甚臛_��能没有听说过它们�?都是32位宽)�Q?/p>
CR0, CR2, CR3(控制寄存�?。�D一个例子，CR0的作用是切换实模式和保护模式�?/p>
�q�有其他一些寄存器�Q�D0, D1, D2, D3, D6和D7(调试寄存�?。他们可以作��试器的硬件支持来讄��条�g断点�?/p>
TR3, TR4, TR5, TR6 �?TR? 寄存�?��试寄存�?用于某些条�g��试�?/p>
最后我们要说的是一个在�E�序设计中�v着非常关键的作用的寄存器：标志寄存器�?/p>
本节中部份表格来自David Jurgens的HelpPC 2.10快速参考手册。在此�}表谢意�?/p>

�~�程之道 2006-11-03 17:46 发表评论

�~�程之道 — Fri, 03 Nov 2006 09:41:00 GMT

原创�Q�司徒�R�?/font>

�W�○�?写在前面

我不惛_��大或者贬低汇�~�语�a�。但我想��_��汇编语言改变�?0世纪的历双Ӏ�与前辈相比�Q�我们这一代编�E��h员��够的�q�福�Q�因为我们有各式各样的编�E�语�a��Q�我们可以操作键盘、坐在显�C�器面前�Q�甚至��用鼠标、语韌��别。我们可以��用键盘、鼠标来��N��“个��机”，而不是和一��h�׃�n一��C��用笨重的�l�电器、开兛_��操作的巨型机。相比之下，我们的前辈不得不使用机器语言�~�写�E�序�Q�他们甚��x��有最��单的汇编�E�序来把助记�W�翻译成机器语言�Q�而我们可以从上千�U�计��机语言中选择我们喜欢的一�U�，而汇�~�，虽然不是一�U�“常用”的��h��“快速原型开发”能力的语言�Q�却也是我们可以选择的语�a�中的一�U��?/p>
每种计算机都有自��q��汇编语言——没必要指望汇编语言的可�U�L��性，选择汇编�Q�意味着选择性能而不是可�U�L��或便于调试。这份文档中讲述的是x86汇编语言�Q�此后的“汇�~�语�a�”一词，如果不明�C�则表示ia32上的x86汇编语言�?/p>
汇编语言是一�U�易学，却很隄��通的语言。回惛_��q�_��我从初学汇编到写�?span class="tip" id="oFirstASM" title="">�W�一个可�q�行的程�?font color="#808080">�Q?/font>当时我学�q�BASIC, Fortran和Pascal�Q�写的是一个对一个包�?00�?2bit整数的数�l�进行快速排序，�q�且输出出来的小�E�序�?strong>�Q?/strong>�Q�只用了不到4个小�Ӟ��然而直��C��天，我仍然不敢说自己�_�N��它。编写快速、高效、�ƈ且能够让处理器“很舒服地执行”的�E�序是一件很困难的事情，如果利用业余旉��学习�Q�通常需�?-3�q�的旉��才能做到。这份教材�ƈ不期待能够教�l�你大量的汇�~�语�a�技巧。对于读者来��_��x86汇编语言"��在�q�里"。然而，不要僵化地局限于�q�䆾教材讲述的内容，因�ؓ它只能告诉你汇编语言是“这样一回事”。学好汇�~�语�a��Q�更多的要靠一个�h的创造力于悟性，我可以告诉你我所知道的技巧，但肯定这是不够的。一位对我的�~�程生��产生�q�重要媄响的人曾�l�对我说�q�这么一句话�Q?/p>

写汇�~�语�a��E�序不是汇编语言最隄��部分�Q�创新才是�?/p>

我想�Q�愿意看�q�䆾文档的�h恐怕不会问我“�ؓ什么要学习汇编语言”这��L��问题�Q�不�q�，我还是想说几句：首先�Q�汇�~�语�a�非常有用�Q�我个�h��d��把它作�ؓC语言的先修课�E�，因�ؓ通过学习汇编语言�Q�你可以了解到如何有效地设计数据�l�构�Q�让计算机处理得更快�Q��ƈ使用更少的存储空��_��同时�Q�学习汇�~�语�a�可以让你熟悉计算机内部运行机�Ӟ��q�且�Q�有效地提高调试能力。就我个人的�l�验而言�Q�调试一个非�l�构化的�E�序的困隄��度，要比调试一个结构化的程序的隑ֺ�高很多，因�ؓ“结构化”是以牺牲运行效率来提高可读性与可调试性，�q�对于完成一般��Y件工�E�的�~�码阶段是非常必要的。然而，在一些地方，比如�Q�硬仉��动程序、操作系�l�底层，或者程序中�l�常需要执行的代码�Q�结构化�E�序设计的这些优�Ҏ��时就会被它的低效率所抹煞。另外，如果你想真正地控制自��q��E�序�Q�只知道源代码��的调试是�q�远不够的�?/p>
��躁的�h喜欢��_��用C++写程序��够了�Q�甚臌��Q�他不仅仅掌握C++�Q�而且�_�N��STL、MFC。我不赞成这个观点，掌握上面的那些是每一个编�E��h员都应该做到的，然而C++只是我们"常用"的一�U�语�a��Q�它不是�~�程的全部。低层次的开发者喜�Ƣ说�Q�嘿�Q�C++是多么的强大�Q�它可以做�Q何事情——这不是事实。便于维护、调试，�q�些��实是我们的�q�求目标�Q�但是，写程序不能仅仅追求这个目标，因�ؓ我们最�l�的目的是满��计需求，而不是个人非理性的理想�?/p>
�q�䆾教材适合已经学习�q�某�U�结构化�E�序设计语言的读者。其内容��Z��我在1995�q�给别�h讲述汇编语言时所写的讲义。当�Ӟ��如大家所希望的，它包含了最新的处理器所支持的特性，以及相应的内宏V��我假定读者已�l�知道了�E�序设计的一些基本概念，因�ؓ没有�q�些是无法理解汇�~�语�a��E�序设计的；此外�Q�我希望读者已�l�有了比较良好的�E�序设计基础�Q�因为如果你�~�Z��对于�l�构化程序设计的认识�Q�编写汇�~�语�a��E�序很可能很快就破坏了你的结构化�~�程习惯�Q�大大降低程序的可读性、可�l�护性，最�l�让你的�E�序陷于不得不废弃的代码堆之中�?/p>
基本上，�q�䆾文档撰写的目标是��可能地便于自学。不�q�，它对你也有一些要求，��管不是很高�Q�但我还是强调一下�?/p>

学习汇编语言�Q�你需�?/b>

胆量。不要害怕去接触那些计算机的内部工作机制�?

知识。了解计��机常用的数�Ӟ��特别是二�q�制、十六进制、八�q�制�Q�以及计��机保存数据的方法�?

开放。接受汇�~�语�a�与高�U�语�a�的差异，而不是去指责它如何的不好诅R�?

�l�验。要求你拥有��L��其他�~�程语言的一点点�~�程�l�验�?

头脑�?br />　

��您�~�程愉快�Q?/p>
�W�一�?汇编语言��?/h2>
先说一点和实际�~�程关系不太大的东西。当�Ӟ��如果你迫切的想看到更实质的内容，完全可以先蟩�q�这一章�?/p>
那么�Q�我惛_��能有一个问题对于初学汇�~�的人来说非帔R��要，那就是：

汇编语言到底是什么？
汇编语言是一�U�最接近计算机核心的�~�码语言。不同于��M��高��语言�Q�汇�~�语�a�几乎可以完全和机器语�a�一一对应。不错，我们可以用机器语�a�写程序，但现在除了没有汇�~�程序的那些电脑之外�Q�直接用机器语言写超�q?000条以上指令的人大概只能算作那些被我们成�ؓ“圣人”的牺牲者一�c�M��。毕竟，记忆一些短��的助记�W�、由机器去考虑那些琐碎的配位过�E�和��查错误，比记忆大量的随计��机而改变的十六�q�制代码、可能弄错而没有�Q何提�C��强的多。熟�l�的汇编语言�~�码员甚臛_��以直接从十六�q�制代码中读出汇�~�语�a�的大致意思。当�Ӟ��我们有更好的工具——汇�~�器和反汇编器�?/p>
��单地��_��汇编语言��是机器语言的一�U?span class="tip" id="oDiffOPCASM" title="">可以被�h��L��的�Ş�?font style="BACKGROUND-COLOR: #d3d3d3">�Q?/font>实际上用汇编器写出的机器码与在调试器中用它附带的汇编�E�序写出的机器码�q�是有一些细微差别的�Q�前者更大，然而却可能更高效，因�ؓ汇编�?strong>能够��代码放�|�到适合处理器的地方�Q?/strong>�Q�只不过它更�Ҏ��记忆。至于宏汇编�Q�则是包含了宏支持的汇编语言�Q�这可以让你�~�程的时候更专注于程序本�w�，而不是忙于计��和重写代码�?/p>
汇编语言除了机器语言之外最接近计算机硬件的�~�程语言。由于它如此的接�q�计��机��g�Q�因此，它可以最大限度地发挥计算机硬件的性能。用汇编语言�~�写的程序的速度通常要比高��语言和C/C++快很�?-几倍，几十倍，甚至成百上千倍。当�Ӟ��解释语言�Q�如解释型LISP�Q�没有采用JIT技术的Java虚机中运行的Java�{�等�Q�其�E�序速度�?span class="tip" id="oOptimizeASM" title="">无法�Q?/font>�q�句话假�?strong>两个�E�序�q�行了同�{�程度的优化�Q�一个写的不好的汇编�E�序和一个写的很好的C�E�序相比�Q�汇�~�程�?/font>不一�?/strong>更快�?/font>�Q?/strong>与汇�~�语�a��E�序同日而语 �?/p>
永远不要忽视汇编语言的高速。实际的应用�pȝ��中，我们往往会用汇编��d��重写某些�l�常调用的部分以期获得更高的性能。应用汇�~�也�怸�能提高你的程序的�E�_��性，但至��，如果你非常小心的话，它也不会降低�E�_��性；与此同时�Q�它可以大大地提高程序的�q�行速度。我强烈��所有的软�g产品在最后Release之前�Ҏ��个代码进行Profile�Q��ƈ适当地用汇编取代部分高��语言代码。至��，汇编语言的知识可以告诉你一些有用的东西�Q�比如，你有多少个寄存器可以用。有�Ӟ��手工的优化比�~�译器的优化更�ؓ有效�Q�而且�Q�你可以完全控制�E�序的实际行为�?/p>
我想我在�|�嗦了。��M��Q�在我们�l�束�q�一章之前，我想��_��不要在优化的时候把希望完全寄托在编译器上——现实一些，再好的编译器也不可能��L��产生最优的代码�?/p>

�~�程之道 2006-11-03 17:41 发表评论

指��o1	取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>
指��o2		取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>
指��o3			取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>
指��o4				取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>

助记�W?/font>	意义
movsb	��DS:SI的一字节复制到ES:DI�Q�之后SI++、DI++
movsw	��DS:SI的一字节复制到ES:DI�Q�之后SI+=2、DI+=2
movsd	��DS:SI的一字节复制到ES:DI�Q�之后SI+=4、DI+=4

助记�W?/font>	功能
PUSH	��操作数存入堆栈�Q�同时修正堆栈指�?/td>
POP	��栈��内容取出�ƈ存到目的操作��C��Q�同时修正堆栈指�?/td>

操作�W?/font>	意义
byte ptr	一个字�?8-bit, 1 byte)
word ptr	一个字(16-bit)
dword ptr	一个双�?32-bit)

EAX 32-bit�?/p>	通用寄存器。相对其他寄存器�Q�在�q�行�q�算斚w��比较常用。在保护模式中，也可以作为内存偏�U�L��针（此时�Q�DS作�ؓ�D?寄存器或选择器）
EBX 32-bit�?/p>	通用寄存器。通常作�ؓ内存偏移指针使用�Q�相对于EAX、ECX、EDX�Q�，DS是默认的�D�寄存器或选择器。在保护模式中，同样可以赯��个作用�?/td>
ECX 32-bit�?/p>	通用寄存器。通常用于特定指��o的计数。在保护模式中，也可以作为内存偏�U�L��针（此时�Q�DS作�ؓ 寄存器或�D�选择器）�?/td>
EDX 32-bit�?/p>	通用寄存器。在某些�q�算中作为EAX的溢出寄存器�Q�例如乘、除�Q�。在保护模式中，也可以作为内存偏�U�L��针（此时�Q�DS作�ؓ�D?寄存器或选择器）�?/td>

ESI 32-bit�?	通常在内存操作指令中作�ؓ“源地址指针”��用。当�Ӟ��ESI可以被装入�Q意的数��\|��但通常没有人把它当作通用寄存器来用。DS是默认段寄存器或选择器�?/td>
EDI 32-bit�?/p>	通常在内存操作指令中作�ؓ“目的地址指针”��用。当�Ӟ��EDI也可以被装入��L��的数��\|��但通常没有人把它当作通用寄存器来用。DS是默认段寄存器或选择器�?/td>
EBP 32-bit�?/p>	�q�也是一个作为指针的寄存器。通常�Q�它被高�U�语�a��~�译器用以徏造‘堆栈��’来保存函数或过�E�的局部变量，不过�Q�还是那句话�Q�你可以在其中保存你希望的�Q何数据。SS是它的默认段寄存器或选择器�?/td>

CS	代码�D�，或代码选择器。同IP寄存�?�E�后介绍)一同指向当前正在执行的那个地址。处理器执行时从�q�个寄存器指向的�D�（实模式）或内存（保护模式�Q�中获取指��o。除了蟩转或其他分支指��o之外�Q�你无法修改�q�个寄存器的内容�?/td>
DS	数据�D�，或数据选择器。这个寄存器的低16 bit�q�同ESI一同指向的指��o��要处理的内存。同�Ӟ��所有的内存操作指��o 默认情况下都用它指定操作�D?实模�?或内�?作�ؓ选择器，在保护模式。这个寄存器可以被装入�Q意数��\|��然而在�q�么做的时候需要小心一些。方法是�Q�首先把数据送给AX�Q�然后再把它从AX传送给DS(当然�Q�也可以通过堆栈来做).
ES	附加�D�，或附加选择器。这个寄存器的低16 bit�q�同EDI一同指向的指��o��要处理的内存。同��L��Q�这个寄存器可以被装入�Q意数��\|��Ҏ��和DS�c�M��?/td>
FS	F�D�\|��F选择�?推测F可能是Free?)。可以用�q�个寄存器作为默认段寄存器或选择器的一个替代品。它可以被装入�Q何数��\|��Ҏ��和DS�c�M��?/td>
GS	G�D�\|��G选择�?G的意义和F一��P��没有在Intel的文档中解释)。它和FS几乎完全一栗��?/td>
SS	堆栈�D�\|��堆栈选择器。这个寄存器的低16 bit�q�同ESP一同指向下一�ơ堆栈操�?push和pop)所要��用的堆栈地址。这个寄存器也可以被装入��L��数��\|��你可以通过入栈和出栈操作来�l�他赋��\|��不过�׃��堆栈对于很多操作有很重要的意义，因此�Q�不正确的修�Ҏ��可能造成对堆栈的破坏�?/td>

EIP	�q�个寄存器非常的重要。这是一�?2位宽的寄存器 �Q�同CS一同指向即��执行的那条指��o的地址。不能够直接修改�q�个寄存器的��\|��修改它的唯一�Ҏ��是蟩转或分支指��o�?CS是默认的�D�\|��选择�?
ESP	�q�个32位寄存器指向堆栈中即��被操作的那个地址。尽��可以修改它的��\|��然而�ƈ不提倡这样做�Q�因为如果你不是非常明白自己在做什么，那么你可能造成堆栈的破坏。对于绝大多数情况而言�Q�这对程序是致命的�?SS是默认的�D�\|��选择�?

狠狠综合久久,激情成人av,久久精品国产免费

5.0 �~�译优化概述

5.1 循环优化�Q�强度削减和代码外提

5.5 存储优化

4.0 利用子程序与中断

4.2 中断

���明x86汇编语言教程�Q�五�Q?

3.6 堆栈

本章���结

�W�三�?操作内存

3.2 保护模式

3.3 操作内存

原创�Q�司徒�R�?/font>

�W�○�?写在前面

��明x86汇编语言教程�Q�五�Q?

本章��结