欧美日本免费,一本色道久久综合一区,免费观看成人鲁鲁鲁鲁鲁视频

在PHP中实现进�E�间通讯

�~�程之道 — Fri, 18 Apr 2008 09:26:00 GMT

　　本文��讨论在PHP4环境下如何��用进�E�间通讯机制——IPC(Inter-Process-Communication)。本文讨论的软�g环境是Linux+php4.0.4或更高版本。首�?我们假设你已�l�装好了PHP4和UNIX, ��Z��使得php4可以使用�׃�n内存和信号量�Q�必��d��~�译php4�E�序时激�z�shmop和sysvsem�q�两个扩展模块�?

　　实现�Ҏ(gu��)��Q�在PHP讑֮�(configure)时加入如下选项�?

--enable-shmop --enable-sysvsem

　　�q�样��׃��得你的PHP�pȝ��可以处理相关的IPC函数了�?

　　IPC是什么？

　　IPC (Inter-process communication) 是一个Unix标准通讯机制�Q�它提供了��得在同一��C��Z��同进�E�之间可以互盔R��讯的方法。基本的IPC处理机制�?�U�：(x��)它们分别是共享内存、信号量和消息队列。本文中我们主要讨论�׃�n内存和信号量的��用。关于消息队列，�W�者在不久的将来还�?x��)专门介�l��?

　　在PHP中��用共享内存段

　　在不同的处理�q�程之间使用�׃�n内存是一个实��C��同进�E�之间相互通讯的好�Ҏ(gu��)��。如果你在一个进�E�中向所�׃�n的内存写入一�D�信息，那么所有其他的�q�程也可以看到这�D�被写入的数据。非常方�ѝ��在PHP中有了共享内存的帮助�Q�你可以实现不同�q�程在运行同一�D�PHP脚本时返回不同的�l�果。或实现对PHP同时�q�行数量的实时查询等�{��?

　　�׃�n内存允许两个或者多个进�E�共享一�l�定的存储区。因为数据不需要在客户机和服务器之间复�Ӟ��所以这是最快的一�U�IPC。��用共享内存的唯一�H�门是多个进�E�对一�l�定存储区的同步存取�?

　　如何建立一个共享内存段呢？下面的代码可以帮你徏立共享内存�?nbsp;

$shm_id = shmop_open($key, $mode, $perm, $size);

　　注意�Q�每个共享内存段都有一个唯一的ID, 在PHP中，shmop_open�?x��)把建立好的�׃�n内存�D늚�ID�q�回�Q�这里我们用$shm_id记录它。�?key是一个我们逻辑上表�C�共享内存段的Key倹{��不同进�E�只要选择同一个Key id��可以共享同一�D�存储段。习(f��n)惯上我们用一个串�Q�类似文件名一��L(f��ng)��东西�Q�的散列��g��为key id. $mode指明了共享内存段的��用方式。这里由于是新徏�Q�因此��gؓ(f��)’c’ –取create之意。如果你是访问已�l�徏立过的共享内存那么请�?#8217;a’,-- 取Access之意�?perm参数定义了访问的权限�Q?�q�制�Q�关于权限定义请看UNIX文�g�pȝ��帮助�?size定义了共享内存的大小。尽��有点象fopen(文�g处理)你可不要当它同文件处理一栗��后面的描述你将看到着一炏V�?

　　例如�Q?

$shm_id = shmop_open(0xff3, "c", 0644, 100);

　　�q�里我们打开了一个共享内存段键�?xff3 –rw-r—r—格式，大小�?00字节�?

　　如果需要访问已有的�׃�n内存�D�，你必��d��调用shmop_open中设�W?�?个参��Cؓ(f��)0�?

　　IPC工作状态的查询

　　在Unix下，你可以用一个命令行�E�序ipcs查询�pȝ��所有的IPC资源状态。不�q�有些系�l�要求需要超�U�用��h��能执行。下图是一�D�ipcs的运行结果�?/p>

　　上图中系�l�显�C�Z��4个共享内存段�Q�注意其中第4个键��gؓ(f��)0x00000ff3的就是我们刚刚运行过的PHP�E�序所创徏的。关于ipcs的用法请参考UNIX用户手册�?

　　如何释放�׃�n内存�?

　　释放�׃�n内存的办法是调用PHP指��o(h��):shmop_delete($id)

shmop_delete($id);

　　$id ��是你调用shmop_open所存的shmop_op的返回倹{��还有一个办法就是用UNIX的管理指�?

　　ipcrm id, id��是你用ipcs看到的ID.和你�E�序中的$id不一栗��不�q�要��心�Q�如果你用ipcrm直接删除�׃�n内存�D�那么有可能��D��其他不知道这一情况的进�E�在引用�q�个已经不复存在的共享内存器时出��C��些不可预��的错误(往往�l�果不妙)�?

　　如何使用(��d��)�׃�n内存�?

　　使用如下所�C�函数向�׃�n内存写入数据

int shmop_write (int shmid, string data, int offset)

　　其中shmid是用shmop_open�q�回的句柄�?Data变量存放了要存放的数据�?offset描述了写入从�׃�n内存的开始第一个字节的位置�Q�以0开始）(j��)�?

　　��d��操作是：(x��)

string shmop_read (int shmid, int start, int count)

　　同样�Q�指�?shmid,开始偏�U�量�Q�以0开始）(j��)、总读取数量。返回结果串。这��P��你就可以把共享内存段当作是一个字节数�l�。读几个再写几个�Q�想�q�嘛��干嘛，十分方便�?

　　多进�E�问题的考虑

　　现在�Q�在单独的一个PHP�q�程中读写、创建、删除共享内存方面上你应该没有问题了。但是，昄��实际�q�行中不可能只是一个PHP�q�程在运行中。如果在多个�q�程的情况下你还是沿用单个进�E�的处理�Ҏ(gu��)��Q�你一定会(x��)��到问题 ---- 著名的�ƈ行和互斥问题。比如说�?个进�E�同旉��要对同一�D�内存进行读写。当两个�q�程同时执行写入操作�Ӟ��你将得到一个错误的数据�Q�因��D�内存将之可能是最后执行的�q�程的内容，甚至是由2个进�E�写入的数据轮流随机出现的一�D�|؜合的四不象。这昄��是不能接受的。�ؓ(f��)了解册��个问题，我们必须引入互斥机制。互斥机制在很多操作�pȝ��的教材上都有专门讲述�Q�这里不多重复。实��C��斥机制的最��单办法就是��用信��L(f��ng)��。信号量是另外一�U�进�E�间通讯(IPC)的方式，它同其他IPC机构(��道、FIFO、消息队�?不同。它是一个记数器�Q�用于控制多�q�程对共享数据的存储。同��L(f��ng)��是你可以用ipcs和ipcrm实现对信��L(f��ng)��使用状态的查询和对其实现删除操作。在PHP中你可以用下列函数创��Z��个新的信号量�q�返回操作该信号量的句柄。如果该key指向的信号量已经存在�Q�sem_get直接�q�回操作该信号量的句柄�?

int sem_get (int key [, int max_acquire [, int perm]])

　　$max_acquire 指明同时最多可以用几个�q�程�q�入该信可��(g��)�不必等待该信号被释放（也就是最大同时处理某一资源的进�E�数�?一般该值均��Z��Q��?perm指明了访问权限�?

　　一旦你成功的拥有了一个信号量�Q�你对它所能做的只�?�U�：(x��)��h��、释放。当你执行释放操作时, �pȝ��把该信号值减一。如果小�?那就�q�设�?。而当你执行请求操作时�Q�系�l�将把该信号值加一�Q�如果该值大于设定的最大值那么系�l�将挂�v你的处理�q�程直到其他�q�程释放到小于最大��gؓ(f��)止。一般情况下最大��D��?,�q�样一来当一个进�E�获得请求时其他后面的进�E�只能等待它退��Z��斥区后释放信号量才能�q�入该互斥区�q�同时设为独占方式。这��L(f��ng)��信号量常�U�Cؓ(f��)双态信号量。当�?d��ng)��如果初值是��L��一个正数就表明有多��个�׃�n资源单位可供�׃�n应用�?

　　甌��、释放操作的PHP格式如下�Q?

int sem_acquire (int sem_identifier)

甌��

int sem_release (int sem_identifier)

释放
其中sem_identifier是调用sem_get的返回��|��句柄�Q��?nbsp;
一个简单的互斥协议例子
下面是一�D�很��单的互斥操作规程�?

$semid=sem_get(0xee3,1,0666);
$shm_id = shmop_open(0xff3, "c", 0644, 100);
sem_acquire($semid);�?nbsp;//甌��
/* �q�入临界�?/span>*/
/*�q�里�Q�对�׃�n内存�q�行处理 */
sem_release($semid); �?/span>//释放

　　正如你所看到的，互斥的实现很��单：(x��)甌��q�入临界区，对��(f��)界区资源�q�行操作�Q�比如修改共享内存）(j��)退��Z��(f��)界区�q��放信受��这样一来就可以保证在同一个时间片中不可能有同�?个进�E�对同一�D�共享内存进行操作。因��Z��号量机制保证一个时间片只能�׃��个进�E�进入，其他�q�程必须�{�待当前处理的进�E�完成后方能�q�入�?

　　临界��Z��般是指那些不允许同时有多个进�E��ƈ发处理的代码�D�c(di��n)�?

　　要注意的�?在PHP中必��ȝ��同一个进�E�释攑֮�所占用的信号量。在一般系�l�中允许�q�程释放别的�q�程占用的信受��在�~�写临界��Z��码一定要��心设计资源的分配，避免A�{�B�Q�B�{�A的死锁情况发生�?nbsp;

　　�q��?/strong>

　　IPC的运用是十分�q�泛的。比如，在不同进�E�间保存一个解释过的复杂的配置文�g、或具体讄��的用��L(f��ng)��Q�以避免重复处理。我也曾�l�用�׃�n内存的技术把一大批PHP脚本必须引用的一个很大的文�g攑օ��׃�n内存�Q��ƈ由此显著提升了Web服务的速度、消除了部分瓉��。关于它的��用还有聊天室�Q�多路广播等�{�。IPC的威力取决于你的惌��力的大小。如果本文对你有一点点启发�Q�那我不胜荣�q�。愿意很你讨��令�h入迷的电(sh��)脑技术。Email: qwyaxm@163.net

�~�程之道 2008-04-18 17:26 发表评论

Apache模块开发实�?�?

�~�程之道 — Wed, 30 Jan 2008 08:35:00 GMT
     摘要:   1/**//**  2* Copyright 2003 Tom, Inc. All rights reserved.  3*  4* Description: Apache模块取用户图�?nbsp;...  阅读全文

�~�程之道 2008-01-30 16:35 发表评论

Smarty截取中文扩展�Q�支持UTF-8和GB

�~�程之道 — Tue, 20 Nov 2007 06:34:00 GMT

1function smarty_modifier_truncate_cn($string, $length = 80, $code = 'UTF-8', $etc = '')
2{
3    if ($length == 0)
4        return '';
5    if($code == 'UTF-8'){
6        $pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
7    }
8    else{
9        $pa = "/[\x01-\x7f]|[\xa1-\xff][\xa1-\xff]/";
10    }
11    preg_match_all($pa, $string, $t_string);
12    if(count($t_string[0]) > $length)
13        return join('', array_slice($t_string[0], 0, $length)).$etc;
14    return join('', array_slice($t_string[0], 0, $length));
15}

以下代码保存为ascii格式

1<html>
2<head>
3<title>Truncate ��试title>
4<meta http-equiv="Content-Type" content="text/html; charset=gbk" />
5head>
6<body>
7{{$string}}<br>
8{{$string|truncate_cn:15:"":""}}<br>
9body>
10html>

以下代码保存�?UTF-8格式

1<html>
2<head>
3<title>Truncate ��试title>
4<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
5head>
6<body>
7{{$string}}<br>
8{{$string|truncate_cn:15:"UTF-8":""}}<br>
9body>
10html>

�~�程之道 2007-11-20 14:34 发表评论

抓取腾讯天气预报的类

�~�程之道 — Mon, 27 Aug 2007 08:37:00 GMT
     摘要: �cȝ��代码�Q?  1阅读全文

�~�程之道 2007-08-27 16:37 发表评论

关于linux上的�U�程资源

�~�程之道 — Fri, 29 Dec 2006 09:57:00 GMT

前几天写个多�U�程的程序，主要是从文�g��L��据，然后分线�E�发送，本来惛_��U�程里用pthread_detach()分离�U�程�Q�但是我惌��U�程执行�l�果�Q�所以不得不攑ּ�pthread_detach()。在�U�程�l�束的时候用pthread_exit()�Q�发完文件用ptrehad_join()取返回倹{��结果竟然发玎ͼ�(x��)起到300多个�U�程的时候就出现can't allocate memory�Q�这可郁��h��我了�Q�找了半天资料，后来看到一��文章，是说linux上的pthread_exit()不回收线�E�资源，只能用pthread_join()来回�Ӟ��郁闷啊……最后只得在起到一定数量的�U�程后回收一遍资源。又学了一招了…�?/p>

�~�程之道 2006-12-29 17:57 发表评论

VC++开发B(t��i)HO插�g——定制你的浏览器

�~�程之道 — Mon, 11 Dec 2006 07:49:00 GMT
     摘要: 在Windows操作�pȝ��上，我们最常见的浏览器有两�U�：(x��)文�g��览器（exploer.exe�Q�应用于文�g�pȝ��Q�和Internet��览器（iexplore.exe�Q�应用于互联�|�资源）(j��)。由于这两个��览器功能强大，而且又与Windows操作�pȝ��捆绑销售，最�l�也��成��Z��览器的标准。但有时候，��Z��l�浏览器加入一些新的特性，我们往往�?x��)重新设计一个自��q��览器。新的浏览器模仿标准��览器的大部分功能，同时加入新特�?..  阅读全文

�~�程之道 2006-12-11 15:49 发表评论

��?Python 教程

�~�程之道 — Mon, 13 Nov 2006 06:33:00 GMT
学python的初�U�教�E�，很不�?br />http://www.woodpecker.org.cn:9081/doc/abyteofpython_cn/chinese/index.html

�~�程之道 2006-11-13 14:33 发表评论

�~�程之道 — Mon, 06 Nov 2006 02:39:00 GMT
原创�Q�司徒�R�?

5.0 �~�译优化概述
优化是一仉��帔R��要的事情。作��Z��个程序设计者，你肯定希望自��q��E�序既小又快。DOS时代的许多书中都提到�Q�“某某编译器能够生成非常紧凑的代码”，换言之，�~�译器会(x��)��Z��把代码尽可能地羃减，如果你能够正��地使用它提供的功能的话。目前，Intel x86体系上流行的C/C++�~�译器，包括Intel C/C++ Compiler, GNU C/C++ Compiler�Q�以�?qi��ng)最新的Microsoft和Borland�~�译器，都能够提供非常紧凑的代码。正��地使用�q�些�~�译器，则可以得到性能��_��好的代码�?/p>
但是�Q�机器目前还不能像�h那样做富于创造性的事情。因而，有些时候我们可能会(x��)不得不手工来做一些事情�?/p>
使用汇编语言优化代码是一件困难，而且技巧性很强的工作。很多编译器能够生成为处理器�q�行�q�特�D�优化处理的代码�Q�一旦进行修改，�q�些�Ҏ(gu��)��优化可能��׃��(x��)被破坏而失效。因此，在你军_��使用自己的汇�~�代码之前，一定要��试一下，到底是编译器生成的那�D�代码更好，�q�是你的更好�?/p>
本章中将讨论一些编译器在某些时候会(x��)做的事情(从某�U�意义上��_(d��)��本章内容更像是计��机专业的基��课中《编译程序设计原理》、《计��机�l�成原理》、《计��机体系�l�构》课�E�中的相兛_��?。本章的许多内容和汇�~�语�a��E�序设计本��n关系�q�不是很紧密�Q�它们多数是在�ؓ(f��)使用汇编语言�q�行优化做准备。编译器��实做这些优化，但它�q�不��L��q�么做；此外�Q�就�~�译器的设计本质来说�Q�它��实没有义务�q�么做——编译器做的是等义变换，而不是等效变换。考虑下面的代码：(x��)
// �E�序�D?
int gaussianSum(){
int i, j=0;
for(i=0; i<100; i++) j+=i;
return j;
}
好的�Q�首先，�l�大多数�~�译器恐怕不�?x��)自作主张地把它“篡改”�ؓ(f��)
// �E�序�D?(改进1)
int gaussianSum(){
int i, j=0;
for(i=1; i<100; i++) j+=i;
return j;
}
多数�Q�但��实不是全部�Q�编译器也不�?x��)把它改�?/p>
// �E�序�D?(改进2)
inline int gaussianSum(){
return 5050;
}
�q�两个修改版本都不同于原先程序的语义。首先我们看刎ͼ�让i�?开始是没有必要的，因�ؓ(f��)j+=i�Ӟ��i=0不会(x��)做�Q何有用的事情�Q�然后是�Q�实际上没有必要每一�ơ都计算1+...+100的和——它可以被预先计��，�q�在需要的时候返回�?/p>
�q�个例子也许�q�不恰当(估计没�h�?x��)写出最初版本那��L(f��ng)��代码)�Q�但�q�种实践在程序设计中��实可能出现。我们把改进2�U�Cؓ(f��)�~�译时表辑ּ�预先计算�Q�而把改进1成�ؓ(f��)循环强度削减�?/p>
然而，一些新的编译器的确�?x��)进行这两种优化。不�q�别慌，看看下面的代码：(x��)
// �E�序�D?
int GetFactorial(int k){
int i, j=1;
if((k<0) || (k>=10)) return -1;
if((k<=1)) return 1
for(i=1; i
return j;
}
�E�序采用的是一个时间复杂度为O(n)的算法，不过�Q�我们可以把他轻易地改�ؓ(f��)O(1)的算法：(x��)
// �E�序�D? (非规范改�q?
int GetFactorial(int k){
int i, j=1;
static const int FractorialTable[]={1, 1, 2, 6, 24,
    120, 720, 5040, 40320, 362880, 3628800};
if((k<0) || (k>=10)) return -1;
return FractorialTable[k];
}
�q�是一个典型的以空间换旉��的做法。通用的编译器不会(x��)�q�么做——因为它没有办法在编译时��定你是不是要这么改。可以说�Q�如果编译器真的�q�样做的话，那将是一件可怕的事情�Q�因为那时候你��很隄��道编译器生成的代码和自己想的到底有多大的差距�?/p>
当然�Q�这�c�M��化超��Z��本文的范围——基本上�Q�我把它们归入“算法优化”，而不是“程序优化”一�c�R��类似的优化�q�程需要程序设计�h员对于程序逻辑非常深入��C��解和全盘的掌握，同时�Q�也需要有丰富的算法知识�?/p>
自然�Q�如果你希望自己的程序性能有大�q�度的提升，那么首先应该做的是算法优化。例如，把一�?i>O(n²)的算法替换�ؓ(f��)一�?i>O(n)的算法，则程序的性能提升��远�q�超�q�对于个别语句的修改。此外，一个已�l�改写�ؓ(f��)汇编语言的程序，如果要再在算法上作大�q�度的修改，其工作量��和重写相当。因此，在决定��用汇�~�语�a��q�行优化之前�Q�必��首先考虑��法优化。但假如已经是最优的��法�Q�程序运行速度�q�是不够快怎么办呢�Q?/p>
好的�Q�现在，假定你已�l��用了已知最好的��法�Q�决定把它交�l�编译器�Q�让我们来看看编译器�?x��)��?f��)我们做什么，以及(qi��ng)我们是否有机�?x��)插手此事，做得更好�?/p>
5.1 循环优化�Q�强度削减和代码外提
比较新的�~�译器在�~�译时会(x��)自动把下面的代码�Q?/p>
for(i=0; i<10; i++){
j = i;
k = j + i;
}
臛_��变换�?/p>
for(i=0; i<10; i++);
j=i; k=j+i;
甚至
j=i=10; k=20;
当然�Q�真正的�~�译器实际上是在中间代码层次作这件事情�?/p>
原理如果数据��的某个中间�?�E�序执行�q�程中的计算�l�果)在��用之前被另一中间��D��盖，则相兌��不必进行�?/p>
也许有�h�?x��)问�Q�编译器不是都给�׃��做了吗，��它做什么？注意�Q�这里说的只是编译系�l�中优化部分的基本设计。不仅在从源代码��C��间代码的�q�程中存在优化问题，而且�~�译器生成的最�l�的机器语言(汇编)代码同样存在�c�M��的问题。目前，几乎所有的�~�译器在最�l�生成代码的�q�程中都有或多或��的瑕疵�Q�这些瑕�늛��?font color="#ff0000">只能依靠手工修改代码来解冟�?/p>
5.2 局部优化：(x��)表达式预计算和子表达式提�?/h3>
表达式预先计��非常简单，��是在编译时��可能地计算�E�序中需要计��的东西。例如，你可以毫不犹豫地写出下面的代码：(x��)
const unsigned long nGiga = 1024L * 1024L * 1024L;
而不必担心程序每�ơ执行这个语句时作两遍乘法，因�ؓ(f��)�~�译器会(x��)自动地把它改�?/p>
const unsigned long nGiga = 1073741824L;
而不是傻乎乎地让计算机在执行到这个初始化赋��D��句的时候才计算。当�?d��ng)��如果你愿意在上面的代码中��Z��一些变量的话，�~�译器同样会(x��)把常数部分先行计��，�q�拿到结果�?/p>
表达式预计算�q�不�?x��)让�E�序性能有飞跃性的提升�Q�但��实减少了运行时的计��强度。除此之外，�l�大多数�~�译器会(x��)把下面的代码�Q?/p>
// [假设此时b, c, d, e, f, g, h都有一个确定的非零整数��|��q�且�Q?br />// a[]��Z��个包�?个整数元素的数组�Q�其下标�?�?]
a[0] = b*c;
a[1] = b+c;
a[2] = d*e;
a[3] = b*d + c*d;
a[4] = b*d*e + c*d*e;
优化�?再次��Q�编译器实际上是在中间代码的层次�Q�而不是源代码层次做这件事情！)�Q?/p>
// [假设此时b, c, d, e, f, g, h都有一个确定的非零整数��|��q�且�Q?br />// a[]��Z��个包�?个整数元素的数组�Q�其下标�?�?]
a[0] = b*c;
a[1] = b+c;
a[2] = d*e;
a[3] = a[1] * d;
a[4] = a[3] * e;
更进一步，在实际代码生成过�E�中�Q�一些编译器�q�会(x��)对上�q�语句的�ơ序�q�行调整�Q�以使其�q�行效率更高。例如，��语句调整�ؓ(f��)下面的次序：(x��)
// [假设此时b, c, d, e, f, g, h都有一个确定的非零整数��|��q�且�Q?br />// a[]��Z��个包�?个整数元素的数组�Q�其下标�?�?]
a[0] = b*c;
a[1] = b+c;
a[3] = a[1] * d;
a[4] = a[3] * e;
a[2] = d*e;
在某些体�pȝ��构中�Q�刚刚计��完的a[1]可以攑ֈ�寄存器中�Q�以提高实际的计��性能。上�q?个计��Q务之��_(d��)��只有1, 3, 4三个计算��d��必须串行地执行，因此�Q�在新的处理器上�Q�这样做甚至能够提高�E�序的�ƈ行度�Q�从而�ɽE�序效率变得更高�?/p>
5.3 全局寄存器优�?/h3>
[待修订内�?/font>] 本章中，从这一节开始的所有优化都是在微观层面上的优化了。换�a�之，�q�些优化是不能��用高�U�语�a�中的对应设施�q�行解释的。这一部分内容��进行较大规模的修订�?/i>
通常�Q�此�c�M��化是��q��译器自动完成的。我个�h�q�不推荐真的�׃�h来完成这些工作——这些工作多半是枯燥而重复性的�Q�编译器通常�?x��)比人做得更�?没说的，肯定也更�?。但话说回来�Q��用汇�~�语�a�的程序设计�h员有责�Q了解�q�些内容�Q�因为只有这��h��能更好地��N��处理器�?/p>
在前面的几章中我已经提到�q�，寄存器的速度要比内存快。因此，在��用寄存器斚w��Q�编译器一般会(x��)做一�U�称为全局寄存器优化的优化�?/p>
例如�Q�在我们的程序中使用�?个变量：(x��)i, j, k, l。它们都作�ؓ(f��)循环变量使用�Q?/p>
for(i=0; i<1000; i++){
for(j=0; j<1000; j++){
    for(k=0; k<1000; k++){
      for(l=0; l<1000; l++)
        do_something(i, j, k, l);
    }
}
}
�q�段�E�序的优化就不那么简单了。显�?d��ng)��按照通常的压栈方法，i, j, k, l应该按照某个��序被压�q�堆栈，然后调用do_something()�Q�然后函数做了一些事情之后返回。问题在于，无论如何压栈�Q�这些东西大概都得进内存(不可否认某些机器可以用CPU的Cache做这件事情，但Cache是写通式的和回写式的又会(x��)造成一些性能上的差异)�?/p>
聪明的读者马上就�?x��)指出，我们不是可以在定义do_something()的时候加上inline修饰�W�，让它在本地展开吗？没错�Q�本地展开以增加代码量��Z��h��取性能�Q�但�q�只是问题的一半。编译器��管完成了本地展开�Q�但它仍焉��要做许多额外的工作。因为寄存器只有那么有限的几个，而我们却有这么多的��@环变量�?/p>
把四个变量按照它们在循环中��用的频率排序�Q��ƈ军_��在do_something()块中的优先顺�?攑օ�寄存器中的优先顺�?是一个解��x��案。很明显�Q�我们可以按照l, k, j, i的顺�?从高��C��Q�因为l��被�q�行1000*1000*1000*1000�ơ运��！)来排列，但在实际的问题中�Q�事情往往没有�q�么��单，因�ؓ(f��)你不知道do_something()中做的到底是什么。而且�Q�凭什么就以for(l=0; l<1000; l++)作�ؓ(f��)优化的分界点呢？如果do_something()中还有��@环怎么办？
如此复杂的计��问题交�l�计��机来做通常�?x��)有比较满意的结果。一般说来，�~�译器能够对�E�序中变量的使用�q�行更全面地估计�Q�因此，它分配寄存器的结果有时虽然让��解，但却是最优的(因�ؓ(f��)计算��够进行大量的重复计算�Q��ƈ扑ֈ�最好的�Ҏ(gu��)��Q�而�h做这件事相对来讲比较困难)�?/p>
�~�译器在许多时候能够作出相当让人满意的�l�果。考虑以下的代码：(x��)
int a=0;
for(int i=1; i<10; i++)
for(int j=1; j<100; j++){
    a += (i*j);
}
让我们把它变为某�U��Ş式的中间代码�Q?/p>
00: 0 -> a
01: 1 -> i
02: 1 -> j
03: i*j -> t
04: a+t -> a
05: j+1 -> j
06: evaluate j < 100
07: TRUE? goto 03
08: i+1 -> i
09: evaluate i < 10
10: TRUE? goto 02
11: [�l�箋执行�E�序的其余部分]
�E�序中执行强度最大的无疑�?3�?5�q�一�D�，涉及(qi��ng)的需要写入的变量包括a, j�Q�需要读出的变量是i。不�q�，最�l�的�~�译�l�果大大��Z��我们的意料。下面是某种优化模式下Visual C++ 6.0�~�译器生成的代码(我做了一些修�?�Q?/p>
xor eax, eax               ; a=0(eax: a)
mov edx, 1                 ; i=1(edx: i)
push esi                   ; 保存esi(最后要恢复�Q�esi作�ؓ(f��)代替j的那个��@环变�?
nexti:
mov ecx, edx               ; [t=i]
mov esi, 999               ; esi=999: 此处修改了原�E�序的语义，但仍�?000�ơ��@环�?/font>
nextj:
add eax, ecx               ; [a+=t]
add ecx, edx               ; [t+=i]
dec esi                    ; j--
jne SHORT nextj            ; jne �{��h(hu��n)�?jnz. [如果�q�需要，则再�ơ��@环]
inc edx                    ; i++
cmp edx, 10                ; i�?0比较
jl SHORT nexti             ; i < 10, 再次�?/font>�?br />pop esi                    ; 恢复esi
�q�段代码可能有些令�h费解。主要是因�ؓ(f��)它不仅��用了大量寄存器，而且�q�包括了5.2节中曾提到的子表辑ּ�提取技术。表面上看，多引入的那个变量(t)增加了计��时��_(d��)��但要注意�Q�这个t不仅不会(x��)降低�E�序的执行效率，相反�q�会(x��)让它变得更快�Q�因为同样得��C��计算�l�果(本质上，i*j��x��W�j�ơ篏加i的�?�Q�但�q�个�l�果不仅用到了上�ơ运��的�l�果�Q�而且�q�省��M��乘法(很显然计��机计算加法要比计算乘法�?�?/p>
�q�里可能�?x��)有人问�Q��ؓ(f��)什么要�?99循环�?�Q�而不是按照程序中写的那样�?循环�?99呢？�q�个问题和汇�~�语�a�中的取址有关。在下两节中我将提到�q�方面的内容�?/p>
5.4 x86体系�l�构上的�q�行最大化和指令封�?/h3>
考虑�q�样的问题，我和两个同伴现在在山里，�q�处有一口井�Q�我们带着一口锅�Q��n�Ҏ(gu��)��?w��i)林�Q��n上的饮用水已�l�喝光了�Q�此处允许砍柴和使用明火(当然我们不想引�v火灾:)�Q�需要烧一锅水�Q�应该怎么样呢�Q?/p>
一�U�方案是�Q�三个�h一��h��Ӟ��一��L(f��ng)��_(d��)��一��h��_(d��)��一��h��水烧开�?/p>
另一�U�方案是�Q�一个�h搭灶�Q�此时另一个�h�ȝ��_(d��)��W�三个�h打水�Q�然后把水烧开�?/p>
�q�两�U�方案画出图来是�q�样�Q?/p>
仅仅�q�样很难说明两个�Ҏ(gu��)��C��孰劣�Q�因为我们�ƈ不明��三个�h一��h��水、一��L(f��ng)��柴、一��h��灶的效率更高�Q�还是分别作效率更高(通常的想法，一起做也许效率�?x��)更�?。但假如��_(d��)��三个��Z��个只�?x��)搭�Ӟ��一个只�?x��)砍��_(d��)��一个只�?x��)打�?当然是说�q�三件事�?�Q�那么，�Ҏ(gu��)��2的效率就�?x��)搞一些了�?/p>
在现实生�z�M��Q�某个�h拥有专长是比较普遍的情况�Q�在设计计算机硬件的时候则更是如此。你不可能指望加法器不做��M��改动��p��d��U�M��甚至整数乘法�Q�然而我们注意到�Q�串行执行的�E�序不可能在同一时刻同时用到处理器的所有功能，因此�Q�我�?很自然地)�?x��)希望有一些指令�ƈ行地执行�Q�以充分利用CPU的计��资源�?/p>
CPU执行一条指令的�q�程基本上可以分��Z��面几个阶�D�：(x��)取指令、取数据、计��、保存数据。假设这4个阶�D�各需�?个时钟周期，那么�Q�只要资源够用，�q�且4条指令之间不存在串行关系(换言之这些指令的执行先后�ơ序不媄(ji��ng)响最�l�结果，或者，更严格地��_(d��)��没有��M��一条指令依赖其他指令的�q�算�l�果)指��o(h��)也可以像下面�q�样执行�Q?/p>
指��o(h��)1 取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td> 　　　
指��o(h��)2 　取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td> 　　
指��o(h��)3 　　取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td> 　
指��o(h��)4 　　　取指�?/td> 取数�?/td> 计　��?/td> 存数�?/td>
�q�样�Q�原本需�?6个时钟周期才能够完成的�Q务就可以�?个时钟周期内完成�Q�时间羃短了一半还多。如果考虑灰色的那些方�?�q�些�Ҏ(gu��)��可以�?条指令以外的其他指��o(h��)使用�Q�只要没有串行关�p�L��冲突)�Q�那么，如此执行对于性能的提升将是相当可观的(此时�Q�CPU的所有部仉��得到了充分利�?�?/p>
当然�Q�作为程序来��_(d��)��真正做到�q�样是相当理惛_��的情��c(di��n)��实际的�E�序中很隑ց�到彻底的�q�行化。假设CPU能够支持4条指令同时执行，�q�且�Q�每条指令都是等周期长度�?周期指��o(h��)�Q�那么，�E�序需要保证同一时刻先后发射�?条指令都能够�q�行执行�Q�相互之间没有关联，�q�通常是不太可能的�?/p>
最新的Intel Pentium 4-XEON处理器，以及(qi��ng)Intel Northwood Pentium 4都提供了一�U�被�U�Cؓ(f��)��线�E?Hyper-Threading^TM)的技术。该技术通过在一个处理器中封装两�l�执行机构来提高指��o(h��)�q�行度，�q�依靠操作系�l�的调度来进一步提升系�l�的整体效率�?/p>
�׃��U�程机制是与操作�pȝ��密切相关的，因此�Q�在本文的这一部分中不可能做更为深入地探讨。在后箋的章节中�Q�我��介�l�Win32、FreeBSD 5.x以及(qi��ng)Linux中提供的内核�U�线�E�机�?�q�三�U�操作系�l�都支持SMP�?qi��ng)超�U�程技术，�q�且以线�E�作��度单�?在汇�~�语�a�中的使用�Ҏ(gu��)��?/p>
关于�U�程的讨论就此打住，因�ؓ(f��)它更多地依赖于操作系�l�，�q�且�Q�无论如何，操作�pȝ��的线�E�调度需要更大的开销�q�且�Q�到目前为止�Q�真正��用支持超�U�程的CPU�Q��ƈ且��用相应操作系�l�的人是非常��的。因此，我们需要关心的实际上还是同一执行序列中的�q�发执行和指令封包。不�q�，令�h遗憾的是�Q�实际上在这斚w��~�译器做的几乎是肯定要比人好�Q�因此，你需要做的只是开启相应的优化�Q�如果你的编译器不支持这��L(f��ng)��Ҏ(gu��)��，那么��把它扔掉……据我所知，目前在Intel�q�_��上指令封包方面做的最好的是Intel的C++�~�译器，�l�过Intel�~�译器编译的代码的性能令�h惊异地高�Q�甚臛_��AMD公司推出的兼容处理器上也是如此�?/p>
5.5 存储优化
从前一节的图中我们不难看出�Q�方�?中，如果谁的动作慢，那么他就�?x��)成为性能的瓶颈。实际上�Q�CPU也不�?x��)像我描�q�的那样四��^八稳地运行，指��o(h��)执行的不同阶�D�需要的旉��(旉��周期�?是不同的�Q�因此，�~�短关键步骤(卻I��造成瓉��的那个步�?是羃短执行时间的关键�?/p>
臛_��对于使用Intel�p�d��的CPU来说�Q�取数据�q�个步骤需要消耗比较多的时间。此外，假如数据跨越了某�U�边�?�?�?字节�Q�与CPU的字长有�?�Q�则C(j��)PU需要启动两�ơ甚��x��多次数的��d��存操作，�q�无疑对性能构成不利影响�?/p>
��Z��q�样的原因，我们可以得到下面的设计策略：(x��)

�E�序设计中的内存数据讉K��{�略
��可能减��对于内存的讉K��。在不违背这一原则的前提下�Q�如果可能，��数据一�ơ处理完�?
��可能将数据�?�?字节寚w��Q�以利于CPU存取
��可能一�D�|��间内讉K��范围不大的一�D�内存，而不同时讉K��大量�q�距��ȝ��分散数据�Q�以利于Cache�~�存*
�W�一条规则比较简单。例如，需要求一�l�数据中的最大倹{��最��倹{��^均数�Q�那么，最好是在一�ơ��@环中做完�?/p>
“于是，�q�家伙又攒了一�D�代码”…�?/p>
int a[]={1,2,3,4,5,6,7,8,9,0,1,2,3,4,5,6,7,8,9,0};
int i;
int avg, max, min;
avg=max=min=a[0];
for(i=1; i<(sizeof(a)/sizeof(int)); i++){
avg+=a[i];
if(max < a[i])
    max = a[i];
elseif(min > a[i])
    min = a[i];
}
avg /= i;
Visual C++�~�译器把最开始一�D�赋��D��句翻译成了一�D늮�直可以说是匪��h��思的代码�Q?/p>
; int a[]={1,2,3,4,5,6,7,8,9,0,1,2,3,4,5,6,7,8,9,0};

mov edi, 2                         ; 此时edi没有意义
mov esi, 3                         ; esi也是�Q��(f��)时变量而已�?/font>
mov DWORD PTR _a$[esp+92], edi
mov edx, 5                         ; 黑名单加上edx
mov eax, 7                         ; eax也别�?)
mov DWORD PTR _a$[esp+132], edi
mov ecx, 9                         ; ��差你了�Q�ecx

; int i;
; int avg, max, min;
; avg=max=min=a[0];

mov edi, 1                         ; edi摇��n一变，现在它是min了�?/font>
mov DWORD PTR _a$[esp+96], esi
mov DWORD PTR _a$[esp+104], edx
mov DWORD PTR _a$[esp+112], eax
mov DWORD PTR _a$[esp+136], esi
mov DWORD PTR _a$[esp+144], edx
mov DWORD PTR _a$[esp+152], eax
mov DWORD PTR _a$[esp+88], 1       ; �~�译器失�? 此处edi应更�?/font>
mov DWORD PTR _a$[esp+100], 4
mov DWORD PTR _a$[esp+108], 6
mov DWORD PTR _a$[esp+116], 8
mov DWORD PTR _a$[esp+120], ecx
mov DWORD PTR _a$[esp+124], 0
mov DWORD PTR _a$[esp+128], 1
mov DWORD PTR _a$[esp+140], 4
mov DWORD PTR _a$[esp+148], 6
mov DWORD PTR _a$[esp+156], 8
mov DWORD PTR _a$[esp+160], ecx
mov DWORD PTR _a$[esp+164], 0
mov edx, edi                      ; edx是max�?/font>
mov eax, edi                      ; 期待已久的avg, 它被指定为eax
�q�段代码是最优的吗？我个��Z��是。因为编译器完全可以在编译过�E�中直接把它们作为常量数据放入内存。此外，如果预先对a[0..9]10个元素赋��|��q�利用串操作指��o(h��)(rep movsdw)�Q�速度�?x��)更快一些�?/p>
当然�Q�犯不上因�ؓ(f��)�q�些问题责怪编译器。要求编译器知道a[0..9]和[10..19]的内容一��h��免过于苛刅R��我们看看下面的指��o(h��)�D�：(x��)
; for(i=1; ...

mov esi, edi
for_loop:

; avg+=a[i];

mov ecx, DWORD PTR _a$[esp+esi*4+88]
add eax, ecx

; if(max < a[i])

cmp edx, ecx
jge SHORT elseif_min

; max = a[i];

mov edx, ecx

; else if(min > a[i])

jmp SHORT elseif_min
elseif_min:
cmp edi, ecx
jle SHORT elseif_end

; min = a[i];
mov edi, ecx

elseif_end:

; [for i=1]; i<20; i++){

inc esi
cmp esi, 20
jl SHORT for_loop

; }
; avg /= i;

cdq
idiv esi

; esi: i

; ecx: 暂存变量, =a[i]
; eax: avg

; edx: max

; 有趣的代�?..�q�不是所有的时候都有用
; 但是也别随便删除
; edi: min

; i++
; i�?0比较

; avg /= i
上面的程序倒是没有什么惊��Z��处。唯一一个比较吓人的东西是那个jmp SHORT指��o(h��)�Q�它是否有用取决于具体的问题。C/C++�~�译器有时会(x��)产生�q�样的代码，我过��L��l�错误地把所有的此类指��o(h��)当作没用的代码而删掉，后来发现�E�序执行旉��没有明显的变化。通过查阅文档才知道，�q�类指��o(h��)实际上是“占位指令”，他们存在的意义在于占据那个地方，一来��其他语句能够正确地按CPU觉得舒服的方式对齐，二来它可以占据CPU的某些周期，使得后箋的指令能够更好地�q�发执行�Q�避免冲�H�。另一个比较常见的、实现类似功能的指��o(h��)是NOP�?/p>
占位指��o(h��)的去留主要是靠计时执行来判断。由于目前流行的操作�pȝ��基本上都是多��d��的，因此�?x��)对计时的精��性有一定媄(ji��ng)响。如果需要进行测试的话，需要保证以下几点：(x��)

计时��试需要注意的问题
��试必须在没有额外负��L(f��ng)��机器上完成。例如，专门用于�~�写和调试程序的计算�?
��量�l�止计算��Z��q�行的所有服务，特别是杀毒程�?
切断计算机的�|�络�Q�这��L(f��ng)��l�的影响�?x��)消�?
��进�E�优先��调高。对于Windows�pȝ��来说�Q�把�q�程(�U�程)讄��为Time-Critical; 对于*nix�pȝ��来说�Q�把�q�程讄��为实时进�E?
��测试函数运行尽可能多次�q�行�Q�如10000000�ơ，�q�样能够减少�׃��q�城切换而造成的偶然误�?
最后，如果可能的话�Q�把函数攑ֈ�单进�E�的�pȝ��(例如FreeDOS)中运行�?/li>
对于�l�大多数�E�序来说�Q�计时测试是一个非帔R��要的东西。我个�h們֐�于在�q�行优化后进行计时测试�ƈ比较�l�果。目前，我基于经验进行的优化基本上都能够提高�E�序的执行性能�Q�但我还是不敢过于自信。优化确实会(x��)提高性能�Q�但人做的和�~�译器做的思�\不同�Q�有�Ӟ��我们的确�?x��)做一些费力不讨好的事情�?/p>

�~�程之道 2006-11-06 10:39 发表评论

�~�程之道 — Mon, 06 Nov 2006 02:36:00 GMT
原创�Q�司徒�R�?

4.0 利用子程序与中断
已经掌握了汇�~�语�a��Q�没错，你现在已�l�可以去破译别�h代码中的�U�密。然而，我们�q�有一仉��要的东西没有提到�Q�那��是自程序和中断。这两�g东西是如此的重要�Q�以至于你的�E�序几乎不可能离开它们�?/p>
4.1 子程�?/h4>
在高�U�语�a�中我们经常要用到子程序。高�U�语�a�中，子程序是如此的神奇，我们能够定义和主�E�序�Q�或其他子程序一��L(f��ng)��变量名，而访问不同的变量�Q��ƈ且，�q�不和程序的其他部分相冲�H��?/p>
然而遗憄��是，�q�种“优劎쀝在汇编语言中是不存在的�?/p>
汇编语言�q�不注重如何减轻�E�序员的负担�Q�相反，汇编语言依赖�E�序员的良好设计�Q�以期发挥CPU的最��x��能。汇�~�语�a�不是�l�构化的语言�Q�因此，它不提供直接的“局部变量”。如果需要“局部变量”，只能通过堆或栈自行实现�?/p>
从这个意义上�Ԍ��汇编语言的子�E�序更像GWBASIC中的GOSUB调用的那些“子�E�序”。所有的“变量�?本质上，属于�q�程的内存和寄存�?为整个程序所�׃�n�Q�高�U�语�a��~�译器所做的�Q�将局部变量放到堆或栈中的操作�Q�只能自行实现�?/p>
参数的传递是靠寄存器和堆栈来完成的。高�U�语�a�中，子程�?函数、过�E�，或类似概�늚�东西)依赖于堆和栈来传递�?/p>
让我们来��单地分析一下一般高�U�语�a�的子�E�序的执行过�E�。无论C、C++、BASIC、Pascal�Q�这一部分基本都是一致的�?/p>

调用者将子程序执行完成时应返回的地址、参数压入堆�?
子程序��用BP指针+偏移量对栈中的参数寻址�Q��ƈ取出、完成操�?
子程序��用RET或RETF指��o(h��)�q�回。此�Ӟ��CPU��IP�|��ؓ(f��)堆栈中保存的地址�Q��ƈ�l�箋予以执行
毋庸�|�疑�Q�堆栈在整个�q�程中发挥着非常重要的作用。不�q�，本质上对子程序最重要的还是返回地址。如果子�E�序不知道这个地址�Q�那么系�l�将�?x��)崩溃�?/p>
调用子程序的指��o(h��)是CALL�Q�对应的�q�回指��o(h��)是RET。此外，�q�有一�l�指令，即ENTER和LEAVE�Q�它们可以帮助进行堆栈的�l�护�?/p>
CALL指��o(h��)的参数是被调用子�E�序的地址。��用宏汇编的时候，�q�通常是一个标受��CALL和RET�Q�以�?qi��ng)ENTER和LEAVE配对�Q�可以实现对于堆栈的自动操作�Q�而不需要程序员�q�行PUSH/POP�Q�以�?qi��ng)蟩转的操作�Q�从而提高了效率�?/p>
作�ؓ(f��)一个编译器的实现实例，我用Visual C++�~�译了一�D�C++�E�序代码�Q�这�D�|��~�代码是使用特定的编译选项得到的结果，正常的RELEASE代码�?x��)比它精��得多。包含源代码的部分反汇编�l�果如下(取自Visual C++调试器的�q�行�l�果�Q�我删除�?0条int 3指��o(h��)�Q��ƈ加上了一些注释，除此之外�Q�没有做��M��修改)�Q?/p>
1: int myTransform(int nInput){
00401000 push ebp                   ; 保护现场原先的EBP指针
00401001 mov ebp,esp
2: return (nInput*2 + 3) % 7;
00401003 mov eax,dword ptr [nInput] ; 取参�?/font>
00401006 lea eax,[eax+eax+3]        ; LEA比ADD加法更快
0040100A cdq                        ; DWORD->QWORD(扩展字长)
0040100B mov ecx,7                  ; 除数
00401010 idiv eax,ecx               ; �?/font>
00401012 mov eax,edx                ; �?>eax(eax中保存返回�?
3: }
00401014 pop ebp                    ; 恢复现场的ebp指针
00401015 ret                        ; �q�回
; 此处删除10条int 3指��o(h��)�Q�它们是方便调试用的�Q��ƈ不媄(ji��ng)响程序行为�?/font>
4:
5: int main(int argc, char* argv[])
6: {
00401020 push ebp                   ; 保护现场原先的EBP指针
00401021 mov ebp,esp
00401023 sub esp,10h                ; 为取argc, argv修正堆栈指针�?br />7:int a[3];
8:for(register int i=0; i<3; i++){
00401026 mov dword ptr [i],0        ; 0->i
0040102D jmp main+18h (00401038)    ; 判断循环条�g
0040102F mov eax,dword ptr [i]      ; i->eax
00401032 add eax,1                  ; eax ++
00401035 mov dword ptr [i],eax      ; eax->i
00401038 cmp dword ptr [i],3        ; 循环条�g: i�?比较
0040103C jge main+33h (00401053)    ; 如果不符合条�Ӟ��则应�l�束循环
9: a[i] = myTransform(i);
0040103E mov ecx,dword ptr [i]      ; i->ecx
00401041 push ecx                   ; ecx (i) -> 堆栈
00401042 call myTransform (00401000); 调用myTransform
00401047 add esp,4                  ; esp+=4: 在堆中的新单�?br />                                    ; 准备存放�q�回�l�果
0040104A mov edx,dword ptr [i]      ; i->edx
0040104D mov dword ptr a[edx*4],eax ; ��eax(myTransform�q�回�?
                                    ; 攑֛�a[i]
10: }
00401051 jmp main+0Fh (0040102f)    ; 计算i++�Q��ƈ�l�箋循环
11:return 0;
00401053 xor eax,eax                ; �q�回值应该是0
12: }
00401055 mov esp,ebp                ; 恢复堆栈指针
00401057 pop ebp                    ; 恢复BP
00401058 ret                        ; �q�回调用�?C++�q�行环境)
上述代码��实做了一些无用功�Q�当�?d��ng)��q�是因�ؓ(f��)�~�译器没有对�q�段代码�q�行优化。让我们来关注一下这�D�代码中�Q�是如何调用子程序的。不考虑myTransform�q�个函数实际�q�行的数��D��，最让我感兴��的是这一行代码：(x��)
00401003 mov eax,dword ptr [nInput] ; 取参�?/font>
�q�里nInput是一个简��单单的变量符号吗�Q�Visual C++的调试器昄��不能告诉我们�{�案——它的设计目标是��Z��方便�E�序调试�Q�而不是向你揭�C�编译器生成的代码的实际构造。我用另外一个反汇编器得到的�l�果是：(x��)
00401003 mov eax,dword ptr [ebp+8] ; 取参�?/font>
�q�和我们在main()中看到的压栈��序是完全吻合的(注意�Q�程序运行到�q�个地方的时候，EBP=ESP)。main()最�l�将i�?b>�?/b>通过堆栈传递给了myTransform()�?/p>
剖析上面的程序只是说明了我前面所提到的子�E�序的一部分用法。对于汇�~�语�a�来说�Q�完全没有必要拘泥于�l�构化程序设计的框架(在今天，使用汇编的主要目的在于提高执行效率，而不是方便程序的�l�护和调试，因�ؓ(f��)汇编不可能在�q�一点上做得比C++更好)。考虑下面的程序：(x��)
void myTransform1(int nCount, char* sBytes){
for(register int i=1; i    sBytes[i] += sBytes[i-1];
for(i=0; i    sBytes[i] <<= 1;
}

void myTransform2(int nCount, char* sBytes){
for(register int i=0; i    sBytes[i] <<= 1;
}
很容易看出，�q�两个函数包含了公共部分�Q�即
for(i=0; i    sBytes[i] <<= 1;
目前�Q�还没有�~�译器能够做到将�q�两部分合�ƈ。依然沿用刚才的�~�译选项�Q�得到的反汇�~�结果是(同样地删除了int 3)�Q?/p>
1:void myTransform1(int nCount, char* sBytes){
00401000 push ebp
00401001 mov ebp,esp
00401003 push ecx
2:for(register int i=1; i00401004 mov dword ptr [i],1
0040100B jmp myTransform1+16h (00401016)
0040100D mov eax,dword ptr [i]
00401010 add eax,1
00401013 mov dword ptr [i],eax
00401016 mov ecx,dword ptr [i]
00401019 cmp ecx,dword ptr [nCount]
0040101C jge myTransform1+3Dh (0040103d)
3: sBytes[i] += sBytes[i-1];
0040101E mov edx,dword ptr [sBytes]
00401021 add edx,dword ptr [i]
00401024 movsx eax,byte ptr [edx-1]
00401028 mov ecx,dword ptr [sBytes]
0040102B add ecx,dword ptr [i]
0040102E movsx edx,byte ptr [ecx]
00401031 add edx,eax
00401033 mov eax,dword ptr [sBytes]
00401036 add eax,dword ptr [i]
00401039 mov byte ptr [eax],dl
0040103B jmp myTransform1+0Dh (0040100d)
4:for(i=0; i0040103D mov dword ptr [i],0
00401044 jmp myTransform1+4Fh (0040104f)
00401046 mov ecx,dword ptr [i]
00401049 add ecx,1
0040104C mov dword ptr [i],ecx
0040104F mov edx,dword ptr [i]
00401052 cmp edx,dword ptr [nCount]
00401055 jge myTransform1+6Bh (0040106b)
5: sBytes[i] <<= 1;
00401057 mov eax,dword ptr [sBytes]
0040105A add eax,dword ptr [i]
0040105D mov cl,byte ptr [eax]
0040105F shl cl,1
00401061 mov edx,dword ptr [sBytes]
00401064 add edx,dword ptr [i]
00401067 mov byte ptr [edx],cl
00401069 jmp myTransform1+46h (00401046)
6: }
0040106B mov esp,ebp
0040106D pop ebp
0040106E ret
7:
8:void myTransform2(int nCount, char* sBytes){
00401070 push ebp
00401071 mov ebp,esp
00401073 push ecx
9:for(register int i=0; i00401074 mov dword ptr [i],0
0040107B jmp myTransform2+16h (00401086)
0040107D mov eax,dword ptr [i]
00401080 add eax,1
00401083 mov dword ptr [i],eax
00401086 mov ecx,dword ptr [i]
00401089 cmp ecx,dword ptr [nCount]
0040108C jge myTransform2+32h (004010a2)
10: sBytes[i] <<= 1;
0040108E mov edx,dword ptr [sBytes]
00401091 add edx,dword ptr [i]
00401094 mov al,byte ptr [edx]
00401096 shl al,1
00401098 mov ecx,dword ptr [sBytes]
0040109B add ecx,dword ptr [i]
0040109E mov byte ptr [ecx],al
004010A0 jmp myTransform2+0Dh (0040107d)
11: }
004010A2 mov esp,ebp
004010A4 pop ebp
004010A5 ret
12:
13:int main(int argc, char* argv[])
14: {
004010B0 push ebp
004010B1 mov ebp,esp
004010B3 sub esp,0CCh
15:char a[200];
16:for(register int i=0; i<200; i++)a[i]=i;
004010B9 mov dword ptr [i],0
004010C3 jmp main+24h (004010d4)
004010C5 mov eax,dword ptr [i]
004010CB add eax,1
004010CE mov dword ptr [i],eax
004010D4 cmp dword ptr [i],0C8h
004010DE jge main+45h (004010f5)
004010E0 mov ecx,dword ptr [i]
004010E6 mov dl,byte ptr [i]
004010EC mov byte ptr a[ecx],dl
004010F3 jmp main+15h (004010c5)
17: myTransform1(200, a);
004010F5 lea eax,[a]
004010FB push eax
004010FC push 0C8h
00401101 call myTransform1 (00401000)
00401106 add esp,8
18: myTransform2(200, a);
00401109 lea ecx,[a]
0040110F push ecx
00401110 push 0C8h
00401115 call myTransform2 (00401070)
0040111A add esp,8
19:return 0;
0040111D xor eax,eax
20: }
0040111F mov esp,ebp
00401121 pop ebp
00401122 ret
非常明显圎ͼ�0040103d-0040106e�?0401074-004010a5�q�两�D�代码存在少量的差别�Q�但很显然只是对寄存器的偏好不同(�~�译器在优化�Ӟ��q�可能会(x��)减少堆栈操作�Q�从而提高性能�Q�但在这里只是��用了不同的寄存器而已)
对代码进行合�q�的好处是非常明昄��。新的操作系�l�往往使用��式内存��理。当内存不��Ӟ��E�序往往�?x��)频�J�引发页面失�?Page faults)�Q�从而引发操作系�l�从��盘中读取一些东�ѝ��磁盘的速度赶不上内存的速度�Q�因此，�q�一行�ؓ(f��)��导致性能的下降。通过合�ƈ一部分代码�Q�可以减��程序的大小�Q�这意味着减少��面失效的可能性，从而��Y件的性能�?x��)有所提高?/p>
当然�Q�这样做的代价也不算低——你的程序将变得难懂�Q��ƈ且难于维护。因此，再进行这��L(f��ng)��优化之前�Q�一定要注意�Q?/p>

优化前的�E�序必须是正��的。如果你不能��保�q�一点，那么�q�种优化必将�l�你的调试带来极大的�ȝ��(ch��)�?
优化前的�E�序实现最�?/font>是最优的。仔�l�检查你的设计，看看是否已经使用了最合�?卻I��对于此程序而言最�?的算法，�q�且已经在高�U�语�a�许可的范围内�q�行了最好的实现�?
优化最�?/font>能够非常有效地减��程序大��?例如�Q�如果只是减��十几个字节�Q�恐怕就没什么必要了)�Q�或非常有效地提高程序的�q�行速度(如果代码只是�q�行一�ơ，�q�且只是节省几个旉��周期�Q�那么在多数场合都没有意�?。否则，�q�种优化��得不偿失�?/li>
4.2 中断
中断应该说是一个陈旧的话题。在新的�pȝ��中，它的作用正在逐渐被削弱，而变成操作系�l�专用的东西。�ƈ不是所有的计算机系�l�都提供中断�Q�然而在x86�pȝ��中，它的作用是不可替代的�?/p>
中断实际上是一�cȝ��D�的子程序。它通常��q��l�调用，以响应突发事件�?/p>
例如�Q�进行磁盘操作时�Q��ؓ(f��)了提高性能�Q�可能会(x��)使用DMA方式�q�行操作。CPU向DMA控制器发出指令，要求外设和内存直接交换数据，而不通过CPU。然后，CPU转去�q�行起他的操作；当数据交换结束时�Q�CPU可能需要进行一些后�l�操作，但此时它如何才能知道DMA已经完成了操作呢�Q?/p>
很显然不是依靠CPU��L��询状态——这样DMA的优势就不明显了。�ؓ(f��)了尽可能地利用DMA的优势，在完成DMA操作的时候，DMA�?x��)告诉CPU“这事儿我办完了”，然后CPU�?x��)根据需要进行处理�?/p>
�q�种处理可能很复杂，需要若�q�条指��o(h��)来完成。子�E�序是一个不错的��L��Q�不�q�，CALL指��o(h��)需要指定地址�Q�让外设��CPU执行一条CALL指��o(h��)也违背了CPU作�ؓ(f��)核心控制单元的设计初街��考虑到这些，在x86�pȝ��中引入了中断向量的概��c(di��n)�?/p>
中断向量表是保存在系�l�数据区(实模式下�Q�是0:0开始的一�D�区�?的一�l�指针。这�l�指针指向每一个中断服务程序的地址。整个中断向量表的结构是一个线性表�?/p>
每一个中断服务有自己的唯一的编��P��我们通常�U�C��Z��断号。每一个中断号对应中断向量表中的一��，也就是一个中断向量。外讑֐�CPU发出中断��h��Q�而CPU自己��根据当前的�E�序状态决定是否中断当前程序�ƈ调用相应的中断服务�?/p>
不难�Ҏ(gu��)��造成中断的原因将中断分�ؓ(f��)两类�Q�硬件中断和软�g中断。硬件中断有很多分类�Ҏ(gu��)��Q�如�Ҏ(gu��)��是否可以屏蔽分类、根据优先��高低分类�Q�等�{�。考虑到这些分�c�dƈ不一定科学，�q�且对于我们介绍中断的��用没有太大的帮助�Q�因此我�q�不打算太详�l�地介绍�?在本教程的高�U�篇中，关于加密解密的部分会(x��)提到某些��g中断的利用，但那是后�?�?/p>
在设计操作系�l�时�Q�中断向量的概念曄��带来�q�很大的便利。操作系�l�随时可能升�U�，�q�样�Q�通过CALL来调用操作系�l�的服务(如果说每个程序都包含对于文�g�pȝ��、进�E�表�q�些应该由操作系�l�管理的数据的直接操作的话，不仅�?x��)造成�E�序的臃肿，而且不利于系�l�的安全)��显得不太合适了——没��知道�Q�以后的操作�pȝ��的服务程序入口点�?x��)不会(x��)是那儿。��Y件中断的存在��册��个问题提供了方便�?/p>
对于一台包含了BIOS的计��机来说�Q�启动的时候系�l�已�l�提供了一部分服务�Q�例如显�C�服务。无��Z��的BIOS、显�C�卡有多么的“个性”，只要他们和IBM PC兼容�Q�那么此时你肯定可以通过调用16(10h)号中断来使用昄��服务。调用中断的指��o(h��)�?/p>

int 中断�?br />
�q�将引发CPU去调用一个中断。CPU��保存当前的�E�序状态字�Q�清除Trap和Interrupt两个标志�Q�将卛_��执行的指令地址压入堆栈�Q��ƈ调用中断服务(�Ҏ(gu��)��中断向量�?�?/p>
�~�写中断服务�E�序不是一件容易的事情。很多时候，中断服务�E�序必须写成可重入代�?/b>(或纯代码�Q�pure code)。所谓可重入代码是指�Q�程序的�q�行�q�程中可以被打断�Q��ƈ由开始处再次执行�Q��ƈ且在合理的范围内(多次重入�Q�而不造成堆栈溢出�{�其他问�?�Q�程序可以在被打断处�l�箋执行�Q��ƈ且执行结果不受媄(ji��ng)响�?/p>
�׃��在多�U�程环境中等其他一些地方进行程序设计时也需要考虑�q�个因素�Q�因此这里着重讲一下可重入代码的编写�?/p>
可重入代码最主要的要求就是，�E�序不应使用某个指定的内存地址的内�?对于高��语言来说�Q�这通常是全局变量�Q�或对象的成�?。如果可能的话，应��用寄存器�Q�或其他方式来解冟뀂如果不能做到这一点，则必��d��开始、结束的时候分别禁止和启用中断�Q��ƈ且，�q�行旉��不能太长�?/p>
下面用C语言分别举一个可重入函数�Q�和两个非可重入函数的例�?�? �q�些例子应该是在某本多线�E�或操作�pȝ��的书上看到的�Q�遗憄��是我想不��h��是哪本书了，在这里先感谢那位作者提供的范例)�Q?/p>
可重入函敎ͼ�(x��)
void strcpy(char* lpszDest, char* lpszSrc){
while(*dest++=*src++);
*dest=0;
}
非可重入函数
char cTemp;                                   // 全局变量

void SwapChar(char* lpcX, char* lpcY){
cTemp = *lpcX; *lpcX = *lpcY; lpcY = cTemp; // 引用了全局变量�Q�在分��n内存的多个线�E�中可能造成问题
}
非可重入函数
void SwapChar2(char* lpcX, char* lpcY){
static char cTemp;                          // 静态变�?/font>
cTemp = *lpcX; *lpcX = *lpcY; lpcY = cTemp; // 引用了静态变量，在分享内存的多个�U�程中可能造成问题
}
中断利用的是�pȝ��的栈。栈操作是可重入�?因�ؓ(f��)栈可以保证“先�q�后出�?�Q�因此，我们�q�不需要考虑栈操作的重入问题。��用宏汇编器写出可重入的汇�~�代码需要注意一些问题。简单地��_(d��)��q�脆不要用标号作为变量是一个不错的��L��?/p>
使用高��语言�~�写可重入程序相�Ҏ(gu��)��讲轻松一些。把持住不访问那些全局(或当前对象的)变量�Q�不使用静态局部变量，坚持只适用局部变量，写出的程序就��是可重入的�?/p>
书归正传�Q�调用��Y件中断时�Q�通常都是通过寄存器传�q�、传出参数。这意味着你的int指��o(h��)周围也许�?x��)存在一些“帮手”，比如下面的代码：(x��)
mov ax, 4c00h
int 21h
��是通过调用DOS中断服务�q�回父进�E�，�q�带回错误反馈码0。其中，ax中的数据4c00h��是传递给DOS中断服务的参数�?/p>
到这里，x86汇编语言的基��部分��基本上讲完了，《简明x86汇编语言教程》的初�񔽋�——汇�~�语�a�基础也就到此告一�D�落。当�?d��ng)��目前为止�Q�我只是蜻蜓�Ҏ(gu��)��一般提��C��一些学�?f��n)x86汇编语言中我认�ؓ(f��)需要注意的重要概念。许多东西，包括全部汇编语句的时序特�?指��o(h��)执行周期敎ͼ�以及(qi��ng)指��o(h��)周期中各个阶�D늚�节拍数等)、功能、参数等�{�，限于个�h水��^和篇�q�我都没有作详细介绍。如果�?zh��n)�对这些内��?gu��)��兴趣�Q�请参考Intel和AMD两大CPU供应商网站上提供的开发�h员参考�?/p>
在以后的��明x86汇编语言教程中�񔽋�和高�񔽋�中�Q�我��着重介�l�汇�~�语�a�的调试技术、优化，以及(qi��ng)一些具体的应用技巧，包括反跟�t�、反反跟�t�、加密解密、病毒与反病毒等�{��?/p>

�~�程之道 2006-11-06 10:36 发表评论

��明x86汇编语言教程�Q�五�Q?

�~�程之道 — Mon, 06 Nov 2006 02:33:00 GMT
原创�Q�司徒�R�?br />
3.4 串操�?/h3>
我们前面已经提到�Q�内存可以和寄存器交换数据，也可以被赋予立即数。问题是�Q�如果我们需要把内存的某部分内容复制到另一个地址�Q�又怎么做呢�Q?/p>
设想��DS:SI处的�q�箋512字节内容复制到ES:DI�Q�先不考虑可能的重叠）(j��)。也�怼�(x��)有�h写出�q�样的代码：(x��)

NextByte: mov cx,512
mov al,ds:[si]
mov es:[di],al
inc si
inc di
loop NextByte ; 循环�ơ数
我不喜欢上面的代码。它的确能达��C��用，但是�Q�效率不好。如果你是在做优化，那么写出�q�样的代码意味着赔了夫�h又折��c(di��n)�?/p>
Intel的CPU的强��Ҏ(gu��)��串操作。所谓串操作��是由CPU��d��成某一数量的、重复的内存操作。需要说明的是，我们常用的KMP��法�Q�用于匹配字�W�串中的模式�Q�的改进——Boyer��法�Q�由于没有利用串操作�Q�因此在Intel的CPU上的效率�q��最优。好的编译器往往可以利用Intel CPU的这一�Ҏ(gu��)��优化代码，然而，�q��所有的时候它都能产生最好的代码�?/p>
某些指��o(h��)可以加上REP前缀�Q�repeat, 反复之意�Q�，�q�些指��o(h��)通常被叫做串操作指��o(h��)�?/p>
举例来说�Q�STOSD指��o(h��)��EAX的内容保存到ES:DI�Q�同时在DI上加或减四。类似的�Q�STOSB和STOSW分别�?字节�?字的上述操作�Q�在DI上加或减的数�?�?�?/p>
计算��a�通常是不允许二义性的。�ؓ(f��)什么我要说“加或减”呢�Q�没错，孤立地看STOS?指��o(h��)�Q��ƈ不能知道到底是加�q�是减，因�ؓ(f��)�q�取决于“方向”标�?DF, Direction Flag)。如果DF被复位，则加�Q�反之则减�?/p>
�|�位、复位的指��o(h��)分别是STD和CLD�?/p>
当然�Q�REP只是几种可用前缀之一。常用的�q�包括REPNE�Q�这个前�~�通常被用来比较两个串�Q�或搜烦(ch��)某个特定字符�Q�字、双字）(j��)。REPZ、REPE、REPNZ也是非常常用的指令前�~��Q�分别代表ZF(Zero Flag)在不同状态时重复执行�?/p>
下面说三个可以复制数据的指��o(h��)�Q?/p>
助记�W?/font> 意义
movsb ��DS:SI的一字节复制到ES:DI�Q�之后SI++、DI++
movsw ��DS:SI的一字节复制到ES:DI�Q�之后SI+=2、DI+=2
movsd ��DS:SI的一字节复制到ES:DI�Q�之后SI+=4、DI+=4
于是上面的程序改写�ؓ(f��)
cld
mov cx, 128
rep movsd ; 复位DF
; 512/4 = 128�Q�共128个双�?br />; 行动�Q?/font>
�W�一句cld很多时候是多余的，因�ؓ(f��)实际写程序时�Q�很��会(x��)出现�|�DF的情��c(di��n)��不�q�在正式军_��删掉它之前，��你仔�l�地调试自己的程序，�q�确认每一个能够走到这里的路径中都不会(x��)��DF�|�位�?/p>
错误�Q�非预期的）(j��)的DF是危险的。它很可能断送掉你的�E�序�Q�因��直接造成�~�冲区溢�?/b>问题�?/p>
什么是�~�冲区溢出呢�Q�缓冲区溢出分�ؓ(f��)两类�Q�一�c�L��写入�~�冲��Z��外的内容�Q�一�c�L��d��~�冲��Z��外的内容。后一�U�往往更隐蔽，但随便哪一个都有可能断送掉你的�E�序�?/p>
�~�冲区溢出对于一个网�l�服务来说很可能更加危险。怀有恶意的用户能够利用它执行自己希望的指��o(h��)。服务通常拥有更高的特权，而这很可能会(x��)造成�Ҏ(gu��)��提升�Q�即使不能提升攻击者拥有的�Ҏ(gu��)��Q�他也可以利用这�U�问题��服务崩溃�Q�从而�Ş成一�ơ成功的DoS�Q�拒�l�服务）(j��)��d��。每�q�CERT的安全公告中�Q�都�?成左右的问题是由于缓冲区溢出造成的�?/p>
在��用汇�~�语�a��Q�或C语言�~�写�E�序�Ӟ��很容易在无意中引入缓冲区溢出。然而�ƈ不是所有的语言都会(x��)引入�~�冲区溢出问题，Java和C#�Q�由于没有指针，�q�且�~�冲区采取动态分配的方式�Q�有效地消除了造成�~�冲区溢出的土壤�?/p>
汇编语言中，�׃��REP*前缀都用CX作�ؓ(f��)计数器，因此情况�?x��)好一些（当然�Q�有时也�?x��)更�p�糕�Q�因为由于CX的限�Ӟ��很可能��原本可能改变�E�序行�ؓ(f��)的缓冲区溢出的范围羃?y��u)��，从而更为隐蔽）(j��)。避免缓冲区溢出的一个主要方法就是仔�l�检查，�q�包括两斚w��Q�设�|�合理的�~�冲区大��，和根据大��编写程序。除此之外，非常重要的一点就是，在汇�~�语�a��q�个�U�别写程序，你肯定希望去掉所有的无用指��o(h��)�Q�然而再��L��之前�Q�一定要�q�行严格的测试；更进一步，如果能加上注释，�q��过善用宏来做调试模式检查，往往能够辑ֈ�更好的效果�?/p>
3.5 关于保护模式中内存操作的一点说�?/h3>
正如3.2节提到到的那��P��保护模式中，你可以��?2位的�U�性地址�Q�这意味着直接讉K��4GB的内存。由于这个原因，选择器不用像实模式中�D�寄存器那样频繁��C��攏V��顺便提一句，�q�䆾教程中所说的保护模式指的�?86以上的保护模式，或者，Microsoft通常�U�Cؓ(f��)“增强模式”的那种�?/p>
在�ؓ(f��)选择器装入数值的时候一定要非常��心。错误的数值往往�?x��)导致无效页面错�?在Windows中经常出�?)。同�Ӟ��也不要忘��C��的地址�?2位的�Q�这也是保护模式的主要优势之一�?/p>
现在假设存在一个描�q�符描述从物理的0:0开始的全部内存�Q��ƈ已经加蝲�q�DS(数据选择�?�Q�则我们可以通过下面的程序来操作VGA的VRAM�Q?/p>
mov edi,0a0000h
mov byte ptr [edi],0fh ; VGA昑֭�的偏�U�量
; ��第一字节改�ؓ(f��)0fh
很明显，�q�比实模式下的程�?/p>
mov ax,0a000h
mov ds,ax
mov di,0
mov [di],0fh ; AX -> VGA�D�地址
; ��AX��D��入DS
; DI清零
; 修改�W�一字节
看上去要舒服一些�?/p>
3.6 堆栈
到目前�ؓ(f��)止，�(zh��n)�已�l�了解了基本的寄存器以及(qi��ng)内存的操作知识。事实上�Q��?zh��n)�现在已经可以写出很多的底层数据处理程序了�?/p>
下面我来说说堆栈。堆栈实在不是一个让人陌生的数据�l�构�Q�它是一�?span class="tip" id="oFILO" title="">先进后出(FILO)�Q?b>先进后出(FILO)是这样一个概念：(x��)最�?/b>放进表中的数据在取出�?b>最�?/b>出来�?b>先进后出(FILO)�?b>先进先出(FIFO, 和先�q�后出的规则相反)�Q�以�?b>随机存取是最主要的三�U�存储器讉K��方式。对于堆栈而言�Q�最后放入的数据在取出时最先出现。对于子�E�序调用�Q�特别是递归调用来说�Q�这是一个非常有用的�Ҏ(gu��)��。）(j��)的线性表�Q�能够帮助你完成很多很好的工作�?/p>
一个铁杆的汇编语言�E�序员有时会(x��)发现�pȝ��提供的寄存器不够。很昄��Q�你可以使用普通的内存操作来完成这个工作，��像C/C++中所做的那样�?
没错�Q�没错，可是�Q�如果数据段�Q�数据选择器）(j��)以及(qi��ng)偏移量发生变化怎么办？更进一步，如果希望保存某些在这�U�操作中可能受到影响的寄存器的时候怎么办？��实�Q�你可以把他们也存到自己的那片内存中�Q�自己实现堆栈�?/p>
太麻�?ch��)了…�?/p>
既然�pȝ��提供了堆栈，�q�且性能比自己写一份更好，那么��Z��么不直接加以利用呢？
�pȝ��堆栈不仅仅是一�D�内存。由于CPU对它实施��理�Q�因此你不需要考虑堆栈指针的修正问题。可以把寄存器内容，甚至一个立��x��直接攑ֈ�堆栈里，�q�在需要的时候将其取出。同�Ӟ��pȝ��q�不要求取出的数据仍然回到原来的位置�?/p>
除了昑ּ�地操作堆栈（使用PUSH和POP指��o(h��)�Q�之外，很多指��o(h��)也需要��用堆栈，如INT、CALL、LEAVE、RET、RETF、IRET�{�等。配对��用上�q�指令�ƈ不会(x��)造成什么问题，然而，如果你打��用LEAVE、RET、RETF、IRET�q�样的指令实现蟩�?比JMP更�ؓ(f��)�ȝ��(ch��)�Q�然而有�Ӟ��例如在加密��Y件中�Q�或者需要修改调用者状态时�Q�这是必要的)的话�Q�那么我的徏议是�Q�先搞清楚它们做的到底是什么，�q�且�Q�精��地了解自己要做什么�?/p>
正如前面所说的�Q�有两个昑ּ�地操作堆栈的指��o(h��)�Q?/p>
助记�W?/font>
功能
PUSH ��操作数存入堆栈�Q�同时修正堆栈指�?/td>
POP ��栈��内容取出�ƈ存到目的操作��C��Q�同时修正堆栈指�?/td>
我们现在来看看堆栈的操作�?/p>
执行之前
执行代码
mov ax,1234h
mov bx,10
push ax
push bx
之后�Q�堆栈的状态�ؓ(f��)
之后�Q�再执行
pop dx
pop cx
堆栈的状态成�?/p>
当然�Q�dx、cx中的内容��分别是000ah�?234h�?/p>
注意�Q�最后这张图中，我没有抹�?234h�?00ah�Q�因为POP指��o(h��)�q�不从内存中抹去数倹{��不�q�尽��如此，我个��Z��焉��常反对��l��用这两个敎ͼ�你可以通过修改SP来再�ơPOP它们�Q�，然而这很容易导致错误�?/p>
一定要保证堆栈�D�|��_��的空间来执行中断�Q�以�?qi��ng)其他一些隐式的堆栈操作。仅仅统计PUSH的数量�ƈ据此计算堆栈所需的大��很可能造成问题�?/p>
CALL指��o(h��)��返回地址攑ֈ�堆栈中。绝大多数C/C++�~�译器提供了“堆栈检查”这个编译选项�Q�其作用在于保证C�E�序�D�中没有忘记对堆栈中多余的数据进行清理，从而保证返回地址有效�?/p>
本章��结
本章中介�l�了内存的操作的一些入门知识。限于篇�q�，我不打算展开�l�讲指��o(h��)�Q�如cmps*�Q�lods*�Q�stos*�Q�等�{�。这些指令的用法和前面介�l�的movs*基本一��P��只是有不同的作用而已�?/p>

�~�程之道 2006-11-06 10:33 发表评论

指��o(h��)1	取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>
指��o(h��)2		取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>
指��o(h��)3			取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>
指��o(h��)4				取指�?/td>	取数�?/td>	计　��?/td>	存数�?/td>

助记�W?/font>	意义
movsb	��DS:SI的一字节复制到ES:DI�Q�之后SI++、DI++
movsw	��DS:SI的一字节复制到ES:DI�Q�之后SI+=2、DI+=2
movsd	��DS:SI的一字节复制到ES:DI�Q�之后SI+=4、DI+=4

助记�W?/font>	功能
PUSH	��操作数存入堆栈�Q�同时修正堆栈指�?/td>
POP	��栈��内容取出�ƈ存到目的操作��C��Q�同时修正堆栈指�?/td>

欧美日本免费,一本色道久久综合一区,免费观看成人鲁鲁鲁鲁鲁视频

在PHP中实现进�E�间通讯

Apache模块 开发实�?�?

Smarty截取中文扩展�Q�支持UTF-8和GB

抓取腾讯天气预报的类

关于linux上的�U�程资源

VC++开发B(t��i)HO插�g——定制你的浏览器

����?Python 教程

5.0 �~�译优化概述

5.1 循环优化�Q�强度削减和代码外提

5.5 存储优化

4.0 利用子程序与中断

4.2 中断

���明x86汇编语言教程�Q�五�Q?

3.6 堆栈

本章���结

Apache模块开发实�?�?

��?Python 教程

��明x86汇编语言教程�Q�五�Q?

本章��结