亚洲一卡久久,亚洲一区二区高清,亚洲国产视频一区

周�L — Wed, 21 Feb 2007 04:37:00 GMT

摘要: 用Python语言及其库对Excel�q�行操作实现自动�?nbsp; 阅读全文

周�L 2007-02-21 12:37 发表评论

周�L — Fri, 16 Feb 2007 13:55:00 GMT

摘要: Perl�I��D破解表单密码的实�?nbsp; 阅读全文

周�L 2007-02-16 21:55 发表评论

周�L — Thu, 15 Feb 2007 14:31:00 GMT

摘要: kD 树是二叉树结构的一个变�U�，当前主要用于加速光�U�跟�t�的遍历�q�程。最��单的排序二叉树以各个元素的大��关�p�M��为分割点�Q��? kD 树简而言之就是从数据中选择一个“维度”构造一个超�q�面�Ҏ��据集�q�行分割。比如要对学生数据进行分�Ԍ��扑և�哪些学生的生日小�? 2 �? 18 日，那么��只要遍历整个集合，把所有的数据分成。如果又要在�W�合�W�一�ơ条... 阅读全文

周�L 2007-02-15 22:31 发表评论

木材工业机械��d��

周�L — Sun, 11 Feb 2007 11:06:00 GMT

摘要: 木工板材生��工艺的相兛_��?nbsp; 阅读全文

周�L 2007-02-11 19:06 发表评论

游戏音乐��谈

周�L — Sat, 10 Feb 2007 11:49:00 GMT

摘要: 游戏音乐��谈阅读全文

周�L 2007-02-10 19:49 发表评论

矩阵圣经 FOR 3D Computer Graphic Final

周�L — Sun, 10 Dec 2006 05:46:00 GMT

摘要: ��x��~�程也有一�D�|��_��什么都很明白就是对于坐标变换不是很理解�Q��L��在关键的时候迷�׃��Ԍ��胡�ؕ的写一些变换代码，得到的结果当然让自己云里��N��。仔�l�的看了一下好几本书关�?D变换的篇章，�ȝ��了一下，希望对大家有帮助。末了声明以下，可能我说得也有错误的地方�Q�敬请局内�h明鉴指正�Q�我只是一个在校学生没有实际的工作�l�验。恳请大家提出宝�늚�意见�Q�打造一个Matrix Bible�Q�让更多的初学者不要走弯�\。谢谢大... 阅读全文

周�L 2006-12-10 13:46 发表评论

用姓名汉语拼音首字母查找

周�L — Thu, 23 Nov 2006 15:53:00 GMT

1 // Pyin.cpp : 定义控制台应用程序的入口炏V�?br /> 2 //
3
4 #include " stdafx.h "
5 using namespace std;
6
7 char GetPYChar( char * c)
8 {
9     unsigned char * array = new unsigned char [ 2 ];
10     array[ 0 ] = c[ 0 ];
11     array[ 1 ] = c[ 1 ];
12      int i = ( short )(array[ 0 ] - ' \0 ' ) * 256 + (( short )(array[ 1 ] - ' \0 ' ));
13
14      if ( i < 0xB0A1 ) return ' * ' ;
15      if ( i < 0xB0C5 ) return ' a ' ;
16      if ( i < 0xB2C1 ) return ' b ' ;
17      if ( i < 0xB4EE ) return ' c ' ;
18      if ( i < 0xB6EA ) return ' d ' ;
19      if ( i < 0xB7A2 ) return ' e ' ;
20      if ( i < 0xB8C1 ) return ' f ' ;
21      if ( i < 0xB9FE ) return ' g ' ;
22      if ( i < 0xBBF7 ) return ' h ' ;
23      if ( i < 0xBFA6 ) return ' g ' ;
24      if ( i < 0xC0AC ) return ' k ' ;
25      if ( i < 0xC2E8 ) return ' l ' ;
26      if ( i < 0xC4C3 ) return ' m ' ;
27      if ( i < 0xC5B6 ) return ' n ' ;
28      if ( i < 0xC5BE ) return ' o ' ;
29      if ( i < 0xC6DA ) return ' p ' ;
30      if ( i < 0xC8BB ) return ' q ' ;
31      if ( i < 0xC8F6 ) return ' r ' ;
32      if ( i < 0xCBFA ) return ' s ' ;
33      if ( i < 0xCDDA ) return ' t ' ;
34      if ( i < 0xCEF4 ) return ' w ' ;
35      if ( i < 0xD1B9 ) return ' x ' ;
36      if ( i < 0xD4D1 ) return ' y ' ;
37      if ( i < 0xD7FA ) return ' z ' ;
38      return ' * ' ;
39 }
40
41 int _tmain( int argc, _TCHAR * argv[])
42 {
43      char * szArray = new char [ 10 ];
44     strcpy(szArray, " ��q�� " );
45      char * charptr = szArray;
46     cout << szArray << endl;
47
48     cout << sizeof szArray << endl;
49     cout << GetPYChar(charptr) << endl;
50     cout << GetPYChar(charptr + 2 ) << endl;
51     system( " PAUSE " );
52
53      return 0 ;
54 }
55
56

　　老同学做��小的编�E�设计，电话��L��本，希望增加一个输入姓名汉语拼音首字母的方式快速找到条目，不知道如何实现。我��找了一下，觉得按照�q�种思�\最��单�?br />　　
　　首先在条目的数据�l�构中增加一个动态字�W�串�Q�在生成节点的时候动态的把姓名的拼音准备好。等到用�q�个�Ҏ��搜烦条目的时候只需要对比拼音烦引，�q�回�W�合条�g的节�Ҏ��针就可以了�?img src ="http://www.shnenglu.com/Jedimaster/aggbug/15605.html" width = "1" height = "1" />

周�L 2006-11-23 23:53 发表评论

BattleField 2142引擎囑�Ş�E�序员小访谈

周�L — Fri, 10 Nov 2006 03:44:00 GMT

　　最�q�在vLan上面鏖战BF2142�Q�着实被�q�个游戏深深地吸引住�Q�所以就开始关注�vBF�p�d��的引擎�v来，只知道Script部分是Python完成的。在国外的一个站点上发现了这个小��的访谈�Q�翻译给大家仅供了解�?/p>

Continuing our series of occasional interviews with game developers about current and upcoming hardware and game graphics engines, we chat with Marko Kylmamaa, senior graphics programmer for Digital Illusion' Canadian studio.

　　本期的采访对象是来自DICE的高�U�图像程序员Marko Kylmamaa先生�?/p>

FiringSquad: First, Intel and AMD are pushing dual core processors and within the next year four core processors are due to be released. How will DICE support this kind of tech in the Battlefield 2/2142 engine and will there be any need for special programming to fully support multi core CPUs in PCs?

　　提问�Q�目前Intel与AMD力推双核CPU�Q�目前明�q�都准备推出�Q�核心的CPU。DICE准备如何在BF2引擎中加入对�q�种技术的支持�Q�如果这样做需要什么特�D�的�~�程技术么�Q?/p>

Marko Kylmamaa: While a program geared towards a single-core machine may run fine, with some exceptions, and perhaps even somewhat faster on a multi-core machine, in order to realize the real performance benefits a careful attention has to be paid into structuring the code for the correct granularity in mind, to make it suitable for multi-core execution. With the introduction of the next generation consoles and the PC hardware, the whole industry is in a learning phase for understanding the differences between the traditional multi-threading approaches, and multi-threading for multiple cores. DICE is working closely with hardware vendors in making sure that all of the future titles make the maximum use of the available multi-core architecture.

　　回答�Q�本来单核心的机器就可以�q�行得很好，有些时候甚臌��快于多核机器。其实问题主要是在多核心的处理比单核心复杂（�c�M��于痛苦的多线�E�）�Q�需要正��的处理代码的结构与处理同步。随着下一代硬件的普及�Q�整个领域开始学习多�U�程�~�程技术。DICE也在不断和硬件厂商深入合作发挥多核架构的性能�?/p>

FiringSquad: The 64-bit CPU has taken longer to really appear in mainstream PCs than some people expected. Do you think 64-bit CPUs will become more popular and how does DICE support it in their Battlefield 2/2142 engine ?

　　提问�Q?4位CPU的普及速度��过��Z��的预计到来得如此之快�Q�您认�ؓ�Q�４位cpu会流行�v来么�Q�DICE在BF2引擎中如何支持它呢？

Marko Kylmamaa: One of the problems with harnessing the full power of 64-bit CPU�?is the lack of adoption of 64-bit operating systems. Due to this it�?difficult for the game developers to make full use of the 64-bit execution potential without providing a separate set of executables compiled for the different operating systems. The current Battlefield 2 technology has been thoroughly tested on the 64-bit architecture for guaranteeing a solid performance, and optimizations have been made where possible with such architectures in mind.

　　回答�Q�由于现�?4bit操作�pȝ��?4位��E�Q�ͼ�的支持不是非常好�Q�所以还无法完全发挥�Q�４位��E�Q�ͼ�的性能。如果不分别的�ؓ不同�q�_��~�写�E�序��无法发挥６�Q�位的性能�Q�这是个隄��。BF2已经在６�Q�位�q�_��上经�q�测试与优化�q��?/p>

FiringSquad: Game physics are getting more and more attention as well with more attention being put into destructible objects and better collisions. Where does DICE stand on this kind of support for its engine and what solution is best; having a dedicated card (AGEIA) using a graphics card (ATI/Havok) or using a CPU to handle it?

　　提问�Q�游戏的物理�Ҏ��越来越受到重视。DICE如何看待它？您认为哪�U�方案最好呢�Q�是独立的AGEIA物理卡，�q�是NV/Havok的图形卡�Q�还是用CPU处理�Q?/p>

Marko Kylmamaa: Especially with multiplayer games in mind, it is difficult to make use of scaleable physics, since especially from the gameplay perspective all of the players must experience the same end result in simulation regardless of their hardware. This leads to a lot of the scalability of the physics being used for visual effects such as richer particle effects or fluid simulation. The GPU can of course be used for offloading the physics simulation from the CPU, but this will compete with the remaining processing time for graphics. Therefore in most cases it is necessary to strike the right balance between the CPU and GPU usage with the needs of the particular game in mind. The next generation technology at DICE is being built on the bleeding edge and will make use of very comprehensive physical modeling.

　　回答�Q�在多�h游戏中��用物理特性是相当隑ց�的，从玩家的视角来说�Q�所有的交互角色必须体验到相同的物理�Ҏ��而不关系他们说��用的是何�U�硬件。已�l��用的物理�Ҏ��有比如��体模拟�_�子�pȝ��{�等。Ｇ�Q�ͼ�可以分担一些��E�Q�ͼ�的物理模拟计��工作，但是�q�样��和囑�Ş计算争抢了宝�늚�资源。虽然如此，我们依旧需要��^衡��E�Q�ͼ�和Ｇ�Q�ͼ�之间的负载。DICE��会充分的利用下一代技术�ؓ玩家构徏最优秀的物理体验�?/p>

FiringSquad: HDR lighting is also getting a lot of attention in more PC games. How does the Battlefield 2/2142 engine support those features and how will that help the graphics in games that use it?

　　提问�Q�HDR光照效果也被��来��多的提及。BF2/2142引擎是如何支持这�U�特效，而且它将如何提升游戏画面呢？

Marko Kylmamaa: HDR lighting can add significantly to the perceived realism in the modern graphics engines. It is becoming an increasingly common feature as the new hardware supports full floating point surfaces and has the required processing power for supporting a multitude of such high end features.
Some aspects of the HDR lighting were simulated especially in the Battlefield 2 Expansion Pack: Special Forces, for adding a degree of realism to the night-time look. The effect is fairly settle and was used mainly for fine tuning the overall look. Battlefield 2142 does not have night-time levels, so the same technology was not applicable to it, however there are a great number of special lighting effects for enhancing the desired futuristic look of the game.

　　回答�Q�HDR光照可以作�ؓ��C��囑�Ş引擎的一个特性。在新硬件完全支持��Q点计��的方式下，它可以提高画面质量让它看��h��更真实，同时也需要相当的计算量。ｈｄｒ在ｂｆ２特别武力　中被使用�Q�用于夜视效果。BF2142没有夜市场景�Q�所以也��没有��用这�U�技术（应该是HDR�Q�，不过我们使用其他的光照效果提高画面的真实感�?/p>

FiringSquad: More and more games are using extensive pixel and vertex shading for visual and art effects. How does the Battlefield 2/2142 engine support these features currently and how will pixel and vertex shaders be used in the future, particularly with Windows Vista and DirectX10 support?

　　提问�Q�越来越�q�的游戏�q�泛使用PS及VS技术提高画面质量。BF2/2142的引擎如何支持这些特�Ԍ��未来PS VS��被如何使用�Q�特别是VISTA和DX10的来��_��

Marko Kylmamaa: The Battlefield 2 engine has been built on the DirectX9 architecture and is a fully shader based model. This allowed for a great flexibility during the development, and not supporting the older fixed function pipeline model allowed us to concentrate solely on the high end features. Battlefield 2142 is based on the improved Battlefield 2 technology and will be released later this year, so considering that the DirectX10 hardware won�?be widely available just yet, it hasn�?been beneficial to re-architect the engine into a DirectX10 based model for this release. This allowed the available time to be used for adding a number of new special effects and polishing the overall look of the existing engine.

　　回答�Q�目前BF2引擎完全构徏于DX9架构�Q�这是个完全��Z��Shader的模型。这提高了开发的可�׾~�性，摆脱了FF��线模型让我们得以实现最高��的特效。BF2142��Z��改进的BF2引擎技术，不久��发布于世，所以考虑到DX10��g不会那么快的普及�Q�我们将引擎重新构徏以适应DX10的模型。这��h��们就有时间在以后的日子里�l�箋加入新的效果�Q�拓展现有的引擎�?/p>

FiringSquad: What other advanced hardware and graphical features do you think will be supported in upcoming Battlefield 2/2142 engine games and in future graphics engine?

　　提问�Q�您认�ؓBF2/2142引擎��会支持哪些高��的硬件及其图形技术，未来的引擎呢�Q?/p>

Marko Kylmamaa: Battlefield 2142 will support a large range of high end special effects geared towards creating the desired futuristic look. These involve for example new atmospheric effects for creating a unique look that is quite different from Battlefield 2.

　　回答�Q�BF2142支持许多�Ҏ��用来构徏�l�丽真实的图像。比如，球体光照技术（Atomospheric Effect�Q�技术就和BF2中的不同�?/p>

FiringSquad: Finally, Mark Rein from Epic has said that Intel is hurting the PC gaming industry through its use of intergrated graphics in PCs. Is this a real threat and if so what can be done about this from the game developer's side?

　　提问�Q�最后，Epic�Q�不要告诉我不知道，卛_��发布的UT2007�Q�的Mark Rein��_��Intel正在通过集成囑�Ş��g损害PC游戏工业。从游戏开发者的角度来说您如何看待这个问题？

Marko Kylmamaa: Intel produces what you could call the ultra-low end graphics cards for a market segment that typically doesn�?wish to invest the money into a higher end, gaming geared hardware. Clearly there is a demand for this type of hardware as Intel�?graphics cards boast a large user base. However, this does impose challenges for the games industry in our attempts at reaching especially for the casual gamer market. Hardware requirements for the next generation games keep growing faster than what is needed for running general applications, which increases the rift between the casual and hardcore hardware markets. I believe that we as an industry will also have to recognize the different requirements these markets impose.
From the perspective of a developer, it can be difficult or in some cases practically impossible to make the high-end game run on the ultra-low end hardware. Supporting such scalability range in performance could be prohibitive with the required development time and cost in mind. It is ultimately up to each developer to find the correct range of hardware which allows for the desired market penetration.

　　回答�Q�买Intel的显卡的人，��是那些你称之�ؓ��C��端货的那些�h�Q�他们其实都不会花钱构徏一个游戏��^台。虽然事实如此，�׃��q�个原因的媄响，我们�q�是不太�Ҏ��开拓这��L��一个市场。游戏对��g的需求��L��要远高于商用软�g�Q�其实这也扩大了��g市场的层�ơ差距。我�怿�整个工业会对看清楚这个问题。从一个游戏开发者的角度来说�Q�让高端游戏�q�行在低端��^��C��着实困难。因��支持�q�些性能不一的硬仉��要提高开发的旉��和花贏V��更本上�q�是要开发者根据他们所要开发的市场�q�一角度�q�行��g的��^台的选择�?/p>

周�L 2006-11-10 11:44 发表评论

GPU�q�可以做什�?—�?Brook for GPUs,Stream Computing On GPUs

周�L — Sat, 14 Oct 2006 14:21:00 GMT

研究GPGPU也有一�D�|��间了�Q�去�q�这个时候正在学习GLSL。一�D�|��间前在opengl.org上面发了一个Suggestion�Q�徏议GLSL向Cg以及CgFX学学架构�Q�不要这��h��Ҏ��对的零散使用�Q�虽然说自己可以写class�q�行��装�Q�可是如果Shader一多管理�v来是相当的头��|��应该学学HLSL Cg那样的方式，通过technique与pass的选择�q�行渲染�Q�在概念上也�W�合multi-pass�?br />

GPU的SIMD性能��强�Q�比CPU强得太多太多�Q�由此带来异常强悍的��点�q�算性能�Q�请看下图�?br />

    ��d��韻I��不知道我�?200A排在什么地方哈哈�?br />
    其实上图有偏颇，�q�张图节选自Siggraph2004�Q�而现在ATi 1800XT的SIMD性能已经��过�?800好多�Q�可不是游戏性能。不�q�可以看出，比CPU的��Q点运��性能高好几倍是不真的事实，可是如何利用呢？

    可编�E�硬件的到来为我们开了一个好��_��也许未来计算机硬件的发展��势��是�Q�通用计算Generic Computing�Q�GC�Q�自造词汇，可不是垃圾收集）。显卡一直以来都是和Pixel打交道，��d��Texel�Q�处理Primitive�Q�写入FrameBuffer�Q��ؓSIMD的应用打下了坚实的基��。显卡芯片从开始就是�ƈ行设计的�Q�这样从�U�理单元��d��Texel时才能发挥效力，当年大名鼎鼎的Riva TNT2的意思其实是TwiNs Textures双纹理，而不是黄色炸药。Geforce3依靠��d��的几个昂�늚�register实现了Vertex Programming。NV收购3dfx�Q�推出NV30�p�d��芯片�Q�伴随着DX8为PC机引入Shader�Q�开创PC机图像画质飞跃的先河�Q�如今热门游戏大多数已经使用可编�E�着色技术用来实��C��往在工作站上才能实现的效果�Q�这��是��Z��么如今看游戏实时演算的画面都比当�q�Square动用sgi工作站集��渲染出来的FF8动画效果好的原因。其实高�U�CG囑�Ş理论�?0�q�代��已�l�相当成熟，比如78�q�的Shadow mapping�Q�White的Ray-tracing�{�等。那些技术以后我会慢慢给大家介绍�Q�大家不妨去NVIDIA下蝲一个SDK研究一下，�q�有MS DX SDK也是必需的�?br />
    先说目前可编�E�硬件用作通用计算的局限，而且在我看来�Q�这个局限在Vista与DX10��行后可能依旧得不到解决�Q�那��是API的问题。显卡厂商提供的驱动�Q�无一例外的都是彻底�ؓ昄��服务的，而不是用来标榜自己是GPGPU的。虽然说都有了自��q��本地�~�译器（主要是用于编译GLSL string codes�Q�HLSL可以预先�~�译好，然后再由驱动载入执行�Q�，可是依旧不是��Z��计算非图形数据服务。于是找��C��Sh。Sh是一个很有趣的东西，使用了metaprogramming技术，模拟囑�Ş语言的算法，�~�译的时候�{化�ؓ对应的低�{��ASM语句�Q�很多Graphic Slide里面�q�行核心��法展示的时候都用的Sh。有兴趣地可以到�q�里看一下。强烈徏议显卡厂商推出可以直接进行计��的驱动�Q�不要和FrameBuffer牉|��Q�可以直接通过Bus写入内存�Q�技术上�q�不难，也许是个商业问题。关键时��L��q�是商业左右技术的发展�Q�而不是技术�h员的一厢情愿就可以左右世界发展�Q�如今已�l�不是工业革命时代了�?br />
    �l�大家介�l�来自Starford University�?a >Brook�Q�听��h��好像�q�告�Q�不�q�在Shading Language界可是有Starford Shading Language得一席之地的�Q�。Brook可以理解为是一个C�~�译器，只不�q�它�~�译的不是Bin�Q�而是C++ string codes�Q�而且是着色计��语句数�l�。比如有�q�样一�D�Brook代码�Q�简单的Alpha混合�Q�不对，不像�Q�反正就是它了：

kernel void saxpy(float alpha, float4 x<>, float4 y<>,
out float4 result<>) {
result = (alpha * x) + y;
}

�~�译成最�l�的C++代码变成�Q?br />

static const char* __saxpy_fp30[] = {
"!!FP1.0\n"
"DECLARE alpha;\n"
"TEX R0, f[TEX0].xyxx, TEX0, RECT;\n"
"TEX R1, f[TEX1].xyxx, TEX1, RECT;\n"
"MADR o[COLR], alpha.x, R0, R1;\n"
"END \n"
"##!!BRCC\n"
"##narg:4\n"
"##c:1:alpha\n"
"##s:4:x\n"
"##s:4:y\n"
"##o:4:result\n"
"##workspace:1024\n"
"##!!multipleOutputInfo:0:1:\n"
"",NULL};
void saxpy (const float alpha,const ::brook::stream& x,const ::brook::stream& y,
::brook::stream& result) {
    static const void *__saxpy_fp[] = {"fp30", __saxpy_fp30, "ps20", __saxpy_ps20,
                    "cpu", (void *) __saxpy_cpu, NULL, NULL };
    static __BRTKernel k(__saxpy_fp);
    k->PushConstant(alpha);
    k->PushStream(x);
    k->PushStream(y);
    k->PushOutput(result);
    k->Map();
}

    �q�不��是�U��a的Shading Language么。不�q�值得注意的是�Q�Brook通过�q�行库进行封装，把GPU当作Streaming Processor�Q�由CPU�q�行控制�Q�计��数据�ƈ输出。目前似乎只能进行图形的计算�Q�比如FFT�Q�Ray-Tracing�{�演�C�，�q�没有到达能够计��pi的程度�?br />
    思考了一下。精度问题需要解冻I��FP16刚刚开始广泛��用，FP32�q�不能够支持��g�q��o。FP32仅仅只是IEEE754 float的精度而已�Q�更本谈不上double的精度，用在需要精度较高的地方可能�q�不是很适合。如我设想那��P��q�行pi的几百万位的计算�Q�目前来说不太可能，首先�Q�Shading Language从来��没有提供地址的操作，也就是无法选泽Pixel的位�|�，也就是无法对FrameBuffer�q�行准确定位。如果可以解册��个问题，那么��可以进行真正意义上的通用计算�Q�那个时候FrameBuffer只是一个暂时的�~�冲容器而已�?br />
    SIMD的物理计��可以相当的强悍。物理特性计��都是强调同时性的�Q�而GPU可以同时�q�行计算�Q�充分发挥了自己的优势，难怪NVIDIA要和Havok�q�行合作。记得以前看�q�博客园中一位先生写的物理引擎，着实震惊，我徏议他不妨研究研究�q�一块。Stream的概念将在DX10上得到彻底的诠释�Q�不妨看看我以前��译的DX10文章�Q�其中Geometry Shader很有意思�?br />
    我期待下一代API出现�Q�一个崭新的软硬件组合方案，�q�样��可能�ؓDisplay Adapter�q�个古老的东西带来真正的革命。值得注意的是�Q�AMD已经收购了ATi�Q�而Intel�q�在�?00亿美元收购NV的�h��D��估的时候，也许下一代变革已�l�开始了�Q�让我们拭目以待�?br />
    提到的东西可以在�q�里扑ֈ�
    Brook http://sourceforge.net/projects/brook
    libSh http://sourceforge.net/projects/libsh

周�L 2006-10-14 22:21 发表评论

周�L — Sat, 14 Oct 2006 08:27:00 GMT

Wow 服务器解析（一�Q?/span>

最�q�抽�I�研�I�了一�?/span> WOW 的服务器�l�构�Q�也��Z��从那些项目中又复习了一�?/span> ManGOs �?/span> template 方式�?/span> SingleTon 的��用方法。不�q�有些不明白的，如果�q�样�Q?/span> SingleTon �q�样的��用，如果传入的类型不同，��N��传出�?/span> static 是一��L��Q�不可能吧，如果打印�?/span> this 指针看看呢？抽空我再试试�?/span> SingleTon 在游戏设计中是相当重要的设计模式�Q�大家一定要好好学习�?/span>

认证�q�程

Wow 的服务器有两部分�l�成�Q?/span> Logon Server �Q�以下简�U?/span> LS �Q�和 Realm Server �Q�以下简�U?/span> RS �Q��?/span> LS 接受来自 Wow 客户端的�q�接�Q�主要有以下几步完成�Q?/span>

��查客��L��版本区域�{�信息，��察�̎号密�?/span>

开�?/span> / �l�箋传�?/span> Patch �Q�如果有�Q?/span>

与客��L��q�行 SRP6 的加密会话，把生成的密匙写入数据�?/span>

�Ҏ��客户端请求发�?/span> Realms 列表

当客��L��选择�?/span> Realms 后，客户端就�?/span> LS 断开�Q�连接到 RS 上：

认证�Q��用刚才生成的客户端密�?/span>

如通过�Q�进行游戏��@环的交互

RS �?/span> LS 使用相同的数据库�Q?/span> SRP6 密匙�?/span> LS 生成�q�写�?/span> DB 后还要由 RS ��d��出来�q�行下一步的认证�?/span>

Logon Server 详解

基本的连接过�E�如下：

客户端准备连接，发�?/span> CMD_AUTH_LOGON_CHALLENGE 数据包，包含了所有登陆所需要的数据比如用户名密码等

服务端返�?/span> CMD_AUTH_LOGON_CHALLENGE 数据包，填充字段包括有效验证�Q�以及计��好的服务端 SRP6 数据

如果有效�Q�客��L��发�?/span> CMD_AUTH_LOGON_PROOF 数据包，�q�把自己计算�?/span> SRP6 数据填充�q�去

服务端进行验证，发送回 CMD_AUTH_LOGON_PROOF �Q�包含了 SRP6 验证的结�?/span>

如果一切正常，客户端发�?/span> CMD_REALM_LIST 数据包，��h��发送有效的 Realm

服务器回�?/span> CMD_REALM_LIST 数据报，�q�填充过客户端需要的 Realm 数据

客户端的 Realm 列表每隔 3-4 �U�就会从服务器端��h��一�ơ�?/span>

�q�个 SPR6 是一�U�什么样的加密手�D�呢�Q�以前我也没有用�q�，看得最多的�?/span> MD5SHA �{?/span> hash ��法�?/span> SPR ��法吸取�?/span> EKE �c�d��法的优点进行了改进�Q�非帔R��合于网�l�的认证服务�Q�如果我没有记错�Q?/span> J2EE 包含了这个算法的实现。下面简单介�l�一�?/span> SRP6a �q�作机制�Q�原文见�q�里�?/span>

N N = 2q + 1 �Q?/span> q 是一个素敎ͼ�下面所有的取模�q�算都和�q�个 N 有关

g 一�?/span> N 的模敎ͼ�应该�?/span> 2 个巨大的素数乘得�?/span>

k k = H(N,G) �?/span> SRP6 �?/span> k = 3

s User’s Salt

I 用户�?/span>

p 明文密码

H() 单向 hash 函数

^ 求幂�q�算

u 随机�?/span>

a,b 保密的��时数�?/span>

A,B 公开的��时数�?/span>

x �U�有密匙�Q�从 p �?/span> s 计算得来�Q?/span>

v 密码验证数字

其中 x = H(s,p) �?/span> v = g ^ x �Q?/span> s 是随机选择的， v 用来��来验证密码�?/span>

��L��?/span> { I,s,v } 存入数据库。认证的�q�程如下�Q?/span>

客户向主机发�?/span> I �Q?/span> A = g ^ a �Q?/span> a 是一个随机数�Q?/span>

��L��向客户发�?/span> s �Q?/span> B = kv + g^b �Q�发�?/span> salt �Q?/span> b 是一个随机数字）

双方同时计算 u = H(A,B)

客户计算机算 x = H(s,p) �Q�开�?/span> hash 密码�Q�， S = ((B - kg^x) ^ (a + ux) ) �Q?/span> K = H(S) �Q�（开始计��会�?/span> Key �Q?/span>

��L��计算 S = (Av^u)^b �Q?/span> K = H(S) �Q�也生成会话 Key

��Z��完成认证�Q�双方交�?/span> Key �Q�各自进行如下的计算�Q?/span>

客户接收到来自主机的 key 后，计算 H(A,M,K)

同理�Q�主��?/span> M = H(H(N) xor H(g), H(I), s, A, B, K) �Q�验证是否合自己储存的数值匹配。至此完成验证过�E��?/span>

三�?/span> Realm Server 详解

�?/span> LS 断开后，开始和 RS 认证�Q?/span>

�q�接�?/span> RS �Q�向服务器发�?/span> SMSG_AUTH_CHALLENGE 数据包，包含上次所用的随机�U�子

服务器发送回 SMSG_AUTH_CHALLENG 。客��L��从服务器端发送回来的�U�子�?/span> SRP6 数据中��生随机种子，生成 SHA1 字符�Ԍ��用这些数据生�?/span> CMSG_AUITH_SESSION 数据包，发送给服务端�?/span>

需要注意的是，�q�个�q�程是没有经�q�加密的。当服务端收到认证回复后�Q�通过客户端��生的�U�子也生成一�?/span> SHA1 串和来自客户端的�q�行�Ҏ��Q�如果相同，一�?/span> OK �?/span>

下面看一下对账号创徏的角色等操作�q�行分析。一个�̎��h��多可以徏 50 个角色吧�Q�我�q�没有玩�q�，只是看了一�?/span> Manual �?/span>

客户端发送一�?/span>CMSG_CHAR_ENUM数据包请求接受角�?/span>

服务端发送回包含所有角色信息的 CMSG_CHAR_ENUM 数据�?/span>

�q�里客户端可以对�q�些角色�q�行操作了， CMSG_CHAR_CREATE �Q?/span> CMSG_CHAR_DELETE �Q?/span> CMSG_CHAR_PLAYER_LOGIN

角色登陆完成后，服务器发送回 SMSG_CHAR_DATA 数据�?/span>

在游戏��@环中是如何操作的呢？

如果玩家立刻退出游戏，那么客户端发�?/span> CMSG_PLAYER_LOGOUT �Q�服务器回复 SMSG_LOGOUT_COMPLETE

如果玩家选择�E�后退出游戏，发�?/span> CMSG_LOGOUT_REQUEST 。服务端回复 SMSG_LOGOUT_RESPONSE 。如果玩家在倒计旉��D�退出，发�?/span> CMSG_PLAYER_LOGOUT �Q�那么玩家的角色依旧�{�倒计时完成后再退出�?/span>

如果玩家中断了退出��l�游戏，发�?/span> CMSG_LOGOUT_CANCEL �Q�服务器回复 SMSG_LOGOUT_CANCEL_ACK �?/span>

周�L 2006-10-14 16:27 发表评论

World Of Warcraft Server Source Topic

周�L — Thu, 05 Oct 2006 05:59:00 GMT

声明�Q�World Of Warcraft�Q�魔兽世界相关程序的源代码所有权归暴雪公司Blizzard所有。WowWow只是一个Wow的服务器端的模拟�E�序�Q�由俄罗斯黑客逆向工程得来�Q�在�q�里仅供学习�|�络游戏服务器端或者交��之用，没有��M��来自于暴雪公司或者及其中国运行商九城的源代码。�Q何个人或者组�l��用此源代码经营可能违反法律的事业�z�d��与本人无兟뀂特此声明�?/font>

讨厌中国的这些个破网站，下蝲源代码竟然还要花��q��请什么破VIP�Q�殊不知sf.net中好的代码多的是�?br />
�q�个是我从国外的一个论坛中拖回来的�Q�由于自��q��盘装不下Wow客户端所以也��没有测试过�Q�有条�g的可以试试看�?br />
我打��花些时间用C++重新写一遍，虽然说已�l�有了类似的Mangos�Q�实在不喜欢C# JAVA之类的虚拟机语言�?net��Z��要蟩出来和我争C#不是虚拟��Y件云云，懒得搭理。编译出来的代码很小�Q�程序启动速度奇慢无比�Q�还必须�?net Frameworks的支持，�ȝ��?br />
最早的是WowEmu�Q�许多单机版Wow附带的也��是�q�个我就不列出地址了，BT上多的是�?br />
然后��是Wowwow�Q�可是它的内�总�码是不公开的，你可以看到decompiler云云
下蝲地址
附上一个有一些代码的Wowwow Alpha v8.3
下蝲地址

目前我正在分析的是Mangos�Q�老�l竟然在sf.net中，介绍是一�Ҏ��有提到World of War�Q�可是实际上它运行的��是它�?br />�?a >�q�里�?br />
�Ƣ迎交流�Q�如果您觉得好请回复我一下谢谢咯~~~

周�L 2006-10-05 13:59 发表评论

周�L — Thu, 24 Aug 2006 07:37:00 GMT

��谈 CPU �~�存体系

　　现在�?/span> CPU 依旧采用冯诺伊曼体系�Q�喜�Ƣ像��d��一样从头执行到��，中途没有�Q何的跌��{停顿�{�待。可是现实情冉|��Q�大部分�E�序里面�q�是��不�?/span> IF ELSE 之类的判断，循环��更加得多了。如何优化��@环大家可以自��q��，其实不难�Q�可以参考一下《高质量 C\C++ �~�程指南�?/span>

　　现在 CPU 上都�?/span> Level 1 指��o�~�存�Q�又叫做 L1 Trace �Q�与 Level 1 数据�~�存�Q?/span> L1 Data Cache �Q��?/span> PMMX �Q?/span> P2 �Q?/span> P3 ��Z��者都准备�?/span> 16kb �Q�我�?/span> P4 Northwood �Q�以下简�U?/span> P4NW �Q�有 8kbL1 数据�~�存�?/span> 12kb 指��o�~�存�?/span> CPU ��d�� L1 Data Cache 中的数据只需�?/span> 1 个时钟周期，速度非常快，应该是仅�ơ于寄存器了。数据缓存是�?/span> 256 或�?/span> 512 �?/span> 32bytes �l�成的，也就�?/span> 32bytes 寚w��的，�?/span> P4NW �?/span> 64bytes 字节寚w��的，�q�行 4 路，��d�� 128 行。当你处理的数据没有载入�~�存的时候， CPU ��从内存��d��~�存行大��的数据�Q�所以缓存行��L��寚w��到能�?/span> 32 整除的物理地址�?/span> CPU �?/span> L1 数据�~�存中的数据�q�行操作是最快速的。所以推荐内存地址最��L��?/span> 32byte 寚w��的。目前编译器在这个地方的优化已经非常好了�Q�一般都�?/span> 4byte 寚w��Q�当然也都是 32 寚w��的。在后面你将会看刎ͼ� SSE2 要求数据�?/span> 16 字节寚w��的�?/span>

　　�~�存�c�M��一�?/span> C++ set 容器�Q�但是不能赋值到一个�Q意的内存地址。每行本�w�都�?/span> 1 �?/span> 7bit 大小的关联��|�� set value �Q�要和目标内存地址�?/span> 5 �?/span> 11 位对应（ 0-4 位已�l�忽略了�Q�，也可以理解�ؓ�Q�关联值是内存�D�地址的一部分�?/span> PPro 中，�?/span> 128 个关联值对应到 2 行，所以最多可以�ؓ��L��的内存单元准�?/span> 2 个缓存行�?/span> PMMX P2 P3 P4NW �?/span> 4 个。由于内存是分段的，所以说 CPU 只能为， 5-11 位地址相同的内存准�?/span> 2 或�?/span> 4 个不同的�~�存行。如何�ؓ两个内存地址赋予相同的关联值呢�Q�把 2 个地址的低 5bit ��L��Q�这样就能被 32 整除了。如果这 2 个截断了的地址都是 4096 �Q?/span> 1000H �Q�的倍数�Q�那么这两个地址��有了相同的兌��倹{�?/span>

　　让我们用汇编加深一下印象，假设 ESI 中是 32 寚w��的地址�?/span>

AGAIN: MOV EAX, [ESI]

MOV EBX, [ESI+13*4096+4]

MOV ECX, [ESI+20*4096+28]

DEC EDX

JNZ AGAIN

　　 Oh Year �Q�这�?/span> 3 个地址都有相同的关联��|��而且地址跨度都超�q�了数据�~�存的大��，可这个��@环在 PPro 上效率会相当低。当你想��d�� ECX 的值的时候，��没有空闲的�~�存行了 —�?/span> 因�ؓ�׃�n一个关联��|��而且 2 行已�l�被使用了。此�?/span> CPU ��腾出最�q��用的 2 个缓存行�Q�一个已�l�被 EAX 使用。然�?/span> CPU 把这个缓存行�?/span> [ESI+20*4096] �?/span> [ESI+20*4096+31] 的内存数据填充，然后从缓存中��d�� ECX 。听��h��好象相当的烦琐。更加糟�p�的是，当又需要读�?/span> EAX 的时候，�q�需要重复上�q�的�q�程�Q�需要对内存�~�存来回操作�Q�效率相当的低，甚至不如不用�~�存。可是，如果我们把第三行�Ҏ��Q?/span>

MOV ECX, [ESI+20*4096+32]

　　哦，不好�Q�看��h��Q�我们的地址��过�?/span> 32 �Q�不能被整除了。可是这��h��了不同的兌��|��也就意味着有了 1 个新行，不再�׃�n可怜的 2 个行。这样一来，对三个寄存器的操作就不需要反复的�?/span> 2 个缓存行�q�行调度了，各有一个了。嘿嘿，�q�次只需�?/span> 3 个时钟周期了�Q�而上一个要 60 个周期。这是在 PPro 上的�Q�在后来�?/span> CPU 中都�?/span> 4 路的�Q�也��׃��存在上面的问题了。搞�W�的是， Intel 的文档却错误的说 P2 的缓存是 2 路的。虽然说很少人在用那么古老的 CPU �Q�可是其中的道理大家应该明白�?/span>

　　可是判断要访问的部分数据是否有相同的兌��|��也就是关于缓存是否能够命中的问题�Q�是相当困难的，汇编�q�好�Q�用高等�U�语�a��~�译�q�的�E�序鬼知道是否对�~�存做过优化呢。所以么�Q�推荐，在程序的核心部分�Q�对性能要求最高的部分�Q�先寚w��数据�Q�然后确保��用的单个数据块不要超�q�缓存大��， 2 个数据块�Q�单个不要超�q�缓存大��的一半（仔细��x��Z��么，因�ؓ兌��值的问题�Q�可以缓存分��Z��部分处理两块�Q�。可是大部分情况下，我们都是使用�q�比数据�~�存大的多的�l�构�Q�以及编译器自己�q�回的指针，然后��Z��优化你可能希望把所有频�J��用的变量攑ֈ�一个连�l�的数据块中以充分利用缓存。我们可以这样做�Q�把静态变量数值拷贝到栈中的局部变量中�Q�等子函数或者��@环结束后再拷贝回来。这样一来就相当于把静态变量放入了�q�箋的地址�I�间中去�?/span>

当读取的数据不在 L1 Cache 内时�Q?/span> CPU ��要�?/span> L2 Cache ��d�� L1 �~�存行大��的数据�?/span> L1 里去�Q�大概需�?/span> 200ns 的时��_��也就�?/span> 100Mhz �pȝ��?/span> 20 个时钟周期）�Q�但是直��C��能够使用�q�些数据前，又需要有 50-100ns 的�g�q�。最�p�糕的是�Q�如果数据也不在 L2 Cache 中，那么��只能从最慢速的内存里读取了�Q�内存的龟速哪能和全速的�~�存相比�?/span>

好了�Q�关于缓存的知识可以��此打住了，下面开始讲如何优化�~�存。无非就�?/span> 3 �U�方法，��g预取�Q?/span> Prefetch �Q�、��Y仉��取、��用缓存指令。关于预取的注意事项主要有这些：

1�?span style="FONT: 7pt 'Times New Roman'; font-size-adjust: none; font-stretch: normal"> 合理安排内存的数据，使用块结构，提高�~�存命中率�?/span>

2�?span style="FONT: 7pt 'Times New Roman'; font-size-adjust: none; font-stretch: normal"> 使用�~�译器提供的预取指��o。比�?/span>ICC中的_mm_prefetch _mm_stream�Q�甚�?/span>_mm_load�{�比较“传�l�”的指��o�?/span>

3�?span style="FONT: 7pt 'Times New Roman'; font-size-adjust: none; font-stretch: normal"> ��可能少的��用全局的变量或者指针�?/span>

4�?span style="FONT: 7pt 'Times New Roman'; font-size-adjust: none; font-stretch: normal"> �E�序��可能少的进行判断蟩转��@环�?/span>

5�?span style="FONT: 7pt 'Times New Roman'; font-size-adjust: none; font-stretch: normal"> 使用const标记�Q�不要在代码中�؜�?/span>register声明�?/span>

不过要提醒一句，真正提高�E�序效率的方法不是那�U�，从头到尾�׃��外科手术般的解剖�Q�一个一个地方的优化�Q�请抓住�E�序最核心的部分进行优化，��C�� 80-20 规则�?/span>

使用 SIMD

先复习一下对齐指令， __declspec(aliagn(#)) �Q?/span> # 替换为字节数。比如想声明一�?/span> 16 字结寚w��的��Q�Ҏ��l�， __declspec(aliagn(16)) float Array[128] 。需要注意的是，最好充分了解你 CPU 的类型，支持哪些指��o集�?/span> SIMD 主要使用在需要同时操作大量数据的工作领域�Q�比�?/span> 3D 囑�Ş处理�Q�游戏）�Q�物理徏模（ CAD �Q�，加密�Q�以及科学计��领域。据我所知，目前 GPGPU 也是使用 SIMD 的代表之一�?/span>

MMX

主要�Ҏ��： 57 条指令， 64bit �?/span> FP 寄存�?/span> MM0-MM7 �Q�对齐到 8 �?/span> 80bit �?/span> FP 寄存�?/span> ST0-ST7 。需要数�?/span> 8 字节寚w��Q�也��是使用 Packed 数字�?/span>

PS �Q�这里冒��Z��一个问题，��Z��?/span> Intel 要把 MMX 的寄存器�?/span> FPU 的寄存器混合��h��使用呢？因�ؓ�q�里牉|��C��?/span> FPU 状态切换问题，后面会提刎ͼ�当你在一�D�代码中又要用到 MMX 指��o又要用到传统�?/span> FPU 指��o�Q�那么需要保�?/span> FPU 状态，或者退�?/span> MMX 。可是这�U�操作对�?/span> FPU 来说非常昂贵�Q�而且对于多�Q务操作系�l�来��_��q�乎于不可能完成的�Q�?/span> —�?/span> 同时有许多程序，有些需�?/span> MMX �Q�有些不需要，而正��地�q�行调度会变得非常困难。所�?/span> Intel ��保存状态的工作完全交给�?/span> CPU 自己�Q��Y件�h员无��M��太多�q�方面的工作�Q�这样一来，��向前向后兼容了多�Q务操作系�l�，比如 Windows �?/span> Linux 。后来随着操作�pȝ��?/span> CPU 的不断升�U�，操作�pȝ��开发�h员发布了一个补丁包�Q�就可以让操作系�l��用新的寄存器。这时�h们都发现 Intel 的这�U�做法是相当短视的，�q�可以当作一个重大的��p��。后�?/span> Intel 通过引入了新的��Q�Ҏ��令集�Q�这时才加入 XMM 寄存器。可造成�q�段故事的原因却�Ҏ��不是技术问题，保证兼容性也是一个方面，��M��真的说不清楚。你只要记得无法同时使用 MMX �?/span> FPU ��可以了�Q?/span> CPU 要进行模式切换�?/span>

SSE1

主要�Ҏ��： 128bit �?/span> FP 寄存�?/span> XMM0-XMM7 。增加了数据预取指��o。额外的 64bit 整数支持。支持同时处�?/span> 4 个单�_�ֺ��点敎ͼ�也就�?/span> C\C++ 里的 float �?/span>

适用范围�Q�多媒体信号处理

SSE2

主要�Ҏ��： 128bit �?/span> FP 寄存器支持处理同时处�?/span> 2 个双�_�ֺ� double ��点敎ͼ�以及 16byte 8word 4dword 2quadword 整数�?/span>

适用范围�Q?/span> 3D 处理语音识别视频�~�码解码

SSE3

主要�Ҏ��：增加支持非对�U?/span> asymmetric 和水�q?/span> horizontal 计算�?/span> SIMD 指��o。�ؓ SIMD 提供了一条特�D�的寄存�?/span> load 指��o。线�E�同步指令�?/span>

适用范围�Q�科学计��?/span> 多线�E�程�?br />
手头工具

1 、选择一个合适的�~�译器，推荐�?/span> Intel C++ Compiler �Q�以下简�U?/span> ICC �Q�，以及 Visual Studio .NET 2003 及以�?/span> IDE 附带�?/span> C++ �~�译器。同�Ӟ�� Microsoft C++ Compiler 也支�?/span> AMD �?/span> 3DNow �?/span> GCC C++ Compiler 没有��试�?/span>

2 �?/span> Intel 以及 AMD 的汇�~�指令集手册。这个是必需的，强烈��每个C++ Coder人手准备一份�?/b>

所有的都用 C++ 混合变成的方式实�?/span>

使用范例�Q?/span>

向量乘法�?/span> 3D 处理中非帔R��常多�Q�多半用于计��单位矢量的夹角�?/span>

我们先定义一个顶点结构�?/span>

__declspec(align( 16 )) struct Vertex{
     float x,y,z,w;
};
    16字节寚w��的结构，其实本��n也是16字节的东�ѝ��如果没有对齐，�q�行时会报错�?p>
w是其�ơ坐标系的参敎ͼ�处理向量的时候不需要用到。我的函数是�q�样的：
float Dot(Vertex* v1,Vertex* v2)
{
    Vertex tmp;
    __asm{
        MOV EAX,[v1];
        MOVAPS XMM0,[EAX];
        MOV EAX,[v2];
        MOVAPS XMM1,[EAX];
        MULPS XMM0,XMM1;
        MOVAPS tmp,XMM0;
    };
    return tmp.x + tmp.y + tmp.z;
};

    VC中反汇编之：
1 float Dot(Vertex* v1,Vertex* v2)
2 {
3 0041C690  push        ebx
4 0041C691  mov         ebx,esp
5 0041C693  sub         esp,8
6 0041C696  and         esp,0FFFFFFF0h
7 0041C699  add         esp,4
8 0041C69C  push        ebp
9 0041C69D  mov         ebp,dword ptr [ebx+4]
10 0041C6A0  mov         dword ptr [esp+4],ebp
11 0041C6A4  mov         ebp,esp
12 0041C6A6  sub         esp,0E8h
13 0041C6AC  push        esi
14 0041C6AD  push        edi
15 0041C6AE  lea         edi,[ebp-0E8h]
16 0041C6B4  mov         ecx,3Ah
17 0041C6B9  mov         eax,0CCCCCCCCh
18 0041C6BE  rep stos    dword ptr [edi]
19     Vertex tmp;
20     __asm{
21         MOV EAX,[v1];
22 0041C6C0  mov         eax,dword ptr [v1]
23         MOVAPS XMM0,[EAX];
24 0041C6C3  movaps      xmm0,xmmword ptr [eax]
25         MOV EAX,[v2];
26 0041C6C6  mov         eax,dword ptr [v2]
27         MOVAPS XMM1,[EAX];
28 0041C6C9  movaps      xmm1,xmmword ptr [eax]
29         MULPS XMM0,XMM1;
30 0041C6CC  mulps       xmm0,xmm1
31         MOVAPS tmp,XMM0;
32 0041C6CF  movaps      xmmword ptr [tmp],xmm0
33     };
34     return tmp.x + tmp.y + tmp.z;
35 0041C6D3  fld         dword ptr [tmp]
36 0041C6D6  fadd        dword ptr [ebp-1Ch]
37 0041C6D9  fadd        dword ptr [ebp-18h]
38 };
    前面都是保护现场入Stack的代码，没有必要��。我之所以这��P��在Stack中声明了一个零时变量返回之�Q�是��Z��减少代码的行数。有兴趣地可以参考本文后面引用资料中的Intel范例�Q�代码多的多�Q�功能却一栗��这样就可以利用SIMD计算点乘了。图�C�：
    �q�种��点格式�U�CؓAoS�Q�Array of structure�Q�，�q�种�l�构的好处是�Q�能够和现有的程序结构，比如D3D中的FVF��点格式�Q�和GL中的��点格式。但是，�׃��许多情况下，�q�没有��用第四各��点敎ͼ��q�就让SIMD指��o��费�?5%的性能。于是有了SoA格式�Q�让我们重新来过�?br />    我借用了一下上面一个结构的指��o�Q�还是没有用_mm_128格式�Q�让大家看得清楚一些：
__declspec(align(16)) struct Vertex_soa{
     float x[4],y[4],z[4],w[4];
};
    依旧16字节寚w��。计��函数如下：
1 void Dot(Vertex_soa* v1,Vertex* v2,float* result)
2 {
3     Vertex tmp1,tmp2;
4     __asm{
5         MOV ECX,v1;
6         MOV EDX,v2;
7
8         MOVAPS XMM7,[ECX];
9         MOVAPS XMM6,[ECX+16];
10         MOVAPS XMM5,[ECX+32];
11         MOVAPS XMM4,[ECX+48];
12         MOVAPS XMM0,XMM7;
13         UNPCKLPS XMM7,XMM6;
14         MOVLPS [EDX],XMM7;
15         MOVHPS [EDX+16],XMM7;
16         UNPCKHPS XMM0,XMM6;
17         MOVLPS [EDX+32],XMM0;
18         MOVHPS [EDX+48],XMM0;
19
20         MOVAPS XMM0,XMM5;
21         UNPCKLPS XMM5,XMM4;
22         UNPCKHPS XMM0,XMM4;
23         MOVLPS [EDX+8],XMM5;
24         MOVHPS [EDX+24],XMM5;
25         MOVLPS [EDX+40],XMM0;
26         MOVHPS [EDX+56],XMM0;
27
28         MOVAPS XMM3,[EDX];
29         MOVAPS XMM2,[EDX+16];
30         MOVAPS XMM1,[EDX+32];
31         MOVAPS XMM0,[EDX+48];
32
33         MULPS XMM3,XMM2;
34         MULPS XMM1,XMM0;
35         MOVAPS tmp2,XMM1;
36         MOVAPS tmp1,XMM3;
37     };
38     result[0] = tmp1.x + tmp1.y + tmp1.z;
39     result[1] = tmp2.x + tmp2.y + tmp2.z;
40 };
    Oh Yeah�Q�就是这样了�Q�同时计��了1对乘法。我在代码中借用了一下前面的��点�l�构�Q�这��h��便一些。至于SOA格式�Q�请看前面的声明。很多代码都是�{换Stack中的内存格式�Q��{换成AOS格式�Q�这��h��能��用SIMD指��o计算�?br />
    通过上面的演�C�，惛_��大家已经对SIMD有了个直观地认识�Q�其实在自己的代码中加入�q�些是非常方便与�Ҏ��的。虽然说现在的CPU性能已经提高了许多，性能也强了许多，可是在诸多对性能要求高的地方�Q�还是非常烤烟程序员的水�q�的�?br />
    �Ƣ迎大家拍砖�Q?/b>

周�L 2006-08-24 15:37 发表评论

初学汇编之CPU�c�d��识别

周�L — Fri, 18 Aug 2006 14:15:00 GMT
��Z��以后优化��法�Q�还是硬着头皮学了一下汇�~�，也就是C\C++与汇�~�的混合�~�程�Q�帖一个类的代码，非常��单的东西�Q�觉得还可以优化。识别CPU的型��P��使用了Intel的CPUID指��o�Q�还没有来得及看AMD的资料，以后有空了我也做一个类��g��CPUID一��L��工具呵��c�?div style="border: 1px solid rgb(204, 204, 204); padding: 4px 5px 4px 4px; background-color: rgb(238, 238, 238); font-size: 13px; width: 98%;">class CIntelCpuInfo{
private:
    DWORD m_VersionInfo;
    DWORD m_Features;

    void GetFeatures();
    void GetVersionInfo();
public:
    CIntelCpuInfo() {};
    ~CIntelCpuInfo() {};
    void Show();
};

void CIntelCpuInfo::Show()
{
    this->GetVersionInfo();
    this->GetFeatures();
};

void CIntelCpuInfo::GetVersionInfo()
{
    DWORD VER;
    DWORD BACKUP;

    DWORD STEP,MODEL,FAMILY;
    __asm{
        MOV EAX,01H;
        CPUID;
        MOV VER,EAX;
        MOV BACKUP,EAX;
        AND EAX,0000000FH;
        MOV STEP,EAX;
        MOV EAX,BACKUP;
        SHR EAX,4;
        AND EAX,0000000FH;
        MOV MODEL,EAX;
        MOV EAX,BACKUP;
        SHR EAX,8;
        AND EAX,0000000FH;
        MOV FAMILY,EAX;
    };
    cout<<"Family ID : "<<FAMILY<<" Stepping ID : "<<STEP<<" Model : "<<MODEL<<endl;
};

void CIntelCpuInfo::GetFeatures()
{
    DWORD C,D;
    DWORD SSE3Tag;
    DWORD SSTEPTag;
    DWORD SSE2Tag;
    DWORD SSE1Tag;
    DWORD MMXTag;
    __asm{
        MOV EAX,01H;
        CPUID;
        MOV C,ECX;
        PUSH ECX;
        AND ECX,01H;
        MOV SSE3Tag,ECX;
        POP ECX;
        AND ECX,0080H;
        MOV SSTEPTag,ECX;
        SHR SSTEPTag,7;
        MOV D,EDX;
        SHR EDX,23;
        PUSH EDX;
        PUSH EDX;
        AND EDX,01H;
        MOV MMXTag,EDX;
        POP EDX;
        SHR EDX,2;
        AND EDX,01H;
        MOV SSE1Tag,EDX;
        POP EDX;
        SHR EDX,3;
        AND EDX,01H;
        MOV SSE2Tag,EDX;
    };
    cout<<"SSE3 Support ? "<<SSE3Tag<<endl;
    cout<<"SSE2 Support ? "<<SSE2Tag<<endl;
    cout<<"SSE1 Support ? "<<SSE1Tag<<endl;
    cout<<"Enhanced SpeedStepping ? "<<SSTEPTag<<endl;
};
我的CPU�?002�q�下半年的，Intel Pentium 4 Northwood 1.8GA�Q�嗬嗬，搞得多么先进一栗��截囑֦�下，

�l�果完全正确。有了一些经验，在以后的�E�序中，可以通过识别CPU�c�d��q�行额外的优化，以后好好的研�I�Intel的Manual�?br />

周�L 2006-08-18 22:15 发表评论

LINUX�pȝ��不能�l�治桌面之理�?�Ƣ迎讨论

周�L — Thu, 10 Aug 2006 13:25:00 GMT

�l�构冗繁。尚不说安装一个普通的LINUX发行版需要多��包�Q�就是包和包之间的依赖关�p�，可是比理��子还困难一癑ր�。最讨厌看到的就是在命��o行下兴冲冲的输入安装命��o时蟩��Z��个个require提示�Q�得�Q�插入碟一个一个安装吧�?/li>
体积庞大。WINDOWS98多大�Q�全部安�?00M�Q?000多大�Q�普通安�?.3G�Q�XP多大�Q�普通安�?.1G�Q�VISTA�q�不知道。反正我知道SUSE已经用DVD装蝲了。这一�Ҏ��M$先进�Q�可是硬盘空间呢�Q�是否系�l�真的需要那么多的东西么�Q�非�?/li>
工具花哨不统一。我知道LINUX FANS的水�q�_��高，可是��是没有M$出的软�g那么��手实用�Q�就拿播攑֙�来说�Q�各式各��L��东西�Q�从KDE自己的MP3播放器开始，��C��造WINAMP的播攑֙��Q�还有各�U�CD播放器。WINDOWS下就是方便多了，ASPI+EAC可以搞定所有的CD抓取工作�Q�foobar2000+Media Player Classic�Q�搞定了音频视频。即使是对大多数人来��_��也有诸如WMP�Q�PowerDVD�{�对于入门用户也非常有亲和力的��Y件。这�U�高手充光��也是普通的Hacker�Q�不是Engineer�Q�更不是Professinal Developer�?/li>
基础教育没有普及。好象还没有人给大多数入门者解释过X-WINDOWS是什么东西，当初我是�׃��不少旉��才弄明白X11R6 XFree86 XServer�{�等��是是什么东西，然后才会安装NVIDIA的驱动程序，手动更改配置文�g。也没有��释过�Q�当初�h们如何用命��o行访问http�Q�访问NFS�Q�大多数会用WINDOWS下的“网上邻居”，“CuteFTP”。如果想要推�q�LINUX�Q�学校这一关不可忽视。可是…�?/li>
需要最��L��让所有的人都要明白C\C++语言是怎么回事。想升��pȝ��Q�先拿内核开刀。可是这个内核究竟是什么东西，��Z��么要�~�译�Q��ؓ什么编译时需要用��C��个叫做makefile的东西？一切的一切，对于普通�h来说�Q�可是非帔R��峭的学习曲线�?/li>
开发�h员没有一个完整强大的C\C++ IDE。IDE�Q�最基本的功能莫�q�于工程��理和代码提�C�。Borland造了一个，那是��Z��Delphi�Q�可是C\C++人员呢？��N��q�是vim敲字�W�？手动make�Q?/li>
驱动�E�序规范不统一。有的驱动程序要求重新编译内核，以及各种各样的安装方式�?D是最要命的，除了NVIDIA�U�极外，其他的厂商看不出什么动作。还�?D API�Q�纯软�g跨��^台的Mesa3D�Q�还有一个GLX�?/li>

周�L 2006-08-10 21:25 发表评论

周�L — Thu, 03 Aug 2006 01:50:00 GMT
     摘要: �q�些都是��出White Paper的经验�ȝ��Q�如有错误，请多多指正谢谢！　　1、��用哪个苦力　　你可以��用GPU或者是CPU�Q�计��随旉��变化的高�E�。听��h��用GPU的Vertex Shader计算高程好像非常先进�Q�其实不然。因为GPU与CPU的运作机制不同，每个FPS�Q�传入时间Uniform变量会导致GPU效率低下�Q�在NVIDIA的GPU优化指南中提到过�q�一炏V��所以我�q�是推荐用CPU计算高程�Q�因为牵...  阅读全文

周�L 2006-08-03 09:50 发表评论

周�L — Tue, 01 Aug 2006 14:14:00 GMT
     摘要: The Direct3D 10 System 注：SIGGRAPH 2006卛_��在�L士顿开�q�，微��Y也将发布DirectX10的相兌��料。�ؓ此特地翻译了源自微��YDirectX开发社区的一��PDF文档�Q�“The Direct3D 10 System”，原文地址为http://download.microsoft.co...  阅读全文

周�L 2006-08-01 22:14 发表评论