亚洲成色精品,亚洲午夜一区二区,欧美另类亚洲

��析DirectX11技术带�l�图形业界的改变(一)

CrazyDev — Thu, 06 May 2010 14:24:00 GMT

��析DirectX11技术带�l�图形业界的改变

前言�Q?009�q?0�?3日，微��Y高调发布了其最��C��?a >操作�pȝ��——Windows7�Q�这�ƾ操作系�l�相对于之前的Vista�pȝ��有相当大的进步，特别核心执行效率斚w��得到显著改善�Q��ƈ且加入了DirectX 11�{�新技术。微软此�ơ推出全新图形API——DirectX 11目的很明��，��是能够充分利用昑֍�资源�Q�旨在游戏以及通用计算斚w��辑ֈ�更高的执行效率。今天本文就带大家一起分析DirectX 11技术带�l�图形业界和游戏玩家的双重体验。同时也让更多�h了解到自己是否需要一�ƾ支持DirectX 11的显卡，具体选择哪些昑֍�最为合适�?/p>

�?DirectX对GPU发展带来的媄�?/p>

DirectX�q�不是一个单�U�的囑�ŞAPI�Q�它是由微��Y公司开发的用途广泛的API�Q�它包含有Direct Graphics(Direct 3D+Direct Draw)、Direct Input、Direct Play、Direct Sound、Direct Show、Direct Setup、Direct Media Objects�{�多个组�Ӟ��它提供了一整套的多媒体接口�Ҏ��。只是其�?D囑�Ş斚w��的优�U�表现�Q�让它的其它几个�l��g几乎被�h们忽略�?/p>

Direct Graphics的优�U�表现和微软的影响力，令无数硬件厂商生畏�ƈ不断遵��@其变化来开发新的图形处理器架构。同时ATI和NVIDIA两家厂商之所以至今仍不断跟随DirectX的步伐，是意识到��M��游戏相关的硬件厂商要是被微��Y抛弃�Q�那么其后果是不堪设想的�?/p>

大家都在畅想DirectX技术的未来

在过�ȝ��数次DirectX更替中，有几�ơ较大的更新�Q�比如我们熟知的从DirectX 7到DirectX 8到DirectX 9到再DirectX 10�Q�也是因��L��理由使得芯片变得更大。在向DirectX 8的�{�U�M��得可�~�程的硬件进入管�U�成��Z��双重构造。对于DirectX 9的顶点处理与像素处理�Q�则被真正的可编�E�处理器调换。而在向DirectX 10的�{�U�Mؓ了实现更灉|��的可�~�程性，需要GPU架构�q�行�Ҏ��的改革�?/p>

所以哪个世代的改变以及生��什么样的GPU都关乎根本性的攚w��Q�而这�U�改革基本上都是围绕DirectX�q�个最重要的图形API来进行的。特别是DirectX 10时代架构的改革，从根本上改变了GPU的本质。从DirectX 8向DirectX 9通过API的改革牵动了GPU架构的改革，而架构巨大变化的转折点则是DirectX 10�?/p>

DirectX 10时代着色器单元走向�l�一

在DirectX 10时代�Q�我们非常有�q�看��C��Pixel Shader�Q�顶点着色器�Q�、Vertex Shader�Q�像素着色器�Q�和Geometry Shader�Q�几何着色器�Q�，三种具体的硬仉��辑被整合�ؓ一个全功能的着色器Shader。但是我们也发现�Q�GPU在性能提升的同�Ӟ��芯片规模发生了更快速的攑֤��Q�这不得不让人担心未来GPU的功耗和发热�{�等问题�?/p>

事实上芯片变大有两个主要原因。一个是因�ؓ性能的增加。要提高�q�算性能��׃��需要更多的资源�Q�这会增加晶体管的数量。另一个就是�ؓ了发展可�~�程化。需要让单一的可�~�程处理器包括个别进行处理的固定功能��g�Q�这必然也会增加晶体��数量。可是这样会让性能出现大幅度下滑，因此��Z��保持同样的性能也需要大�q�度增加�q�算资源。结果就是对于GPU的情况需要从固定��用向可�~�程��g转换�Q�晶体管数和核心��寸也因此而增加�?/p>

直到今天我们看到的DirectX 11出现�Q�这个问题得��C��一个��^衡的解决�Ҏ��。DirectX 10带来了众多绚丽无比的新特效，�?#8220;滥用”各种�Ҏ��最�l�导致GPU不堪重负。在DirectX 10�l�历了种�U��L折，瓉��显�Ӟ��微��Y也开始将重心集中在如何提升算法和效率上面�Q�而不是一味的加入新特效或提高模型复杂度。因此我们看到的DirectX 11�Q�已�l�将技术重心放在如何用最��的��g开销在先�q�图形技术的辅助下实现最佳的渲染效果�?br>

�?DirectX 11带来的全新特�?/p>

DirectX 11作�ؓ一套全新的囑�ŞAPI�Q�提供给囑�Ş开发者和用户极大的想象空��_��同时降低了开发难度，节省��g资源�Q�特别是后两个特点，是DirectX 11区别与以往的DirectX最为显著的特点�?/p>

2009�q�NVISION大会上，微��Y��透漏了DirectX 11的大量细节，此时DirectX 11已经完全成熟�q�获得硬件厂商支持，��q��和Win7操作�pȝ��一同上市了。同时借助SIGGRAPH以及GameFest 2008大会上放出的�qȝ��片，我们可以�q�行一些深入的研究。此外，DX11�Ҏ��的提前攑և��Q�对于目前DX10以及DX10.1��g用户而言也很有帮助，因�ؓAMD和NVIDIA可以照此提前开发适当的驱动支持�?/p>

2008�q�度NVISION资料截图

回顾历次DirectX的更替过�E�，几乎都对GPU架构产生了颠覆性的影响�Q�它们大部分要求GPU改变现有的着色器Shader单元�l�构�Q�或者�ؓ着色器Shader单元�q�加资源�Q�这些改�q�都是�ؓ了让GPU的指令数提升�Q�寄存器数量增加�Q�纹理规模提升，材质Texture�_�ֺ�提升。这��L��改进隑օ�带来晶体��数量的增长�Q�也��p��说GPU内部的每个着色器Shader单元变得更加庞大�?/p>

DirectX 11发布后，��Z��发现微��Y�q�没有在Shader Model斚w��做出重要提升�Q�虽然版本升至Shader Model 5.0�Q�但是更重要的是它实际上可以被看作是DirectX 10和DirectX 10.1的功能补全，你也可以认�ؓ它是DirectX 10和DirectX 10.1的超集，如果换个角度大胆设想�Q�我们今天看到的DirectX 11才是微��Y惌��的DirectX 10完美形态�?/p>

DirectX 11针对不同斚w��带来了全新的�Ҏ��，目前通过现有资料分析�Q�它主要有以下几个方面的提升�Q?/p>

DirectX 11带来的全新特�?/p>

�?着色器版本提升到Shader Model 5.0�Q�采用面向对象的概念�Q��ƈ且完全可以支持双�_�ֺ�数据�?br> �?Tessellation曲面�l�分技术获得微软正式支持，逐渐走向成熟�Q?br> �?Multithreading多线�E�处理，让图形处理面对多�U�程�~�程环境不再��尬�Q?br> �?提出微��Y自己的Compute Shader通用计算概念�Q�把GPU通用计算推向新的巅峰�Q?br> �?新的Texture Compression�U�理压羃�Ҏ��Q�在画质损失极小的环境下带来了硬件资源的节约�?/p>

在今天的分析中，我们��重�Ҏ��在Tessellation曲面�l�分技术方面，因�ؓ�q�是DirectX 11最为突出的特色之一�Q�也是给囑�Ş�q�算产生��p��影响的一��Ҏ��术，DirectX 11的其他特�Ҏ��们也会提及�?br>

�?Tessellation技术简�?/p>

Tessellation又可译作拆嵌式细分曲面技术。其实这是ATI早在其第一代DirectX 10囑�Ş核心R600�Q�即HD2900XT上就引入的一个特�D�的计算模块。从HD2000�p�d��开始，直到最新的HD5000�p�d��Q�整�?�?a >昑֍�全部支持�q�一技术。即使目前也仍然没有游戏能够支持�q�一技术，ATI也依然没有放弃在�q�项技术上的努力——从名字上也可以看出ATI在这��Ҏ��术上的心血�Q�Tessell-ATI-on�?/p>

Tessellation主要是靠GPU内部的一个模块Programmable Tessellator�Q�可�~�程拆嵌器）来实现的。能够根�?D模型中已�l�有的顶点，�Ҏ��不同的需求，按照不同的规则，�q�行插��|��一个多边�Ş拆分成�ؓ多个多边形。而这个过�E�都是可以由�~�程来控制的�Q�这样就很好的解决了效率和效果的矛盾。TessellATIon能自动创造出数百倍与原始模型的顶点，�q�些不是虚拟的顶点，而是实实在在的顶点，效果是等同于建模的时候直接设计出来的�?/p>

Tessellation工作��程三部�?/p>

很明显，DirectX 11中的Tessellation让雪��q��凹凸感更为明显，�q�胜于DirectX 10里所采用的视差映��脓图技术。虽然后者在较远距离观看的时候也能提供一定的视觉�ƺ骗性，但和 Tessellation技术塑造出来的真实感觉�q�相差太�q�。我们��用的分析图来自AMD在R600发布时放出的一�D�Demo�Q�这�D�Demo区别于以往的设计方式，它没有突��Z��角而��E化背景，因�ؓ在没有Tessellation技术之前，大量��点的生成和随之而来的计��将�l�GPU的几何处理部分带来巨大压力，无法��畅�q�行�Q�而Tessellation技术改变了�q�一模式�?/p>

除了大幅提升模型�l�节和画质外�Q�Tessellation最吸引�E�序员的地方��是�Q�他们无需手动设计上百万个三角形的复杂模型�Q�只需��单勾�l�一个轮廓，剩下的就可以交给Tessellation技术自动拆嵌，大大提高了开发效率；而且��单的模型在GPU处理时也能大�q�节�U�显存开销�Q��o渲染速度大幅提升�?/p>

�?Tessellation技术历史回��?/strong>

    Tessellation技术最早可以追溯到DX8时代�Q�当时ATI��已�l�和微��Y联手开发了TruForm�Q�N-Patch�Q�技术，也就是Tessellation的前�w�，�q�被�U�_��DX8.1的范畴�?/p>
    2001�q�_��ATI公布了TruForm的技术细节，相关媒体也对�q�一技术进行了报道。简单地说TruForm技术就是将在芯片内部将游戏中的三角形�{换成曲面然后再�{换成一个新的三角�Ş�Q�这个三角�Ş可以在场景中昄��?/p>
    当三角�Ş信息通过囑�Ş芯片�Ӟ��TruForm技术开始工作，它通过创徏N-Patch来�Ş成N-Patch�|�格�?/p>
    N-Patch�|�格是一个曲面，通过�U�性三角�Ş信息来定义。N-Patches在三角�Ş每个�Ҏ��两个控制点，�q�样��׃�生了六个新的��点。这些控制点都在一个单独的�q�面上，可以位于原三角�Ş之下或者之上。��用储存在原三角�Ş的顶点向量的信息�Q�可以决定控制点的位�|��?/p>

N-Patch技术示意图

    当然�Q�这�q�不是一个简单的工作�Q�而这正是TruForm技术的用处所在。当时�h们认为它是ATI下一�?a class=hui14_line >昑֍�Radeon2的独门武器。在当时GPU�q�算能力极�ؓ有限的情况下�Q�N-Patch技术可以大�q�提�?D模型的细节和昄��效果�?/p>
    但是它却出现了一些非帔R��憄��p��Q�导致这��Ҏ��术最�l�被用户攑ּ�。因为N-Patch技术技术比较适合于�v豚、赛车等表面为曲面的模型上，而如果这个技术应用在坦克�{�不需要做曲面化的模型上的时候，效果��׃��变得相当的滑�E��?/p>

Tessellation技术带来的3D��水�U�变�?/p>
    N-Patch/TruForm技术就�q�样被市��~�化�Q�但是ATI�q�是没有攑ּ�对它的开发和研究。终于在2005�q�出��C��转机�Q�在微��Y与ATI的合作结晶——专为XBOX360设计的图形芯片Xenos当中�Q�经�q�改�q�的N-Patch/TruForm技术重出江湖，�q�次ATI��它直接命名为我们熟悉的TessellATIon�Q�直译�ؓ“拆嵌”意译�?#8220;�l�分曲面”�Q�同时表�C�ATI在这��Ҏ��术中不可��灭的�A献�?/p>
    �?Tessellation技术拆解分�?/strong>

    Tessellation�q�个英文单词直译�?#8220;镶嵌”�Q�也��是在顶点与��点之间自动嵌入新的��点。Tessellation�l�常被意译�ؓ“�l�分曲面”�Q�因为在自动插入大量新的��点之后�Q�模型的曲面会被分得非常�l�腻�Q�看上去更加�q�x��致密。它是一�U�能够在囑�Ş芯片内部自动创造顶点，使模型细化，从而获得更好画面效果的技术。Tessellation能自动创造出数百倍与原始模型的顶点，�q�些不是虚拟的顶点，而是实实在在的顶点，效果是等同于建模的时候直接设计出来的�?/p>

囑�Ş业界对于曲面�l�分的探索不断深�?/p>
    在此之前�Q��h们对低代价多边�Ş操作法已�l�探索了�q?0�q�_��从最开始的对三角�Ş的fan操纵�Q�到后来的龟裂和冲撞��查，�q�些�Ҏ��可以实现曲面�l�分效果�Q�但是对资源的消耗量太大不可控制。这�ơ微软在DirectX 11中加入硬件Tessellation单元�Q�我们可以视作曲面细分技术历�l�长旉��的磨�l�后修成正果。虽然它不太�W�合通用处理单元的设计方向，但是如果计算晶体��的投入与性能回报�Q�独立的��gTessellation单元是目前最好的选择�?/p>
    Tessellation技术是完全可编�E�的�Q�它提供了多�U�插值顶点位�|�的�Ҏ��来创造各�U�曲面：

　　1. N-Patch曲面�Q�就是和当年TruForm技术一��P��Ҏ��基础三角形顶点的法线军_��曲面�Q?br>　　2. 贝塞��曲面，�Ҏ��贝塞��曲�U�的公式计算��点的位�|�；
　　3. B-Spline、NURBs、NUBs曲线�Q�这三种曲线均�ؓCAD领域常用曲线�Q�在Maya中均有相应工具可以生成）
    4. 通过递归��法接近Catmull-Clark极限曲面�?/p>

不同方式的曲面细分效果实�?/p>
    Tessellation技术最初主要被用以“�l�分曲面”�Q�随着该技术被�U�_��DX11范畴�Q�得到大范围推广之后�Q�插值顶点的��法也越来越多，因此用途也��来��广�Q��生了很多非常有创意的应用�?/p>
    Tessellation技术还�l�常与Displacement Maps�Q�脓囄��换）技术搭配��用，从而将�q�面�U�理贴图攚w��成为具有立体感的几何图形，大大增强3D模型或场景的真实性�?/p>
    除了大幅提升模型�l�节和画质外�Q�Tessellation最吸引�E�序员的地方��是�Q�他们无需手动设计上百万个三角形的复杂模型�Q�只需��单勾�l�一个轮廓，剩下的就可以交给Tessellation技术自动镶嵌，大大提高开发效率；而且��单的模型在GPU处理时也能大�q�节�U�显存开销�Q�同时大�q�提升渲染速度�?/p>
    �?DirectX 11引入可编�E�曲面细分管�U?/strong>

    在DirectX10时代的细分曲面里�Q�最有新用途的��是Geometry Shader和Stream Out�Q�前者可以输入一些数据，然后产生一些三角�Ş�Q�后者可以断�l�Pixel Shader�Q�做完Geometry Shader��q��接输出回Input Assembler�Q�这��意味着可以做GPU递归和�P代�?/p>
    而DirectX 11相比DirectX 10�Q�Shader Model的变化�ƈ不算大，只是增加�?个全新的指��o集。但是对于游戏开发者而言�Q�Shader Model 5.0函数和子�E�序代码的开发都比上一代更加简单方�ѝ��增加的五个新指令集目的也是��Z��让编�E�者可以进行更灉|��的数据访问和操作�?/p>
    在Shader Model 5.0中，Shader�q�行了类型的�l�一�Q�除�?.0版本中就已经有的Vertex Shader、Pixel Shader、Geometry Shader外，�q�增加了Hull Shader、Compute Shader、Domain Shader三种新的Shade�Q�它们的出现都是��Z��完善曲面�l�分��线�?/p>

    ATI的HD2000以上�U�别昑֍�其实都具备Tessellation的功能，但它们却无法与DX11中的Tessellation技术相兼容。这是因为微软�ƈ没有原封未动的将R600的Tessellation技术抄到DX11之中�Q�而是对其�q�行了优化，使之能与渲染��程完美的结合在一��P��可以更高效率的细分出更多的多边�Ş和曲面�?/p>

    与DX9C/DX10时代孤零零的Tessellator模块不同�Q�在DX11当中�Q�微软加入了两种全新着色器来全力配合Tessellator的工作，分别位于镶嵌器的前后�?/p>

    其中Hull Shader�Q�外壳着色器�Q�用来控制自动生成顶点的数量和算法，也就是Tessellator的细分��别，然后交给Tesselator�q�行镶嵌处理�Q�最后由Domain Shader�Q�域着色器�Q�按照程序要求生成所需曲面�Q��ƈ自动�q�行法线�q�移、置换脓图，产生新的模型�?/p>

    与DX9/10中的Tessellation技术相比，DX11新增的两�U�着色器都受�l�一渲染架构支配�Q�因此处理能力非常富裕，DX11版Tessellation不仅效率更高、而且�l�分�U�别更丰富。但是，更高的细分等�U�对Tessellator模块本��n的处理能力提��Z��苛刻要求�Q�这需要芯片厂商在设计之初��p��虑周全�?br>   �?Tessellation与Displacement Mapping�l�合应用

    Displacement Mapping�Q�脓囄��换）与Tessellation�Q�曲面细分）的结合��用具有许多优�ѝ��虽然两者在原理斚w��本来是没有�Q何�?/p>
    贴图�|�换是一�U�通过VS和alpha混合操作来达成复杂表面的操作�Q�基本上贴图�|�换不会增加新的多边形，即便增加也仅作操作点用。曲面细分则不一��P��它通过在已知多边�Ş内设立新的顶点，达成fan操作来完成增加多边�Ş的目的。这两种技术一个的重点是alpha和顶点移动，另一个的重点则是直接增加多边形数量。这是两�U�完全不同的复杂表面�l�节实现手段�?/p>

Tessellation和Displacement Mapping�l�合应用

    ��单来�Ԍ��Displacement Mapping的目的就是借助Tessellation改变多变形的外观�Q�而不仅仅只是圆滑��p��?/p>
    正如你所看到的那��P��Displacement mapping能够透过Tessellation和Displacement Mapping让一张��^面的�|�面真正实现��h��不同形状的外观（上面的例子是�l늉�起伏的山丘）�Q�只要��用Displacement Mapping映像到网面的��点上，��p��够让�|�面善的��点提升/升降��C��同的相对高度�Q�同��L��|�面可以形成不同的�Ş状�?/p>

Tessellation和Displacement Mapping�l�合应用

    和以往主要在光栅化阶段�q�行的Bump mapping不同的是�Q�Displacement Mapping是生成的是由更多多边形构成的真实外观�Q�而Bump mapping则是一�U�欺骗性手�D�c��一�U�性能妥协�Ҏ��而已�Q�不能��生真正不同的外�Ş�Q�采用Displacement Mapping来实��C��富的表面�l�节实在有太多的好处了�?/p>
    最�l�，利用Displacement Mapping�Q�脓囄��换）与Tessellation�Q�曲面细分）相结合的方式所渲染出来的模型与艺术家所用工具中的原生模型很�怼��Q�从而让艺术家不必创��Z��同几何细节��别的模型�Q�无需重复地进行这�U�一般性劳动�?/p>
    �?全新的多�U�程渲染技�?/strong>

    虽然��线�E�概念已�l�在CPU领域发展了数十年�Q�但大多数程序员�q�是直到�q�年来多核心CPU��行之后才开始关心程序的�q��化，在此之前大部分通用代码都是��单的单线�E�，在这些代码里��L��q�挖掘多�U�程化带来的性能提升是非常困隄��?/p>
    ��Z��改变�q�一现状�Q�DirectX 11�Ҏ��还包括很重要一点：支持多线�E�（multi-threading�Q�。没错，无论是DirectX 10�q�是DirectX 11�Q�所有的色彩信息最�l�都��被光栅化�ƈ昄��在电脑显�C�屏上（无论是通过�U�性的方式�q�是同步的）�Q�但是DirectX 11新增了对多线�E�技术的支持�?/p>

从DirectX 10到DirectX 11的多�U�程变化

    得益于此�Q�应用程序可以同步创造有用资源或者管理状态，�q�从所有专用线�E�中发送提取命令，�q�样做无疑效率更高。DX11的这�U�多�U�程技术可能�ƈ不能加速绘囄��子系�l�（特别是当我们的GPU资源受限�Ӟ��Q�但是这样却可以提升�U�程启动游戏的效率，�q�且可以利用台式CPU核心数量不断提高所带来的潜力�?/p>

多线�E�渲染示意图1

    在DirectX 11中，微��Y通过��目前单一执行的Direct 3D讑֤�被分��Z��个独立的接口�Q�设备（Device�Q�、立��x��行范��_��immediate Context�Q�和延迟执行范畴�Q�Deferred Context�Q��?/p>

多线�E�渲染示意图2

    �q�三者都被分发到各自独立的线�E�，而且讑֤�和Deferred context�q�可以分配多个线�E�，负责��等待执行的��d��发送给immediate Context或渲染线�E�。这��L��设计可以��图形生成所需的资源做预先的存取。同�Ӟ��CPU�q�可以利�?a class=hui14_line >昑֍�的多�U�程处理加快DirectX的处理，减少CPU的响应时间而��游戏不再受到CPU的瓶颈限制�?/p>

CrazyDev 2010-05-06 22:24 发表评论

Havok VS PhysX 漫谈物理加速世界！

CrazyDev — Tue, 04 May 2010 14:53:00 GMT

�W?��：物理大战新篇�?/strong>

　　2008�q?月，NVIDIA与AMD-ATI先后发布了自家新一代高阶��品GT200�Q�GeForce GTX 280/260�Q�与RV770�Q�Radeon HD 4850/4870�Q�，我们在惊诧于��C�品的极限性能�Ӟ��众多新技术引用也是玩家关注的重点�Q�例如NVIDIA的CUDA架构�Q�AMD-ATI的GPGPU解决�Ҏ��{�。在众多的技术当中，物理加速技术由于震撼的视觉体验及两家不同的解决�Ҏ��再次成�ؓ了�h们关注的焦点�?/font>

　　NVIDIA发布的CUDA 2.0开发包中蕴含了PhysX物理加速技术，NVIDIA的意向是使用GPU通过CUDA架构来实现物理加速；而作为同时拥有CPU与GPU业务的AMD自然会选择CPU+GPU��Z��导的Havok物理引擎�?007�q?月Intel闪电收购Havok之后�Q�NVIDIA与AMD-ATI的GPU物理加速计��就昑־�非常��尬�Q�因为Intel收购Havok的目的就是��Havok引擎专注于CPU物理�q�算�Q��ؓ了对抗Intel�Q�亦或是说CPU�Q�，NVIDIA收购了Ageia及其PhysX引擎�Q��PhysX引擎专注于GPU物理�q�算。AMD-ATI如何选择物理加速方案在RV770之前业界充满了猜��，因�ؓ无论是Havok�q�是PhysX引擎�Q�都是竞争对手的产品�Q�而�ؓ了AMD更加长远的Fusion计划�Q�AMD-ATI最�l�选择了前者�?/font>

　　物理加速技术在2006�q�Ageia发布物理PhysX加速卡时被��Z��所��x��Q�甚��x��人笑�U?D加速成��׃��3DFX�Q�而物理加速将成就Ageia�Q�但是由于Ageia采用的是PhysX��g物理卡加速方式，而物理卡又�h��g��Ԍ��虽然Ageia也出售PhysX引擎�Q�但是由于没有PhysX��g加速卡支持的话效率会降低，在加上NVIDIA与AMD-ATI当时都采用了Havok引擎作�ؓ标准�Q�因此一直没有受到游戏开发商及广大玩家的重视。而Havok引擎在很长一�D�|��间都是致力于CPU软�g加速，但是随着Havok 4.0工具中Havok FX的发布就不一样了�Q�Havok FX引擎是通过GPU来进行物理加速，主要针对当时的PhysX引擎�?/font>

　　关于GPU与CPU在做物理�q�算时的差距�q�里��׃��多做介绍了，有很多这斚w��的文章可寻，��M��来说GPU�q�行物理�q�算可以是四核CPU的十几倍到几十倍不�{�，比PPU有几倍到几十倍的性能提升。而我们这里主要探讨的NVIDIA与AMD-ATI GPU加速昨天、今天与明天�Q?/font>

�W?��：昨天—殊归同途的Havok FX引擎

　　Havok FX发布�?006�q�中�Q�前文已�l�提刎ͼ�Havok FX引擎是通过GPU来进行物理加速，当时的NVIDIA与AMD-ATI都不�U�而同的支持Havok FX引擎�Q�首先来看NVIDIA的NVIDIA SLI Physics技术，NVIDIA是采用SLI模式的第二块昑֍�来进行物理加速�?/font>

　　从上图中可以看出�Q�Havok FX API通过DirectX��数据发�l�GPU驱动�Q�如果游戏或者驱动不支持SLI物理�Q�那么将不会发送物理数据，反之则交�l�GPU 2�q�行物理计算�Q�计��结果则�q�回�l�Havok API�?/font>

　　与NVIDIA的物理解��x��案类��|��AMD-ATI同样采用Havok FX引擎�Q�同样基于多卡互联CrossFire来实现物理加速，�W�二块显卡来�q�行GPU物理加速�?/font>

　　当时AMD-ATI的X1000�p�d��GPU的设计理忉|��搭徏��化的芯片架构�Q��得芯片内部的�q�算灉|��性增强，�Ҏ��外部接口API的不同，可以实现完全不同的运��Q务，�q�且命名为DPP�Q�Data Parallel Processing �Q��ƈ行数据处理架构�?/font>

　　虽然同样采用了Havok FX引擎�Q��ƈ且都是双卡互联�Ş式实玎ͼ�但是两家的解��x��案却大相径庭�Q�NVIDIA是通过DirectX API来实现物理加速，而AMD-ATI则是通过数据�q�行计算架构提取�Q�Data Parallel Processing Architecture Abstraction �Q�直接与Havok FX引擎交换数据�Q�让Havok FX引擎直接与GPU沟通，而不需要通过Direct3D和OpenGL API�Q�AMD-ATI著名的Close To Metal(CTM)接口��是在这个时期提出的。简单的理解��是�Q�AMD-ATI的实现方式是“GPGPU”通用计算的�Ş式来做物理运��，而NVIDIA是让昑֍�通过DirectX�?#8220;GPU”的工作方式在做物理加速（其实也是GPGPU应用范畴�Q��?/font>

　　至于两种�Ҏ��的优劣其实讨��v来真的没有意义，因�ؓ实际上除了NVIDIA与AMD-ATI自家演示的小DEMO与视频之外，目前支持GPU物理加速的游戏几乎没有�Q�大部分使用到物理加速的游戏�q�都是��用CPU物理加速的方式�Q�包括我们熟知顶�U�大作《Crysis》、《��命召�?�Q�现代战争》等�{?#8230;…

�W?��：今天—PhysX��x��Havok FX

　　当NVIDIA宣布CUDA集成PhysX物理引擎�Ӟ��很多人都会认为PhysX引擎只支持GPU物理加速技术，�q�也是AMD-ATI选择Havok FX引擎的主要原因。然而实际上PhysX引擎最初是只支持CPU与PPU�Q�而不支持GPU�Q�即使是融入CUDA之后�Q�PhysX引擎也仍然支持CPU物理加速。之所以给人PhysX引擎只支持GPU物理加速的错觉�Q�是因�ؓNVIDIA表示今后��大力发展GPU物理加速，但这�q�不表示PhysX引擎排斥CPU或者CPU+GPU的解��x��案�?/font>

　　无论是GPU�q�是CPU、PPU、Cell�Q�PS3�Q�都可以通过HAL��译层来实现软、固质体动力(Soft or Rigid Body Dynamics)、通用��撞侦测(Universal Collision Detection)、有限元素分�?Finite Element Analysis)、流体动�?Fluid Dynamics)、毛发模�?Hair Simulation)以及更先�q�的布料模拟(Cloth Simulation)、自然模拟（Natural Motion�Q�等在内新颖技术�?/font>

　　通过CUDA通用接口�Q�PhysX引擎��NVIDIA GPU中的Thread Scheduler�Q�线�E�管理器�Q�模拟成Control Engine(控制引擎CE)�Q�而Streaming Processors来模拟Vector Processing Engine(矢量处理引擎,VPE)�Q�其中CE控制引擎负责��d��的指�z�，相当于PhysX中的�ȝ��机构�Q�而真正的物理�q�算��d��则是由VPE矢量引擎来完成，最后通过Data Movement Engine(数据�U�d��引擎DME)输出。关于最新GT200物理�q�算的优势已�l�被NVIDIA吹的天花乱坠�Q�这里就不多介绍了，感兴��的朋友参见《NVIDIA夺面双雄 GT200全球同步首测�?/a>一文�?/font>

　　而AMD-ATI则��l�选择Havok FX引擎�Q�不�q�RV770�p�d��实现物理加速的�Ҏ��也已�l�不同于之前的CrossFire双卡解决�Ҏ��Q�之前Radeon X1000�p�d��是通过据�ƈ行计��架构提取直接与Havok FX引擎相连接（其实也可以通过Direct3D和OpenGL API�Q�，然而由于对抗CUDA的原因，AMD-ATI也需要自��q��GPGPU规范�Q�而AMD-ATI则选择了苹果公司力推的通用计算行业标准OpenCL�Q�它能与囑�Ş��g及多核CPU相协调以提高�pȝ��的整体性能�Q�而AMD-ATI的Havok物理加速技术就是基于CAL/Brook+的�?/font>

　　实质上讲无论是CTM接口�Q�还是现在的CAL/Beook+�Q�AMD-ATI执行物理加速的概念都没有变�Q�那��是GPGPU的�ƈ行能力进行物理运��，而NVIDIA斚w��可以真正�U�的上市GPGPU物理加速还是从CUDA开始的。另外我们也注意刎ͼ�之前无论NVIDIA�q�是AMD-ATI在展�C��q��理运��时都是��Z��双卡技术，而如今他们更愿意谈论单卡�?/font>

�W?��：明天—技术与现实之间的抉�?/strong>

　　那么物理加速技术的明天到底是Havok FX引擎�q�是PhysX引擎的天下？我们先来看一下双方的阵营�Q�PhysX引擎目前只有NVIDIA一家支持，有消息称AMD-ATI目前也正在与NVIDIA商榷授权的问题，那么有可能AMD-ATI最�l�也支持PhysX引擎�Q�Havok FX引擎目前已经得到AMD-ATI的支持，加上Havok的所有者Intel�Q�目前构成了Intel+AMD-ATI�Ҏ��NVIDIA的局面�?/font>

物理加速阵营对�?/strong>

支持引擎加速态度

Intel

Havok

CPU

AMD-ATI

Havok�Q�PhysX引擎正在商榷�Q?/font>

CPU+GPU

NVIDIA

PhysX引擎

GPU

　　三方对于物理加速是由GPU�q�是由CPU执行的态度开��已�l�阐明，实际上这场物理大战最�l�的抉择��是落在了到底是CPU加速还是GPU加速上�Q�我们先来看一下最��单的物理加速计��过�E��?font color=white size=-1>��熊在线www.beareyes.com.cn

　　无论PhysX引擎�q�是Havok引擎物理计算都基于以下步骤：

　　Integrate整合初步计算
Collide��撞判定
Solve Collisions��撞�l�果计算

　　在Integrate整合初步计算阶段�Q�进行物理对象的一些初始物理状态的初始化，包括速度、加速度�{�各��信息，为后面的�q�算做准备。Collide ��撞判定�q�行一些对象之间的��撞��，�q�以对的形式�q�行处理�Q�因为碰撞��L��两个物体�怺�的）�Q�Solve Collisions��撞�l�果计算阶段则是对碰撞的后处理，包括��撞后的速度�{�。Solve Collisions��撞�l�果计算阶段是最复杂的，那么我们可以看出物理计算是一个对�q�行计算非常依赖的运��?font color=white size=-1>��熊在线www.beareyes.com.cn

Solve Collisions

　　我们看到�Q�物理运��所需的大量�ƈ行计��正是GPU所具备的优势，利用GPU做物理运��确实是天经��C��的事�Q�那么是不是说物理计��目前就是该由GPU来负责呢�Q�在回答�q�个问题之前我们先来看一下NVIDIA在近期发布的PhysX驱动�Q�搭配PhysX驱动在运�?DMark Vantage CUP��试�W�二个场景的时候，�׃��GPU接替�Q�或者说是加速）物理�q�算�Q��ɘq�个场景成�W暴增�Q�可以看出GPU取代CPU物理加速时的决定性优势，而在NVIDIA最新发布虚�q?物理地图演示中，我们却可以看到如下的成�W�Q?/p>

1680×1050

2560×1600

　　GPU�q�行物理加速在�q�行很少使用到图形渲染的3DMark Vantage CPU��试�W�二个场景，以及较低分��L率下�q�行游戏�Ӟ��GPU物理加速确实效果��o人满意，但是随着分��L率的增加�Q�GPU物理加速在游戏中的表现��׃��在我们想象的那样完美�Q�对比CPU加速，有些场景甚至�q�有成�W的下降！

　　�q�是游戏中GPU与CPU的关�p�d��定的�Q�在游戏中，昑֍�大多数时候都是在满负药��行，�q�时�Ҏ��无暇分��n做物理运��！那么�q�时CPU在做什么？游戏是非抢占型程序，也就是说如果一般游戏不会全部榨�q�CPU性能�Q�所以我们在�q�行游戏时经常看到CPU的占用率�q��100%�Q�如果是4核CPU而游戏又不支持多核的话，那么�q�时CPU的性能��在��费�Q?/p>
　　实际的情况已�l�很明了�Q�GPU��实非常做物理运��，但是实际情况却是GPU心有余而力不��Q�利用目前闲�|�的CPU来做物理加速似乎是最好的选择�Q�而如果我们有两块昑֍�的话也许��p��决了GPU自顾不暇的问题，�q�是不是让你惛_��了当初NVIDIA及AMD-ATI都不�U�而同选择Havok FX物理加速的原因——一块显卡做囑�Ş渲染�Q�一块显卡做物理加速！

　　今后物理的发展最�l�走向何方？也许会是GPU强大到做物理加速如现在的视频解码，也许是今后游戏��l�榨�q�显卡的性能�Q�由多核CPU闲暇来做物理计算�Q�也许是Fusion的CPU+GPU协同操作�Q��M��Q�一切皆有可能，我们拭目以待……

CrazyDev 2010-05-04 22:53 发表评论

CrazyDev — Tue, 27 Apr 2010 12:45:00 GMT

我看了不��插值的�Ҏ��Q�有的方法讲得莫名其妙，一个程序，一些系敎ͼ��Z��么这个系数是1�Q�而不�?.5从来不讲�Q�让人很怀疑其可用性�?/p>
后来做刀光的时候，采集的刀光的点不够圆滑，需要用到插值——想惌��q��高数�q�没有完全忘光，�q�脆自己推导一个得了�?/p>
首先我们要明白什么叫做光滑的曲线�Q�可以这么认为，�q�个曲线是一个运动物体，在时间[0�Q?]内运动的轨迹。而要求的光滑的曲�U�，��是要求物体�q�动 �q�程中没有速度的突变。且要求不同的曲�U�段之间�Q�速度也不能有�H�变。据此，我们可以大约知道插��g��D�|��U�，需要指导曲�U�其实点的位�|�和速度�Q�结束点的位�|?和速度。由于有四个已知变量�Q�显�Ӟ��用一个四�ơ方�E�来描述�q�个曲线是再合适不�q�了�?/p>
方程如下�Q?/p>
f(t) = a * t ^ 3 + b * t ^ 2 + c * t + d              [0 <= t <= 1]

对f(t)求导�Q�得到速度方程�Q?/p>
f'(t) = 3 * a * t ^ 2 + 2 * b * t + c              [0 <= t <= 1]

所�?br>f(0) = d = x0(起始点位�|?
f(1) = a + b + c + d = x1(�l�束点位�|?
f'(0) = c = y0(起始炚w��度)
f'(1) = 3 * a + 2 * b + c = y1(�l�束炚w��度)

联合上面四个式子可解�?/p>
a = 2 * x0 - 2 * x1 + y0 + y1
b = 3 * x1 - 3 * x0 - y1 - 2 * y0
c = y0
d = x0

再利�?/p>
f(t) = a * t ^ 3 + b * t ^ 2 + c * t + d              [0 <= t <= 1]

��可以插��D��断曲�U�了

当然�Q�事情还没有完，通常情况下，我们得到的数据只有各个采��L��的位�|�，没有速度。这个时候，速度怎么办？我的解决办法是，在有3个采��L��的时�?p0,p1,p2)�Q�计��出p1采样点的速度�Q�另外，再假��N��h��间间隔是均匀的，因此�Q?/font>

v1 = (p2 - p0) * 0.5

在有N个采��L��时候，�Ҏ��处理起始点和�l�束点的速度

v0 = p1 - p0;

vn = pn - p(n-1)

�q�样得到的曲�U�完全满��_�^滑的要求�Q�缺�Ҏ��Q�曲�U�开始插值的时候要延迟一个采��L��的时��_��有的时候，v0 速度很快�Q�因此，会出��C��条有�~�隙刀光。针对当前项目，我在�W�一�ơ采��L��时候，��时间稍微往后加�?.001�U�，按照当前的运动趋势多采样了一�ơ，从而消除了�q�个�~�隙。因为预��的�q�动旉��很短�Q�即佉K��错误，也不影响刀光的外观�?/font>

CrazyDev 2010-04-27 20:45 发表评论

Alpha混合物体的深度排序[译]

CrazyDev — Tue, 27 Apr 2010 12:43:00 GMT

先说个题外话, 本来我想解答一下最�q�Creators Club论坛上经常出现的一个问�? 意外的是在网上竟然找不到什么全面的�{�案..

�q�是个有着复杂�{�案的简单问�?

“��Z��么我的透明物体的绘刉��序不�? 或者有些不见了?”

当绘制一�?D场景�? 对图形进行深度排序是非常重要�? �q�样��镜头近才画在远处物体的前面. 我们不会希望看到�q�处的山把近在眼前的建筑�l�挡住了!

如今有三�U�深度排序方法得��C��q�泛的应�?

深度�~�冲 (也叫�?z-buffering)
油画家算�?
背面剔除

不幸的是, 每种都有其局限�? ��Z��辑ֈ�好的�l�果, 大多数游戏是把三�U�方法结合�v来��用的.

深度�~�冲

深度�~�冲��单而有�? �l�果也很完美. 但是对于透明的物体它��无能�ؓ力了!

�q�是因�ؓ深度�~�冲只记录了当前已经�l�制的最�q�像�? 对于不透明的物�? �q�已�l�能够满��x��们的需要了. 看一下这个绘制两个三角�Ş的例�? A和B:
screen.width-333) {this.width=screen.width-333;this.title='open new window';}">

如果我们先画B再画A, 深度�~�冲会看到新的像�?A�?比之前的(B�?要近, 那么它就��d��了前�? 如果我们用相反的��序�?先A后B), 深度�~�冲会看到B的像素比之前A已经�ȝ��要远, 所以就把它们给丢弃掉了. 无论哪种情况我们都会得到正确的结�? A在前�? B隐藏在后�?

但是当这些几何图形是透明�? 即B透过A是部分可见的时会怎样�? 如果我们先画B再画A的话是没有问题的, 但反�q�来��׃��行了. 在这�U�情况下, 深度�~�冲会从B取一个像�? 同时注意到已�l�绘制了一个更�q�的像素(A�?, 然后它就没辙�? 唯一的选择是绘制B(�q�会得到一个错误的�l�果, B会画在A前面, 但A的alpha 混合却没有�v作用), 或者完全抛弃B. 不爽!

�l�论

深度�~�冲对于不透明的物体是很完��的, 但对于透明的物体却不实�?

油画家算�?/h2>
深度�~�冲没法应付以错误的��序来绘刉��明物体的情�? �q�很好解�? 对吧? 保证它们按正��的��序�l�制��可以了! 如果对场景中的所有物体进行排�? 那我们就可以先画�q�处�? 再画�q�处�? �q�样��可以确保前面例子中的B可以在A之前�l�制.

不幸的是, �q�说��h��Ҏ��做�v来难. 对物体进行排序在很多情况下�ƈ不适用, 如A和B�怺�的情况该怎么�?
screen.width-333) {this.width=screen.width-333;this.title='open new window';}">

如果A是个�ȝ��杯而B是它里面的一个玻璃球时就是这�? 现在我们��没法对它们�q�行排序�? 因�ؓA的一部分比B�q? 而另一部分又比B�q?

甚至我们不需要两个不同的物体来复现这个问�? �l�成�ȝ��杯的那些三角形会怎样? 要让它们昄��正确, 需要在前面的绘制之前先�l�制后面�? 所�? 只对物体�q�行排序是不够的: 我们要对每一个三角�Ş�q�行排序.

问题�? �Ҏ��个三角�Ş�q�行排序的代价太�? ��q��我们能够承受, �q�也不是在所有的场合下都能得到正��的�l�果�? 比如说两个透明的三角�Ş�怺�时会怎样�?
screen.width-333) {this.width=screen.width-333;this.title='open new window';}">

没有�Ҏ��对这��L��三角形进行排�? 因�ؓ我们需要把B的上半部分画在A的前�? A的下半部分画在B的前�? 唯一的解��x��案就是把三角形从�怺�处分割开�? 但是�q�样的消耗是不可承受�?

�l�论

油画家算法需要你在选择排序的粒度好好权衡一�? 如果你仅仅对一些大的的物体�q�行排序, 速度很快但不是很�_��; 如果你对一些小物体�q�行排序(包括三角形个体的极限情况), 速度会慢一�? 但更加精��?

背面剔除

一般不把背面剔除当成是一�U�排序技�? 但它��实是一�U�重要的�Ҏ��. 它的局限性就是只适用于凸面体.

考虑一下一个简单的凔R��? 如一个球体或立方�? 无论你从哪个角度�? 每个屏幕上的像素都会被覆盖两�? 一�ơ是物体的前�? 一�ơ是后面. 如果你用背面剔除丢弃了背面的三角�? 那就只剩前面�? 哈哈, 如果每个屏幕上的像素只进行一�ơ判�? 那你��p��动得��C��一个完��的混合�l�果, 没有必要排序��M��东西.

当然, 大多数的游戏不会只画球体或立方体J 所以只是背面剔除的话不是一个妥善的解决�Ҏ��.

�l�论

背面剔除对于凔R��体是完美�? 但是对于其它的就无能为力�?

我该怎样让我的游戏看��h��更好一�?

最常用的方�?

讄��DepthBufferEnable 和DepthBufferWriteEnable 为true
�l�制所有的不透明物体
保持DepthBufferEnable 为true, 但是讄��DepthBufferWriteEnable为false
对alpha混合的物体按照与摄像机的距离�q�行排序, 然后从后到前��d��?

�q�依赖于三种排序技术的�l�合

不透明的物体按深度�~�冲排序

透明物体和不透明物体仍然会被深度�~�冲处理(所以你永远不会通过一个不透明物体看到一个透明�?
油画家算法对透明的物体排�?两个透明物体�怺�时仍然会有排序错�?
依赖背面剔除来对单个透明物体上的三角形排�?如果物体不是凔R��体也会��生错�?
�l�果�q�不是非常完��? 但是非常高效, 易于实现, 对于大多数游戏来说也够用�?

当然�q�可以采取一些措施来改进排序的精��度:

避免alpha混合! 你的不透明物体��多, 排序��p��Ҏ��, 也越�_��. 仔细思考一�? 真得每个地方都需要alpha混合�? 如果兛_��设计师要在玻璃窗上再加一�? 那你应该考虑把设计改成更易于实现的方�? 如果你正使用alpha混合来绘制树木之�cȝ��囑�Ş, 那考虑用alpha��试来代替它, 只分完全透明和完全不透明�q�两�U�情�? �q�样不透明的地方仍然可以通过深度�~�冲来排�?

放松, 不用担心. 可能排序错误�q�不是很严重�? 你可以试着调整一下你的图�?让alpha通道更加柔和, 更加透明一�? 来让�q�个错误看�v来没有那么显�? �q�个�Ҏ��用在了我们的 Particle 3D sample�? 它�ƈ不会对单独一个烟雾中的粒子进行排�? 而是选择了一个合适的�_�子�U�理让它看�v来是好的. 如果你把烟雾的纹理换成更加不透明�? 那排序错误可能就比较�Ҏ��觉察�?

如果你有透明物体不是凔R��? 或许你可以尝试让它们更加”�?#8221;一�? ��q��它们不是完全地凸面体, 那它们越”�?#8221;, 排序错误��p��? �q�有��是考虑把复杂的模型分成多块, �q�样它们��可以分开�q�行排序. 一个�h体看��h��一点也不像凔R��? 但你把它分成�? 背��, 驱干�{�几部分�? 每一块都接近凔R��体了.

如果你有部分区域透明的纹�?如树�?, �q�且图案边缘包含了一些半透明的像素用于反走样, 那你可以使用双pass渲染技�?

Pass 1: �l�制不透明部分: alpha混合关闭, alpha��试只接�?00%不透明的区�? 深度�~�冲开�?
Pass 2: �l�制边缘: alpha混合开�? alpha��试讄��只接受alpha<1�? 深度�~�冲开�? 深度写入关闭
�?每个物体渲染两次的代�? 为纹理中间完全不透明的部分提供了100%正确的深度缓冲排�? 和相对精��的半透明边缘排序. �q�个�Ҏ��为纹理裁剪的边缘�q�行了一些反走样, 同时也保证了不用�Ҏ��一��|��或者草叶进行额外的排序. 在我们的 Billboard sample 中��用了�q�个技�? 请阅��M��下Billboard.fx中的pass和注�?

使用 z prepass. 当你需要��E��Z��个原来不透明的物体又不想透过它看到的是它自己的另一部分�? �q�是一个好�Ҏ��. 例如从右边看一个�h�cȝ��w�体. 如果它是�ȝ��做的, 你应该会希望透过��x��臂看到躯�q�和左手�? 但如果它是实心的(不透明)你会希望透过��x��臂看到后面的背景, 而不应该是躯�q�和左手�? 要达到这个目标需要这样做:

讄�� ColorWriteChannels=None, 开启深度缓�?
�l�制物体到深度缓�?不媄响颜色缓�?
讄��ColorWriteChannels=All, DepthBufferFunction=Equal, 开启alpha混合
再次�l�制�q�个物体, �q�样��只有最�q�的�q�一面与颜色�~�冲�q�行混合�?
Published Wednesday, February 18, 2009 1:47 PM by ShawnHargreaves

CrazyDev 2010-04-27 20:43 发表评论

物理加速阵营对�?/strong>
	支持引擎	加速态度
Intel	Havok	CPU
AMD-ATI	Havok�Q�PhysX引擎正在商榷�Q?/font>	CPU+GPU
NVIDIA	PhysX引擎	GPU

亚洲成色精品,亚洲午夜一区二区,欧美另类亚洲

���析DirectX11技术带�l�图形业界的改变(一)

Havok VS PhysX 漫谈物理加速世界！

Alpha混合物体的深度排序[译]

“��Z��么我的透明物体的绘刉���序不�? 或者有些不见了?”

深度�~�冲

�l�论

�l�论

背面剔除

�l�论

我该怎样让我的游戏看��h��更好一�?

不透明的物体按深度�~�冲排序

��析DirectX11技术带�l�图形业界的改变(一)

“��Z��么我的透明物体的绘刉��序不�? 或者有些不见了?”