镜面反射矩阵推导

Render Donkey — Fri, 14 Jun 2013 16:48:00 GMT

最�q�公司游戏正在准备上�U�，所以FlasCC也就没有研究了，偶尔有闲功夫�Q�也是玩�?DMAX和UNITY3D�?感觉不会3DMAX�Q�是一�U�局限�?/p>

回到主题�Q�记录一下镜面反��矩�늚�推导�?/p>

在用Irrlicht和RTT做镜面效果的时候，用到了反��矩��c�?��是需要把摄相机镜像，渲染一个RT�Q�脓(chu��ng)到镜面模型上。这个其实还�U�结了许久，因�ؓ之前做水面渲染的时候，水面是��^的，很好计算摄相机在水面以下的位�|��?但是换成镜面�Q�就不一样了�Q�因为镜面可能是��L��面�?于是��需要一个通用的反��矩��c�?/p>

反射矩阵的计��是��Z��q�面的，因�ؓ�Q��Q何反��，都需要一个反��面�?/p>

所以，我们先给出��^面表�C?Plane(nx,ny,nz,d); 其中(nx,ny,nz)已经单位化�?/p>

然后�Q�我们假讄��间中有�Q意一点P(x,y,z,1)

设这个点P以Plane为反��面的镜像点为P1(x1,y1,z1,w)�?/p>

�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q�－�Q?/p>

�Ҏ(gu��)��定理�Q�我们知道，若两个点以某一点�ؓ镜像�Q�则两个点的坐标之和除以2�Q�就刚好是中炏V�?

�q�个理论我们用到�q�里的话�Q?那这个中点就刚好是��^面上的一个点�?�q�面上的�q�个点就�?P(x,y,z,1) - (nx,ny,nz,0)*D . 其中D��是点P到��^面的距离

而D=Plane dot P = (x*nx+y*ny+z*nz+d);

�׃��面的描述�Q�我们马上想刎ͼ�那么要求点P1的话�Q�就是这�?nbsp;

(P+P1)/2 = P(x,y,z,1) - (nx,ny,nz,0)*D

=> P1 = P(x,y,z,1) - 2(nx,ny,nz,0)*D

=>P1 = P(x,y,z,1) - 2(nx,ny,nz,0)*(x*nx+y*ny+z*nz+d)

换成矩阵形式则�ؓ

�?-2*nx*nx -2*nx*ny -2*nx*nz 0 |

| -2*ny*nx 1 - 2*ny*ny -2*ny*nz 0 |

P1 = {x,y,z,1} x | -2*nz*nx -2*nz*ny 1-2*nz*nz 0 |

| -2*d*nx -2*d*ny -2*d*nz 1 |

大功告成

btw:�q�是行主矩阵表示�?/p>

Render Donkey 2013-06-15 00:48 发表评论

Deferred Shading

Render Donkey — Sun, 13 Mar 2011 03:56:00 GMT

一直在��x��q�个东西�Q�最�q�忙里偷�Ԍ��深入��C��解了一下�?首先�Q�我们说说�g�q�渲染的好处。毕竟一个东西的产生�Q�是��Z��解决当前已有的东西不能解决的问题�?/p>

Deferred Shading Tutorial下蝲

上面的文章很好地讨论了采用传�l�着色方案所需要面对的问题。主要是下面两种情况�?/p>

而对于�g�q�着色的�W�一个好处，��是可以��光照处理对物体渲染的开销�?M*N 变�ؓ M+N �Q�其中M为物体数目，N为光源数目）

延迟着色的一般框架图如下�Q?/p>

延迟着色的好处

而�g�q�着色面临的最大问题就是透明处理

另外�Q��g�q�着色主要得益于MRT�Q�Multi Render Target).因�ؓ�Q�MRT的限制即是�g�q�着色本�w�的限制�Q�DX SDK DOC中有提到�?/p>

MSDN�Q?a title="http://msdn.microsoft.com/en-us/library/bb147221(v=vs.85).aspx" >http://msdn.microsoft.com/en-us/library/bb147221(v=vs.85).aspx

RenderMonkey中也有�g�q�着色例子。　我也用RenderMonkey重写了一个自��q��例子�?/p>

OK, 完事儿！�Q�！�Q?/p>

Render Donkey 2011-03-13 11:56 发表评论

2D Skinned Mesh�Q?D的完全翻�?带旋转）

Render Donkey — Thu, 13 Jan 2011 16:24:00 GMT

摘要: �׃��面几个文章引发的�Ʋ望�Q�让我自�׃��试着实现了一个基�?D的骨骼动甅R�?

一��讲�q�骨骼动��L��学运��的文章

http://www.cnblogs.com/neoragex2002/archive/2007/09/13/891945.html

两篇讲述骨骼动画原理和实现的文章　一��也是用�?D�Q�老外的那��用的是DX　

http://www.shnenglu.com/Leaf/archive/2010/12/31/137818.html

�I�明��{用C#写的一个，当然也可以下载源码。只是在他的BLOG中，他未解释��M��东西。�ƈ且我也未曾下载�Q何源码，不知是否源码中有文档

http://www.shnenglu.com/lingjingqiu/archive/2008/06/07/52463.aspx

很不爽的是，许多例子或原理讲的时候没有带旋�{。　其实那才是重头戏。　�I�明��{的貌似有旋�{�Q�可阅读全文

Render Donkey 2011-01-14 00:24 发表评论

Reflect & Refract (以水渲染��Z��)

Render Donkey — Sat, 08 Jan 2011 14:35:00 GMT

摘要:

我不是Shader帝，虽然知道Shader怎么写，但一直没仔细研究�q�。最�q�蛋��D��极，研究了下RenderMonkey�Q�于是抽着几个看着比较有趣的效果做了一下�?

先前的模型脓(chu��ng)花http://www.shnenglu.com/Leaf/archive/2011/01/07/138093.html

和CUBE MAP http://www.shnenglu.com/Leaf/archive/2011/01/07/138106.html

��是此次蛋疼期的产物之一�?

�q�是先围观，上图再说
阅读全文

Render Donkey 2011-01-08 22:35 发表评论

CubeMap视线反射方向计算详解

Render Donkey — Fri, 07 Jan 2011 05:32:00 GMT

摘要: 其基本原理很多例子上有讲到。下面给��Z��些比较合适的链接

http://developer.nvidia.com/object/cube_map_ogl_tutorial.html NVIDIA官网上的 Opengl Cube texture mapping
http://www.zwqxin.com/archives/shaderglsl/review-cube-mapping-shader.html 某位兄弟的个人BLOG�?
以上两位都适合OPENGL控�?
本文�l�出一个DX HLSL例子。�ƈ解释了反��方向计��的数学模型。希望能�l�大家一定的帮助�?

CUBE映射主要分�ؓ两步�Q?
一、在VS中根据法�U�和观察位置计算反射方向�Q��ƈ且得到观察空间中的反��方向�?
反射方向有两�U�计��方法�?
1、在世界坐标�pȝ��间中计算�Q�然后再��计��到的反��方向�{换到观察�I�间�?�q�要求我们�{入观察位�|��?
2、在观察�I�间中进行计��，此时观察位置已经�?,0,0,于是不需要传入观察位�|�，�q�且得到的向量即为所求。本文的代码采用�?nbsp; 阅读全文

Render Donkey 2011-01-07 13:32 发表评论

使用投媄�U�理�q�行模型贴花(Mesh Decals)

Render Donkey — Thu, 06 Jan 2011 16:37:00 GMT

摘要: 一、投��q��理进行模型脓(chu��ng)花时�Q�主要是�q�行三角面剔除，使在渲染贴花�Ӟ��提交最��的三角面�?

二、在贴花PASS中，需要将全局混合开启，�q�设�|�相应的SRCBLEND(SRC_ALPHA)和DESTBLEND(DEST_ALPHA)倹{��括号内为我用的倹{�?

当然�Q�如果你不想让脓(chu��ng)�׃��场景�Q�模型）混合�Q�则可以不开启。　

三、请注意�U�理的寻址方式以及�U�理边缘的ALPHA情况。　若纹理边�~�ALPHA不�ؓ0�Q�则可以手工�q�行裁剪�?

四、本文仅是采用了固定的投影方向和SHADER内部定义变量的方式来�q�行贴花渲染。　�q�且�Q��ƈ未进行模型三角面剔除。所以若要��用，则需要注意第一个问题�?

五、本文灵感来源于此脓(chu��ng)�Q�http://forums.create.msdn.com/forums/p/34339/198791.aspx

六、支持邮件交��?BoYueGame#Gmail#com
阅读全文

Render Donkey 2011-01-07 00:37 发表评论

Render Donkey — Fri, 31 Dec 2010 15:04:00 GMT

个�h觉得�Q�对于一个东西，理解其根本才是王道�?/p>

��拿骨骼动画来说吧，DX的例子虽然可以让人清楚地知道骨骼动画是怎么动作的，�q�且知道了有.X�q�种骨骼动画文�g。　但着手时�Q�依然会被DX那神奇的各种框架弄得晕头转向。　�q�且M$向来是想人变�?13�Q�而非学者。　

在网上一搜Skinned Mesh, 会出来一大堆围绕着DX例子的解释，��译�Q�或者什么什么的。　而下面这些文章，则充分讲�q�C��其基本原理。　你可以离开DX�Q�离开OPENGL而全��惯注地集中思考骨骼动��d��底是什么。　

Skinned Mesh原理解析和一个最��单的实现�C�Z��　http://blog.csdn.net/n5/archive/2008/10/19/3105872.aspx

�q�是一��中文，虽然是前两年发表的了�Q�但依然适用。文中作者以�?代码的方式��@序渐�q�，�q�在最后详解了其DEMO的实��C��码。　可以说是真枪实弹的演习，而非�I��?/p>

Skined Mesh With DX9.pdf www.google.com www.baidu.com
也可以点�?a style="COLOR: red" >�q�里下蝲

�q�是一��老外的，也是�׃��一��文章中提到的。　搜烦引擎上随便一搜就能下到。　挺厚的，��36��늚�PDF。　够你消耗一�D�|��间的光阴了�?/p>

Render Donkey 2010-12-31 23:04 发表评论

HLSL中的MUL指��o深层剖析

Render Donkey — Mon, 27 Dec 2010 16:05:00 GMT

摘要: 本文主要内容有：

一、部分背景内�?

二、HLSL中的row-major matrix picking and column-major matrix picking

三、MUL规则

四、观察矩�늚�另类解释和TBN�I�间的类�?

五、HLSL中矩�늚�构造（��Z��么WorldToTargentSpaceMatrix要左乘LightDir�Q?

阅读全文

Render Donkey 2010-12-28 00:05 发表评论

�E�序中的四元数表�C�法

Render Donkey — Mon, 20 Dec 2010 15:22:00 GMT

摘要: �|�上有很多四元数相关的文章�?

癑ֺ�癄�� http://baike.baidu.com/view/319754.htm

某位的博�?http://caterpillar.onlyfun.net/Gossip/ComputerGraphics/QuaternionsRotate.htm

但当你看完这些后。再看着下面�q�样的代码，你能快速回�q�神来么�Q?

阅读全文

Render Donkey 2010-12-20 23:22 发表评论

Computing Tangent Space Basis Vectors for an Arbitrary Mesh

Render Donkey — Mon, 20 Dec 2010 15:17:00 GMT

摘要: 原文地址�Q�http://www.terathon.com/code/tangent.html

��Z��个�Q意网格模型计��其切线�I�间的基本向量（卛_��U�空间的T B N三个向量�Q?

Modern bump mapping (also known as normal mapping) requires that tangent plane basis vectors be calculated for each vertex in a mesh. This article presents the theory behind the computation of per-vertex tangent spaces for an arbitrary triangle mesh and provides source code that implements the proper mathematics.

现在的bump mapping(或者normal mapping)需要每个顶点的切面的基本向量。这��文章描�q�C��逐顶点计��Q意三角模型的切线�I�间�?nbsp; 阅读全文

Render Donkey 2010-12-20 23:17 发表评论

Render Donkey — Sat, 18 Dec 2010 14:15:00 GMT

摘要: 本文乃�{载，但原文地址不知。若作者有�q�看刎ͼ�请及时认领�?

�?D囑�Ş学中�Q�最常用的旋转表�C�方法便是四元数和欧拉角�Q�比��L��阉|��h��节省存储�I�间和方便插值的优点。本文主要归�U�了两种表达方式的�{换，计算公式采用3D�W�卡��坐标系�Q?

阅读全文

Render Donkey 2010-12-18 22:15 发表评论

Render Donkey — Wed, 26 May 2010 16:53:00 GMT

摘要: 首先我们先来看看HDR是什么意思�?
HDR �?high dynamic rang�Q�高动态范��_�� 的简�U��?
OK�Q�现在我们知道了什么叫高动态范围�?
�q�是�q�把隐，先看看截图。�?nbsp; 阅读全文

Render Donkey 2010-05-27 00:53 发表评论

Render Donkey — Tue, 18 May 2010 01:51:00 GMT

摘要: 我知道这很长,但是,我坚持看完了.希望有幸看到�q�文章�ƈ对图形方面有兴趣的朋�?也能坚持看完.一定大有收�?毕竟知道它们到底是怎么"�U�下勾搭"�?会有利于我们用程序来指挥它们....(�q�是我加上去�?

原文从这里开�?

要说到设计的复杂�E�度�Q�那�q�是CPU了！�q�个不用讨论�Q�很��单的道理你看看显卡芯片的更新速度和CPU的更新速度��可见一斑了。还是简单说说他们的设计原理吧�?
阅读全文

Render Donkey 2010-05-18 09:51 发表评论

[原]Irrlicht(鬼火引擎�Q�中多设备的支持

Render Donkey — Mon, 26 Apr 2010 01:10:00 GMT

摘要: 理清一个引擎，不得不先理清它的层次�l�构�Q�进而理清渲染流�E��?本文�l�出了鬼火引擎中的设备抽象层�Q�有助于寚w��火引擎源码的快速阅�?nbsp; 阅读全文

Render Donkey 2010-04-26 09:10 发表评论

关于�?D��线��D��》这本书

Render Donkey — Sun, 25 Apr 2010 16:03:00 GMT

摘要: 游戏开发中�Q�计��机囑�Ş学是必不可少的东�ѝ��许多�h也是从接触图形开始而进入游戏行业的�?D��线��D��q�本书诠释了3D��线的细节。�ؓ大家解开了萦�l�已久的�q�团�?nbsp; 阅读全文

Render Donkey 2010-04-26 00:03 发表评论

Render Donkey — Mon, 22 Mar 2010 16:03:00 GMT

�l�于扑ֈ�了两��让人易懂的文章�Q�这两篇�l�合着看，很容易看清计��过�E�，没有惌��中的那么复杂

�q�是一��老外的：http://www.terathon.com/code/tangent.html

�q�是另一个大哥的�Q?a >http://jingli83.blog.sohu.com/94746672.html

两篇�l�合看，�Ҏ(gu��)��其效�Q?br>
有了�q�两��的理解后，再去看其它的关于切线�I�间的文章，��׃��会再�怸�着东南西北了！

Render Donkey 2010-03-23 00:03 发表评论

SSAO

Render Donkey — Mon, 22 Mar 2010 02:19:00 GMT

SSAO全称“Screen-Space Ambient Occlusion” (屏幕�I�间环境光遮�?。其最先运用于 Crysis�Q�孤岛危机）游戏中，通过GPU�?shader实现

　　SSAO通过采样象素周围的信息，�q�进行简单的深度值对比来计算物体�w�上环境光照无法到达的范��_��从而可以近似地表现出物体��n上在环境光照下��生的轮廓阴媄。可以利�?#8220;逐象素场景深度计��?#8221;技术计��得出的深度值直接参与运��?

　　现在的效果确实错误还比较大，应该先进行简单的�I�间划分�Q�或�c�M��处理�Q�然后计��?

　　不过个�h认�ؓ�q�种�Ҏ(gu��)��只是�q�似地模拟，效果�q�不正确�Q�但��实能增强场景的层次感，让画面更�l�腻�Q�让场景�l�节更加明显�?

　　不同于显卡驱动中普通的AO选项�Q�burnout的SSAO是全动态的�Q�无需预处理，无loading旉��Q�无需消耗内存，不��用CPU�Q�全由GPU处理�Q�对GPU有较大的消�?

　　SSAO默认是关闭的�Q�可以在游戏视频选项中打开

　　评测

　　�?950GT下跑�Q�加了ssao后，下降�?5%。而且�Q�显卡性能��低�Q�下降的��厉実뀂效率消耗主要是在于要多渲染一遍场景到深度以及之后�q�行的ssao处理。这遍可以进行优化，如果物体的纹理不带alpha,则可以把他们都合在一�Ҏ(gu��)��几批渲染。至于深度图的尺�?�Q�我采用了与�H�口一��L��寸�Q�这��L��度高。也可以采用低分辨率�Q�但效果会有锯��Q�还需要进行模�p�处理才比较自然。当�Ӟ��如果本来��q��了�g�q�渲染技术，本来��有深度图了�Q�那��可以直接拿来用了�?

　　与PRT�Ҏ(gu��)��

　　PRT用于静态场景确实是个比较好的方案，毕竟可以预计��。但是对于动态的场景�Q�还需要动态更新。另外，PRT的质量依赖于�|�格的细分程度，要是模型太简�Q�则效果也糟�p��?

　　因此 �Q�PRT对于虚拟现实��目里的高楼大厦�{�场景（�q�些模型都是很精��的）来说�Q�就昑־�不合适了

　　目前已发行的游戏中，�q�用SSAO的游戏有

　　Crysis�Q�孤岛危机）

　　Burnout(TM) Paradise The Ultimate Box�Q�火爆狂�?天堂�Q?

　　帝国�Q�全面战�?

　　另外�Q�星际争�?的开发也�q�用��C��SSAO

什么是SSAO�Q?/h3>
　　从HL2开始，众多游戏公司开始对于如何表�?#8220;间接光照”�q�行研究�Q�这些昙�׃��现的技术有�Q?

　　�q�用于HL2的radiosity Normal Maps技术，效果比较垃圾

　　�q�用于Stalker的GI�Q�？�Q�技术，��法不好�Q�开销巨大�?

　　初期Crytek准备�q�用在Crysis上的Photon Mapping�Q�光子映��）技术，开销同样比较垃圾�Q�被抛弃�?

　　随后Crytek又准备运用在Crysis上的Real-Time Ambient Map�Q�实时环境光照脓(chu��ng)图，��U�RAM�Q�，�q�个是与之前Stalker使用的技术比较类似的�Q�也是最接近SSAO的一个技术�?

　　不过Crytek不愧�?#8220;间接光照”研究上的先锋�Q�其技术员对于RAM�q�行了改�q�，新的��法成�ؓ了如今的SSAO

　　SSAO开与关的区别所�?

　　SSAO�Q�Screen-Space Ambient Occlusion�Q�是一个纯�_�的渲染技术，或者说�Q�是一个算法。虽然从上文知道是�ؓ了实�?#8220;间接光照”的效果，不过从技术上�Ԍ��是一个对于AO�Q�Ambient Occlusion环境光吸�Ӟ��也就是NV 185.20驱动加入的那个，一个渲染技术，我们可以在Maya�{?D软�g中可以见刎ͼ�的一个��D��函数�Q��ƈ且以此�ؓ据进行实时渲染�?

　　SSAO比�v185.20驱动中AO的优点：

　　与场景复杂性无�?

　　无数据预处理�Q�无loading旉��Q�无�pȝ��内存分配

　　动态渲�?

　　每个像素工作方式始终一�?

　　无CPU占用�Q�完全通过GPU执行

　　与流行显卡的��线整合相当�Ҏ(gu��)��

　　�~�点也是有的�Q?

　　�׃��采样全部在可见点上进行的�Q�对于不可见点的遮挡影响会有错误的估��?

　　颗粒感比较重�Q�需要与动态模�p�紧密配合才能取得较好效果�?

SSAO屏幕�I�间环境光遮蔽的�q�作方式

　　其实了解了AO环境光遮蔽的原理�Q�SSAO�Q�屏�q�空间环境光遮蔽�Q�已�l�可以融会诏通，SSAO通过采样像素周围的信息，�q�进行简单的深度值对比来计算物体�w�上环境光照无法到达的范��_��从而可以近似地表现出物体��n上在环境光照下��生的轮廓阴媄�?

　　具体的运作方式上�Q�SSAO会利用GPU计算出指定像素的�I�间坐标�Q�然后以此坐标�ؓ基点�Q�在周围选择��C��采样点进行采��P��然后��采��L��的空间坐标投影回屏幕坐标�Q�对深度�~�冲�q�行采样�Q�最后得到采��L��的深度��|��再进行后�l�计��，最�l�得��C��个遮挡倹{�?

SSAO�?wbr>�?wbr>�?wbr>�?wbr>�?wbr>�?wbr>�?wbr>局�?wbr>�?wbr>�?wbr>�?wbr>

SSAO屏幕�I�间环境光遮蔽实��C��较好的全局光照效果

　　因�ؓ是基于指定空间的全局计算模式�Q�因此SSAO实现效果的优劣取决于��法�Q�包括空间的指定范围和采��L��的选取�{�等。需要指明的是，不同游戏�Q�引擎）在SSAO的细节算法方面可能不��相同，另外SSAO�q�会�l�合其它光照技术共同达成游戏画面的渲染�Q�所以SSAO在很多游戏中不会有专门的开关选项�Q�其最�l�的表现�l�果可能是与其它技术共同作用的�l�果�?/p>

Render Donkey 2010-03-22 10:19 发表评论

Render Donkey — Fri, 29 Jan 2010 06:40:00 GMT

转自�Q?a >http://www.abc188.com/info/html/wangzhanyunying/jianzhanjingyan/20080417/71683.html

　　文档��介：
　　提高3D囑փ��E�式的性能是个很大的课题。图像程式的优化大致能够分成两大��d��Q�一是要有好的场景管理程式，能快速剔除不可见多边形，�q�根据对象距相机�q�近选择合适的�l�节�Q�LOD�Q�；二是要有好的渲染�E�式�Q�能快速渲染送入渲染��线的可见多边�Ş�?
　　我们知道�Q��用OpenGL或Direct3D渲染囑փ��Ӟ��首先要配�|�渲染状态，渲染状态用于控制渲染器的渲染行为。应用程式能够通过改变渲染状态来控制OpenGL或Direct3D的渲染行为。比如配�|�Vertex/Fragment Program、绑定纹理、打开深度��试、配�|�雾效等�?
　　改变渲染状态对于显卡而言是比较耗时的操作，而假如能合理��理渲染状态，避免多余的状态�{换，��明显提升图像程式性能。这��文章将讨论渲染状态的��理�?

文档目录�Q?
　　基本思想
　　实际问题
　　渲染脚本

文档内容�Q?

基本思想
　　我们考虑一个典型的游戏场景�Q�包含�h、动物、植物、徏�{�、交通工兗��武器等。稍微分析一下就会发玎ͼ�实际上场景里很多对象的渲染状态是相同的，比如��M��的�h和动物的渲染状态一般都相同�Q��Q何的植物渲染状态也相同�Q�同样徏�{�、交通工兗��武器也是如此。我们能够把具备相同的渲染状态的对象归�ؓ一�l�，然后分组渲染�Q�对每组对象只需要在渲染前配�|�一�ơ渲染状态，�q�且�q�能够保存当前的渲染状态，配置渲染状态时只需改变和当前状态不相同的状态。这栯��够大大减��多余的状态�{换。下面的代码�D�|��C�Z��q�种�Ҏ(gu��)��Q?

// 渲染状态组链表�Q�由场景��理�E�式填充
RenderStateGroupList groupList;
// 当前渲染状�?
RenderState curState;

……

// 遍历链表中的每个�l?
RenderStateGroup *group = groupList.GetFirst();
while ( group != NULL )
{
// 配置该组的渲染状�?
RenderState *state = group->GetRenderState();
state->ApplyRenderState( curState );

// 该渲染状态组的对象链�?
RenderableObjectList *objList = group->GetRenderableObjectList();
// 遍历对象链表的每个对�?
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
// 渲染对象
obj->Render();

obj = objList->GetNext();
}

group = groupList.GetNext();
}

其中RenderState�cȝ��ApplyRenderState�Ҏ(gu��)��形如�Q?
void RenderState::ApplyRenderState( RenderState &curState )
{
// 深度��试
if ( depthTest != curState.depthTest )
{
SetDepthTest( depthTest );
curState.depthTest = depthTest;
}

// Alpha��试
if ( alphaTest != curState.alphaTest )
{
SetAlphaTest( alphaTest );
curState.alphaTest = alphaTest;
}

// 其他渲染状�?
……
}

　　�q�些分组的渲染状态一般被�U�CؓMaterial或Shader。这里Material不同于OpenGL和Direct3D里面用于光照的材质，Shader也不同于OpenGL里面的Vertex/Fragment Program和Direct3D里面的Vertex/Pixel Shader。而是指封装了的显卡渲染图像需要的状态（也包括了OpenGL和Direct3D原来的Material和Shader�Q��?

　　从字面上看，Material�Q�材质）更侧重于对象表面外观属性的描述�Q�而Shader�Q�这个词实在不好用中文表�C�）则有用程式控制对象表面外观的含义。由于显卡可�~�程��线的引入，渲染状态中包含了Vertex/Fragment Program�Q�这些小�E�式能够控制物体的渲染，所以我觉得��封装的渲染状态称为Shader更合适。这��文章也��称之�ؓShader�?

　　上面的代码段只是��单的演示了渲染状态管理的基本思�\�Q�实际上渲染状态的��理需要考虑很多问题�?
渲染状态管理的问题
　

　消耗时间问�?
　　改变渲染状态时�Q�不同的状态消耗的旉��q�不相同�Q�甚臛_��不同条�g下改变渲染状态消耗的旉��也不相同。比如绑定纹理是个很耗时的操作，而当�U�理已在昑֍�的纹理缓存中�Ӟ��速度��׃��很快。而且随着��g和��Y件的发展�Q�一些很耗时的渲染状态的消耗时间可能会有减��。因此�ƈ没有一个准��的消耗时间的数据�?

　　虽然消耗时间无法量化，情况不同消耗的旉��也不相同�Q�但一般来说下面这些状态�{换是比较消耗时间的�Q?

Vertex/Fragment Program模式和固定管�U�模式的转换�Q�FF�Q�Fixed Function Pipeline�Q?

Vertex/Fragment Program本��n�E�式的�{�?

改变Vertex/Fragment Program帔R��

�U�理转换

��点和烦引缓存（Vertex & Index Buffers�Q��{�?

　　有时需要根据消耗时间的多少来做折衷�Q�下面将会碰到这�U�情��c�?

　渲染状态分�c?
　　实际场景中，往往会出现这��L��情况�Q�一�c�d��象其他渲染状态都相同�Q�只是纹理和��点、烦引数据不同。比如场景中的�h�Q�只是��n材、长相、服装等不同�Q�也��是说只有纹理、顶炏V��烦引数据不同，而其他如Vertex/Fragment Program、深度测试等渲染状态都相同。相反，一般不会存在纹理和��点、烦引数据相同，而其他渲染状态不同的情况。我们能够把�U�理、顶炏V��烦引数据不归入到Shader中，�q�样场景中�Q何的人都能够用一个Shader来渲染，然后在这个Shader下对�U�理�q�行分组排序�Q�相同纹理的人放在一��h��染�?
　多道渲染�Q�Multipass Rendering�Q?
　　有些比较复杂的图像效果，在低档显卡上需要渲染多�ơ，每次渲染一�U�效果，然后用GL_BLEND合成为最�l�效果。这�U�方法叫多道渲染Multipass Rendering�Q�渲染一�ơ就是个pass。比如做逐像素凹凸光照，需要计��环境光、�O��光凹凸效果、高光凹凸效果，在NV20昑֍�上只需�?个pass�Q�而在NV10昑֍�上则需�?个pass。Shader应该支持多道渲染�Q�即一个Shader应该分别包含每个pass的渲染状态�?

不同的pass往往渲染状态和�U�理都不同，而顶炏V��烦引数据是相同的。这带来一个问题：是以对象为单位渲染，一�ơ渲染一个对象的��M��pass�Q�然后渲染下一个对象；�q�是以pass为单位渲染，�W�一�ơ渲染�Q何对象的�W�一个pass�Q�第二次渲染��M��对象的第二个pass。下面的�E�式�D�|��C�Z��q�两�U�方式：

以对象�ؓ单位渲染

// 渲染状态组链表�Q�由场景��理�E�式填充
ShaderGroupList groupList;

……

// 遍历链表中的每个�l?
ShaderGroup *group = groupList.GetFirst();
while ( group != NULL )
{
Shader *shader = group->GetShader();

RenderableObjectList *objList = group->GetRenderableObjectList();

// 遍历相同Shader的每个对�?
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
// 获取shader的pass�?
int iNumPasses = shader->GetPassNum();
for ( int i = 0; i < iNumPasses; i )
{
// 配置shader�W�i个pass的渲染状�?
shader->ApplyPass( i );
// 渲染对象
obj->Render();
}

obj = objList->GetNext();
}

group = groupList->GetNext();
}

以pass为单位渲�?

// 渲染状态组链表�Q�由场景��理�E�式填充
ShaderGroupList groupList;

……

for ( int i = 0; i < MAX_PASSES_NUM; i )
{
// 遍历链表中的每个�l?
ShaderGroup *group = groupList.GetFirst();
while ( group != NULL )
{
Shader *shader = group->GetShader();
int iNumPasses = shader->GetPassNum();
// 假如shader的pass数小于��@环次敎ͼ�跌��此shader
if( i >= iNumPasses )
{
group = groupList->GetNext();
continue;
}

// 配置shader�W�i个pass的渲染状�?
shader->ApplyPass( i );

RenderableObjectList *objList =
group->GetRenderableObjectList();

// 遍历相同Shader的每个对�?
RenderableObject *obj = objList->GetFirst();
while ( obj != NULL )
{
obj->Render();

obj = objList->GetNext();
}

group = groupList->GetNext();
}
}

　　�q�两�U�方式各有什么优�~�点呢？

　　以对象�ؓ单位渲染�Q�渲染一个对象的�W�一个pass后，马上紧接着渲染�q�个对象的第二个pass�Q�而每个pass的顶点和索引数据是相同的�Q�因此第一个pass��顶点和索引数据送入昑֍�后，昑֍�Cache中已有了�q�个对象��点和烦引数据，后箋pass不必重新��顶点和索引数据拷到昑֍��Q�因此速度会很快。而问题是每个pass的渲染状态都不同�Q�这使得实际上每�ơ渲染都要配�|�新的渲染状态，会��生大量的多余渲染状态�{换�?

　　以pass为单位渲染则正好相反�Q�以Shader分组�Q�相同Shader的对象一��h��染，能够只在�q�组开始时配置一�ơ渲染状态，相比以对象�ؓ单位�Q�大大减��了渲染状态�{换。可是每�ơ渲染的对象不同�Q�因此每�ơ都要将对象的顶点和索引数据拯��到显卡，会消耗不��时间�?
　　可见惛_��渲染状态�{换就要频�J�拷贝顶点烦引数据，而想减少拯��点索引数据又不得不增加渲染状态�{换。鱼和熊掌不可兼�?:-(
　　�׃��g条�g和场景数据的情况比较复杂�Q�具体哪�U�方法效率较高�ƈ没有定式�Q�两�U�方法都有�h使用�Q�具体选用那种�Ҏ(gu��)��需要在实际环境��试后才能知道�?

　多光源问�?
待箋……

　阴媄问题
待箋……

　

渲染脚本
　　现在很多囑փ��E�式都会自己定义一�U�脚本文档来描述Shader�?

　　比如较早的OGRE�Q�Object-oriented Graphics Rendering Engine�Q�面向对象图像渲染引擎）的Material脚本�Q�Quake3的Shader脚本�Q�连同刚问世不久的Direct3D的Effect File�Q�nVIDIA的CgFX脚本�Q�文档格式和Direct3D Effect File兼容�Q�，ATI RenderMonkey使用的xml格式的脚本。OGRE Material和Quake3 Shader�q�两�U�脚本比较有历史了，不支持可�~�程渲染��线。而后面三�U�比较新的脚本都支持可编�E�渲染管�Uѝ�?

脚本 �Ҏ(gu��)�?范例
OGRE Material ��装各种渲染状态，不支持可�~�程渲染��线 >>>>
Quake3 Shader ��装渲染状态，支持一些特效，不支持可�~�程渲染��线 >>>>
Direct3D Effect File ��装渲染状态，支持multipass�Q�支持可�~�程渲染��线 >>>>
nVIDIA CgFX脚本 ��装渲染状态，支持multipass�Q�支持可�~�程渲染��线 >>>>
ATI RenderMonkey脚本 ��装渲染状态，支持multipass�Q�支持可�~�程渲染��线 >>>>

　　使用脚本来控制渲染有很多好处�Q?

能够很方便的修改一个物体的外观而不需重新�~�写或编译程�?

能够用外围工具以所见即所得的方式来创建、修改脚本文档（�c�M��ATI RenderMonkey的工作方式）�Q�便于美工、关卡设计�h员设定对象外观，建立外围工具和图像引擎的联系

能够在渲染时��相同外观属性及渲染状态的对象�Q�也��是Shader相同的对象）归�ؓ一�l�，然后分组渲染�Q�对每组对象只需要在渲染前配�|�一�ơ渲染状态，大大减少了多余的状态�{�?

Render Donkey 2010-01-29 14:40 发表评论

Render Donkey — Fri, 29 Jan 2010 05:48:00 GMT

转自�Q?a >http://hi.baidu.com/freedomknightduzhi/blog/item/7e401a9b2521eeb3c9eaf4f1.html
在��用NVIDIA PerfHUD 5 Launcher的时候，明显发现现在的CPU旉��和GPU旉��不均衡，于是考虑优化�?br>下面是参考NVIDIA的OGP开始�ȝ��?br>优化代码通常是找出瓶颈，对瓶颈进行优化，�q�里暂不考虑CPU内部的优化方法，主要记录CPU->GPU�?D渲染��水�U�的瓉��查出�Ҏ(gu��)��以及优化手段�?br>若仅希望�q�行CPU斚w��的优化，可��用一些辅助工��P��如Inter的Intel(R) VTune(TM) Performance Analyzer�Q�Intel(R) Thread Profiler 3.1�Q�AMD的CodeAnalyst�{��?br>�q�行优化的步骤如上面所��_��1�Q�找出瓶颈，2�Q�对其优化�?br>最通用也最有效的找出瓶颈的�Ҏ(gu��)��当然是找到核心函敎ͼ�降低它的旉��周期和负��P��看是否对�E�序性能有大的媄响。优化的手段多是拆东补西而已�Q�即�Q�将影响性能的瓶颈中的�Q务分配给其他较空闲的部分�q�行处理�Q�来�q��整体所消耗的旉��?br>那么来看一下图形渲染流水线大致�q�程�?br>1�Q�系�l�CPU从内存中��d��几何��点 -> 输送到GPU昑֭� -> 输送到GPU高速顶点缓冲区 -> GPU��点着�?-> GPU建立三角�?-> GPU矩阵变换 -> GPU光栅�?-> 3
2�Q�系�l�CPU从内存中��d��U�理信息 -> 输送到GPU昑֭� -> 输送到GPU高速纹理缓冲区( DX10.0以后可与��点�~�冲共同�Q�不再强制区�?) -> 3
3�Q�片�D늝�色光栅化 -> 输出GPU后台�~�冲�q�行渲染�?br>那么�Q�很��单的有几大模块在其中可能存在着瓉��的限制�?/p>

1�Q�CPU本��n逻辑计算能力的限制�?br>
2�Q�CPU到GPU昑֭�AGP传输能力的限�?br>�Q?�Q�顶�?br>�Q?�Q�纹�?br>3�Q�GPU昑֭�到高速缓冲区的传输带宽限�?br>�Q?�Q�纹理传输带宽限�?nbsp; �Q�显�?>高速缓冲区�Q?br>�Q?�Q�光栅化完毕后的桢传输带宽限�?�Q�高速缓冲区->昑֭��Q?br>注：�q�里不考虑 ��点传输的带宽限�Ӟ��因�ؓ�q�个限制极小
4�Q�GPU高速缓冲区内部处理能力的限制�?br>�Q?�Q�顶点变换着色处理能力限制�?br>�Q?�Q�顶�Ҏ(gu��)��大数量支持限制�?br>�Q?�Q�三角型建立限制�?br>�Q?�Q�光栅化限制�?br>�Q?�Q�象素着色限制�?br>5�Q�内存过��限制�?br>6�Q�显卡显存过��，以及其他��gCaps限制�?/p>

上述��是常见3D囑�Ş渲染��水�U�中的瓶颈限�Ӟ��那么我们下一步去一一��定�Q�可能是哪方面的瓉��。简单的�Ҏ(gu��)��是检��FPS�?br>注意1�Q�许多瓶颈可能由于硬件更变而更变�?br>注意2�Q�Debug模式和Release模式的瓶颈表现未必相同�?br>注意3�Q�查看FPS时候一定关闭垂直同步�?br>1�Q�改变色深，16bit,32bit�Q�这个是直接影响桢渲染缓�?的大��的�Q�若修改了此��之后，FPS有较大变化，则是�׃��3.2 桢传输带宽限制�?br>注：�q�里需要改变所有渲染对象的色深�?br>2�Q�改变纹理大��尺寸，改变�U�理�q��o方式�Q�若修改了此��之后，FPS有较大变化，则是�׃��3.1 �U�理传输带宽的限�?�?2.2 �U�理AGP传输能力限制�?br>注：�U�理�q��o方式中，点过滤速度 > �U�性过滤速度 > 三角面过滤速度 > 各向异性过滤速度若改变纹理过滤方式就��FPS提高了，则是3.1 �U�理传输带宽的限制。这步是��纹理数据从昑֭��q�输到GPU高速纹理缓冲区的过�E��?br>3�Q�改变桌面分辨率�Q�若修改了此��之后，FPS有较大变化，则是�׃�� 4.4 光栅化限�?或是 4.5 象素着色Shader限制�?br>此时减少 PixelShader指��o数量�Q�若修改了此��之后，FPS有较大变化，则是�׃�� 4.5 象素着色Shader限制�Q�若没有较大变化�Q�则是由�?4.4 光栅化限制�?br>4�Q�减��?VertexShader 指��o数量�Q�若修改了此��之后，FPS有较大变化，则是�׃�� 4.1 ��点变换着色处理能力限制�?br>5�Q�减��顶�Ҏ(gu��)��量和AGP传输速率�Q�若修改了此��之后，FPS有较大变化，则是�׃�� 4.2 ��点最大数量支持限�?�?2.1 ��点AGP传输能力限制�?br>6�Q�若以上都不是，则是 1.0 CPU逻辑计算能力限制�?br>注：该项也可�Ҏ(gu��)��NVIDIA PerfHUD来检��CPU和GPU的空闲时间来判定�Q�若GPU�I�闲旉��q�多�Q�则说明是由于CPU计算能力或AGP传输能力��D��?br>该项也可用简单的更换CPU�Q�而不更换GPU的方式来��判定�?br>7�Q�看资源��理器，CPU占用率，内存占用率，可以知道是否是由�?.0 CPU本��n逻辑计算能力的限�?或是 5.0内存�q�小限制�?br>8�Q�看DX SDK自带的CapsViewer可以知道昑֍�的支持性，以获得更多更准确的判定�?br>9�Q�在BIOS中更变APGP�?X模式�Q�若修改了此��之后，FPS有较大变化，则是�׃��2.1 �?2.2 AGP传输能力限制�?br>10�Q�降低GPU配置�q�行��判定，此时要注意两��，一是降低GPU的运行频率，一是降低GPU昑֭�性能和大��，可以��定GPU斚w��的问题大致所在�?br>11�Q�删除一些游戏中涉及�?物理�Q�AI�Q�逻辑 �{�占用大量CPU效率的代码以获得更强的针�Ҏ(gu��)��?br>12�Q�对角色�Q�地形，静态模型，阴媄 �{�设�|�渲染开养I��以更明确的确定问题所在�?/p>

优化�Ҏ(gu��)��Q?br>一�Q�整体优化�?br>1�Q�减��小扚w��作业
�Q?�Q�让一个顶点缓冲中更多��点。（1024点以上较适合�Q?br>�Q?�Q�少Draw。（��量一�ơ性多渲染些三角�Ş�Q�减��渲染次敎ͼ�
�Q?�Q�尽量将多个��寸��的�U�理文�g合�ƈ��Z��个尺寸大的纹理文�Ӟ��减少零碎的小�U�理文�g数量�?br>�Q?�Q��用VertexShader��一些关�pȝ��密的几何体打包在一赗��（VS2.0��已�l�存�?56�?D向量常数�Q?br>2�Q�逻辑排序优化
�Q?�Q�尽量在逻辑层将��点�q�行一定的排序以减��在GPU高速缓冲区中的重新排布�?br>�Q?�Q�尽量将渲染对象在逻辑层按照深度由屏幕->内部排序�Q�减��不必要的深度拣选�?br>�Q?�Q�尽量��用烦引条带或索引列表
�Q?�Q�根据渲染状态和渲染对象对纹理进行基本排�?br>3�Q�减��不必要的渲染（CPU层的基本二分四叉八叉�q�里不再��Q?br>�Q?�Q�在多Pass渲染�Ӟ��在第一个渲染Pass上对每个渲染对象加以咨询�Q�当�W�一个Pass中该渲染对象渲染象素量达不到指定标准�Q�则后箋Pass不再对其�q�行渲染�?br>�Q?�Q�对一些重复渲染（如太阳眩光特效）需要进行计敎ͼ�辑ֈ�指定数量卛_��止渲染或�q�行分布式渲染�?br>�Q?�Q�对一些复杂的模型讄��基本的包围盒判定其渲染必要性�?br>4�Q�减��线�E�锁定导致的不必要等�?br>�Q?�Q�CPU Lock了一个资源，�{�待GPU�q�行渲染�Q�此时常见做法有�{�待GPU渲染�Q�中间期间CPU�l�常处于Idle�I�闲状态，��此时�l�CPU其他的事情做�Q�如��Z��一个资源做好基本准备或�q�行逻辑处理�?br>5�Q�减��或�q�_��分布CPU压力�Q�实际上�Q�大部分�E�序是CPU逻辑计算限制的）
�Q?�Q�CPU压力重点在以下方面可能存在： AI�Q�IO�Q�网�l�，复杂逻辑�Q�这些部分可�q�行CPU瓉��试以确定优化方向�?br>�Q?�Q�优化方针：宁可GPU忙碌也要CPU减压�?br>�Q?�Q��用文章开始时我提到的一些工具去查找CPU中不必要的汇�~�空循环以及不必要的CPU�I�闲�?br>二：局部优化�?br>6�Q�AGP传输瓉��
�Q?�Q�当�q�多数据通过AGP8X从CPU内存传递到GPU昑֭��Ӟ��我们可以选择以下方式优化�?br>   [1]减小��点个数
   [2]减少动态顶点个敎ͼ�使用VertexShader动画替代�?br>   [3]正确使用API�Q�设�|�正��参敎ͼ�避免动态顶点和�U�理�~�冲区的创徏��理�?br>   [4]�Ҏ(gu��)��g配置属性确定适合�?桢缓�Ԍ��U�理�~�冲�Q�静态顶点缓�?的大��?br>�Q?�Q�避免��用无序或不规则数据传输�?br>   [1]��点数量��寸应当�?2的整数倍。（可��用顶点压�~�，再在VertexShader中对��点数据�q�行解压�~�）
   [2]��保��点的有序性。（在CPU逻辑层对其进行排序后传输�Q�NVTriStrip�q�个工具可以帮我们生成优化的高效的有序的Mesh��点数据�Q?br>�Q?�Q�具体到API层面的几何Mesh传输
   [1]对于静态几何体�Q�创�?只写的顶点缓�Ԍ��且，仅写入一�ơ�?br>   [2]对于动态几何体�Q�在�E�序初始创徏一个动态顶点缓�Ԍ��之后每桢初始锁定DISCARD�Q�进行NOOVEWRITE而不要进行DISCARD�Q�DISCARD的耗时不是NOOVEWRITE可比的�?br>   [3]基本原则�Q�少创徏�~�冲区，多对其进行重复��用，减少锁定�ơ数�?br>7�Q�顶点变换传输处理瓶颈（�׃��GPU有强大的��点处理能力�Q�一般在��点变换斚w��不会有瓶颈出玎ͼ�但假若出��C��。。）
�Q?�Q�顶点太�?br>   [1]使用�l�节Lod�Q�一般�v�?-3�U�Lod��p��够了�?br>�Q?�Q�顶点处理过于复�?br>   [1]减少灯光数量�Q�降低灯光复杂度�Q�方向��^行光效率 > 点光源效�?> 聚光灯效�?�Q?br>   [2]减少��点着色器指��o数量�Q�避�?28条以上指令，避免大量的分支指�?br>   [3]寚w��点进行CPU层逻辑排序
   [4]能在CPU中进行计��的在CPU中进行计��，传递常量给GPU
   [5]减少和避免CG/HLSL之中�?mov 指��o。即使��用了�Q�也要重�Ҏ(gu��)��意�?br>8�Q�大部分情况�?4.3 三角形徏立限�?以及 4.4 光栅化限�?是不会成为瓶颈的�Q�但�Q�当三角形数量过多或者光栅化时每个三角�Ş��点数据�q�于复杂时可能会出现�q�种瓉��Q�此时减��三角�Ş��L��Q��用VS或减��Z-cull三角都是有效的方法�?br>9�Q�象素着色器的瓶颈（在DX7之前�Q�全是固定渲染管道，一般来说传输量和着色器之间的计��是均衡的，但是DX8开始可�~�程��水��道开始，PixelShader的计��量开始增�q�，数据传输量通常相对来说比较?y��u)��了。）
�Q?�Q�需处理的纹理片�D�过多过�?br>   [1]在CPU层按�?屏幕->向内 Z-Buffer的顺序排序传入，�q�按照这个顺序进行渲染�?br>   [2]多Pass渲染�Ӟ��考虑在第一个渲染Pass中关闭特效�ƈ让第一个Pass负责Z-buffer的处理。这��L��话，后箋Pass中可以避免渲染不要的�U�理片段�?br>�Q?�Q�每个纹理片�D늚�处理�q�于复杂
   [1]大段的长着色器指��o��会很大降低效率�Q�尝试减��着色器指��o长度
   [2]使用向量操作�Q��ƈ行co-issuing来减��指令数量�?br>   [3]混合使用配对的简单的texture和combiner�l�合指��o�?br>   [4]使用Alpha混合器提高性能�?br>   [5]考虑寚w��׃��q�行Lod计算�?br>   [6]在DX10开始，考虑��顶点缓冲移做象素缓冲进行��用�?br>�Q?�Q�额外的优化�Ҏ(gu��)��
   [1]使用fx_12�_�ֺ�
   [2]使用fp16指��o
   [3]使用Pixel_Shader2.0的时候开启ps_2_a描述开�?br>   [4]减少寄存器的临时存取
   [5]减少不必要的�_�ֺ�要求
   [6]��量使用低版本的Shader�Q�但避免使用VS1.0�Q�已�l�被VS3.0抛弃了）
10�Q�纹理脓(chu��ng)囑֯�致的瓉��
�Q?�Q�优化方法�?br>   [1]�U�理�q��o旉��免��?三角面性过�?�?各相异性过滤，�Ҏ(gu��)��需求除外，一般线性过滤已�l�可以做的很好�?br>   [2]即��使用各相异性过滤，也要降低相异性比率。��用了各相异性过滤的话，则可以尽量减��三角面性过滤�?br>   [3]降低�U�理分��L率，避免使用不必要的高分辨率�U�理�?br>   [4]降低�U�理色深�Q�例如环境纹理，阴媄�U�理�q�些�Q�尽量��?6位�?br>   [5]��q�行�U�理压羃�Q�例如DXT格式��可以有效压�~�纹理，�q�且GPU对DXT格式支持很好�?br>   [6]避免使用非二�ơ方的纹理资源�?br>   [7]在进行纹理锐化的时候，避免使用负值的Lod�q�行锐化�Q�会��D��q�处��q��Q�尽量��用各相异性过滤进行锐�?br>   [8]对于动态纹理，一般徏议用 D3DUSAGE_DYNAMIC D3DPOOL_DEAFAULT �q�行创徏�~�冲�Q��?D3DLOCK_DISCARD �q�行锁定�Q�尽量做��C��ơ锁定多�ơ��用，不要频繁解锁�Q�另外，永远不要读这��L��U�理�?br>11�Q�桢�~�冲��D��的瓶�?br>�Q?�Q�优化方�?br>   [1]��量关闭Z-write�Q�一般来��_��在一个渲染Pass中就可以�q�行完整的Z-buffer处理�Q�在后箋的Pass中就应当关闭Z-write�Q�不用担心，即��需要Alpha混合的对象也不再需要开启Z-write了�?br>   [2]��量开始AlphaTest�Q�实际上�q�个操作会提高效率，而非降低�?br>   [3]避免使用��点桢缓存�?br>   [4]若没有启用模版深度缓冲的话，使用16位的Zbuffer��可以了�?br>   [5]避免使用RendToTexture�Q�或者可能的��d��Rend的尺寸�?br>对于现在可编�E�流水管�U�来��_��q�意味着我们有更大的自由度实现更多的�Ҏ(gu��)��Q�但也有了更多的瓉��和更多的复杂度，我们遇到问题要正��的获取瓉��所在，开动脑�{�进行优化，�q��各环节间的负载。让各环节不�q�蝲不空闌Ӏ?br>
更多信息希望�(zh��n)�查看Nvidia的《GPU_Programming_Guide》，��译成中文则是《GPU�~�程�_��a》。以上�?/p>

Render Donkey 2010-01-29 13:48 发表评论

优化3D囑�Ş渲染通道负蝲

Render Donkey — Fri, 29 Jan 2010 05:43:00 GMT

优化3D囑�Ş渲染通道负蝲

http://www.itjiaocheng.com/jiaocheng/pingmiansheji/AutoCAD/texiaojiqiao/2009/0520/23435.html

一般来��_�� 定位渲染通道瓉��的方法就是改变渲染通道每个步骤的工作量, 如果吞吐量也改变�? 那个步骤��是瓉��.。找��C��瓉��p��惛_��法消除瓶�? 可以减少该步骤的工作�? 增加其他步骤的工作量�?

　　一般在光栅化之前的瓉��U�C��”transform bound”, 三角形设�|�处理后的瓶颈称�?#8221;fill bound”定位瓉��的办�?

　　 1.改变帧缓冲或者渲染目�?Render Target)的颜色深�?16 �?2 �?, 如果帧速改变了, 那么瓉��应该在��~�冲(RenderTarget)的填充率上�?

　　 2.否则试试改变贴图大小和脓(chu��ng)图过滤设�|? 如果帧速变�?那么瓉��应该是在贴图�q�里�?

　　 3.否则改变分��L�?如果帧速改变了, 那么改变一下pixel shader的指令数�? 如果帧速变�? 那么瓉��应该��是pixel shader. 否则瓉��在光栅化过�E�中�?

　　 4.否则, 改变��点格式的大��? 如果帧速改变了, 那么瓉��应该在显卡带宽上�?

　　 5.如果以上都不�? 那么瓉��在CPU�q�一辏V�?

　　优化�Ҏ(gu��)��36�?

　　 1.��量减少无用的顶�Ҏ(gu��)��? 比如贴图坐标, 如果有Object使用2�l�有的��?�l? 那么�?要将他们攑֜�一个vertex buffer�? �q�样可以减少传输的数据量�?

　　 2.使用多个streamsource, 比如SkinMesh渲染, 可以把顶点坐标和法线�q�些每一帧都要修改的数据攑֜�一个动态VB�? 其它不需要修改的(如脓(chu��ng)囑֝��?攑ֈ�一个静态VB�? �q�样��减��了数据传输量�?

　　 3.��量使用16位的索引�~�冲,避免32位的. 一斚w��费带宽, 一斚w��也不是所有的昑֍�都支�?2位的索引�~�冲�?

　　 4.可以考虑使用vertex shader来计��静态VB中的数据.比如SkinMesh的顶点可以放到vectex shader中计��? �q�样��可以避免每一帧都从AGP内存中向昑֭�传送数�? �q�样也可以��用静态VB了�?

　　 5.坚决避免使用Draw**UP一族的函数来绘制多边�Ş�?

　　 6.在设计程序之前好好规划一下显卡内存的使用, ��保framebuffer, 贴图, 静态VB能够正好攑օ�昑֍�的本地内存中�?

　　 7.��量佉K��Ҏ(gu��)��式大��是32字节的倍数.可以考虑使用压羃�q�的��点格式然后用vertex shader去解. 或者留下冗余的部分, 佉K��点大��刚好��32字节的倍数�?br>
　　 8.��点在顶点缓冲中的顺序尽量符合绘制的��序, 考虑使用strips来代替list�?

　　 9.如果可能��量多的使用static vertex buffer代替dynamic vertex buffer�?

　　 10.动态VB使用DISCARD参数来lock更新, 使用NOOVERWR99vE来添�?��量不要使用不带参数的lock调用(0)�?

　　 11.��量减少lock的次�? 有些东西�q�不一定非要每一帧都更新VB, 比如人物动画一般每�U�钟更新30�ơVB基本上就够了�?

　　 12.如果是因为需要绘制的��点数据太多了可以考虑使用LOD, 但是现在的显卡的�l�制能力都很强劲, 所以需要权衡一下LOD是否能够带来相应的好�? 如果�q�分的强化LOD很可能将瓉��转移到CPU�q�边�?

　　 13.避免�q�多的顶点计��?比如�q�多的光�? �q�于复杂的光照计��?复杂的光照模�?, �U�理自动生成的开启也会增加顶点的计算�? 如果贴图坐标变换矩阵不是单位矩阵, 也会造成��点计算量的增加, 所以如果纹理变换已�l�结�? 记得要将�U�理变换矩阵设�ؓ单位矩阵同时调整贴图坐标�?

　　 14.避免Vertex shader指��o数量太多或者分支过�? ��量减少vertex shader的长度和复杂�E�度. ��量使用swizzling代替mov�?

　　 15.如果图象质量斚w��的计��?pixel shader)范围很大, �q�且很复�? 可以考虑试试全屏反走栗��说不定更快�?

　　 16.��量按照front – back的顺序来�l�制�?

　　 17.在shader中判断Z值可以避免绘制不可见的象�? 但是nvidia��单的shader不要�q�么�?(Don't do this in a simple shader)�?

　　 18.如果可能, ��量使用vertex shader来代替pixel shader.��计��从逐象素变成逐顶炏V�?

　　 19.��量降低贴图的大��?�q�大的脓(chu��ng)囑֏�能造成贴图cache�q�蝲, 从而导致脓(chu��ng)图cache命中降低.�q�大的脓(chu��ng)图会��D��昑֭��q�蝲, �q�时候脓(chu��ng)图是从系�l�内存中取的�?br>
　　 20.只要可能��q��16位色的脓(chu��ng)�? 如环境脓(chu��ng)图或者shadow map.它们�?2位色的脓(chu��ng)囑֮�在是��费�?

　　 21.考虑使用DXT 贴图压羃�?

　　 22.如果可能,使用��单的贴图�q��o或者mip map, 除非必要否则��量不要使用三线�q��o和各��异性过�? light map 和环境脓(chu��ng)囑֟�本上都不需要��用它们�?

　　 23.只有真正需要修改的贴图才��用Dynamic, �q�且使用DISCRAD和WR99vEONLY来lock�?

　　 24.太多的��~�冲��d��可以考虑关闭Z-Writes如有些多pass的渲染中的后�l�pass或者粒子系�l�等半透明几何物体�Q�如果可以）�?

　　 25.可能的话��量使用alpha test代替alpha blending�?

　　 26.如果不需要stencil buffer��尽量��?6位的Z buffer�?

　　 27.减小RenderTarget 贴图的大��? 如shadow map 环境贴图. 可能�Ҏ(gu��)��不需要那么大效果��很好�?

　　 28.Stencil 和Z buffer ��量一起clear. 他们本来��是一块缓册Ӏ?

　　 29.��量减少渲染状态的切换, ��量一�ơ画��可能多的多边�Ş。（�Ҏ(gu��)��昑֍�性能军_��最多画多少�Q?不过一般再多也不会多到哪里厅R�?除非你根本不需要脓(chu��ng)囑֒�渲染状态的切换�Q��?

　　 30.��量使用shader来代替Fixed Pipeline�?

　　 31.��量使用shader来实现来取代Multipass渲染效果�?

　　 32.��量优先先徏立重要的资源, 如Render target, shaders, 贴图, VB, IB�{�等.以免昑֭��q�蝲的时候它们被创徏到系�l�内存中�?

　　 33.坚决不要在渲染��@环中调用创徏资源�?

　　 34.按照shader和脓(chu��ng)囑ֈ��l�后再渲�?先按照shaders分组再按贴图�?

　　 35.Color Stencil Z buffer��量在一�ơClear调用中清除�?

　　 36.一个Vertex buffer 的大��在2M-4M之间最好。（中国软�g�Q?/p>

Render Donkey 2010-01-29 13:43 发表评论

Shader Model 4.0 全新架构

Render Donkey — Fri, 16 Oct 2009 09:47:00 GMT

Shader Model4.0�l�一渲染架构
微��Y的DirectX 9.0c距今��d��的诞生已�l�有2�q�的光景�Q�DX9.0c�l�我们带来了全新的Shader Model3.0技术，也��?D画面较以往了有了质的突��_��DirectX 9.0c是截臌��今微软历史上寿命最长的一代API�Q�而图形技术的发展是不会停下脚步的�Q?006�q�微软发布了全新的DirectX 10.0�Q�仅从版本上看比9.0c相差一�U�，但是DirectX 10.0带给我们的又��是一个全新的概念�?

　　在微软发布DX10.0后，NVIDIA�U�极响应�Q�发布了完全�W�合DirectX 10.0的通用Shader架构囑�Ş处理器G80�Q�也标志着DX9.0c��会逐步被DX10.0替代。相对DirectX 9.0c中的SM3.0�Q�在Shader Model 4.0中微软引入了�l�一着色架构，�q�才是DX10最大的改变。我们都知道�Q�微软在DirectX 9中引入的�?.0/2.X/3.0三个版本的Vertex Shader(��点着色引�?以及Pixel Shader(像素着色引�?。其中支�?.0版的着色引擎是DirectX 9的GPU的最低标准，而当前主��的昑֍�已经都硬件支持加入了拥有更多高��处理功能�?.0版本着色引擎�?/p>

不过�Q�即便是DirectX 9.0c�Q�对于功能相仿Vertex Shader、Pixel Shader来说�Q�目前图形芯片厂商仍需要在GPU中划分两个区域来存放Vertex Shader阵列和Pixel Shader贴图��水�Uѝ��这无疑是一�U�资源冗余，而且�q�也加重GPU的设计难度及成本。当DirectX 10把渲染流�E�更�l�分为Vertex Shader、Geometry Shader及Pixel Shader�Q�这个情况将会更为明显。而DX10.0的诞生就��这2�U�渲染整合在了一��P��

SM4.0较SM3.0的改�q?/font>
　而在DirectX 10中引入了�l�一渲染�Ӟ��通过一个整合Vertex Shader�?Pixel Shader的可�~�程整合光媄处理器来完成目前Vertex Shader、Pixel Shader所有的工作。所谓统一渲染架构�Q�最�Ҏ(gu��)��的理解方式就是Shader单元不再分离�Q�显�C�核心不再�ؓShader�c�d��不同而配�|�不同类型的Shader单元�Q�对于主��的昄��核心�Q�Pixel Shader单元以及vertex Shader单元的概念都应该已经非常熟�?zh��n)�了，而在�l�一渲染架构中这两种Shader单元?y��u)��不再分��，转而所有的Shader单元都可以�ؓ需要处理的数据�q�行处理�Q�不��和是Pixel Shader数据�q�是Vertex Shader数据�?

而调配哪几组Shader单元负责处理什么数据或者进行什么样子类型的计算�Q�则�׃��个被�U�Cؓsmall sets of instructions(SSI)的部分来控制。这样在��g上，设计者就无需��Z��同的着色引擎设计不同的执行单元�Q�只要按照所对应的接口以及操作方式全部融��Z��体，仅设�|�一�U�独立的Shader执行单元。这意味着GPU厂家可以用更��的核心来实现现在需要用8000万甚��x��多晶体管才能实现的功能！

　　相比原先的Shader Model 3.0�Q�Shader Model 4.0最大指令数�?12条增加到�?4000�?临时暂存器数量也从原先的32个增加到惊�h�?096�?允许同时�?28个Texture�q�行操作(Shader Model 3.0只允�?6�?;材质texture格式变�ؓ��g支持的RGBE格式�Q�其中的"E"是Exponent的省略，是RGB共同的说明，�q�在HDR的处理上有很大的作用�Q�摒弃了以往需要专门decoding处理HDR渲染的流�E��?另外�Q�对于纹理的��寸Shader Model4.0也有惊�h的提升，8192x8192的最高纹理分辩率比原先最�?048x2048的分辩率要高�?倍。G80囑�Ş核心对以上规格都�l�予了完整的��g支持�?br>
Shader Model4.0新特�?/font>
　Shader Model 4.0另一个重大变化就是在VS和PS之间引入了一个新的可�~�程囑�Ş�?---几何着色器(Geometry Shader)。原来的Vertex Shader和Pixel Shader只是寚w��个��点或像素进行处理，而新的Geometry Shader可以扚w��q�行几何处理�Q�快速的把模型类似的��点�l�合��h��q�行�q�算。虽然其操作不会象Vertex Shader那样完整�Q�只是处理器单个��点的相兛_��数操作，但是�q�种操作却可以确定整个模型的物理形状。这��大大加速处理器速度�Q�因为其它Shader单元?y��u)��不再去需要判定数据所存在的位�|�，而只是需要简单的为特定区域进行操作就可以了�?/p>

　　Geometry Shader可以把点、线、三角等多边形联�p��v来快速处理、同时创造新的多边�Ş�Q�在很短旉��内直接分配给其他Shader和显存而无需�l�过CPU�Q�烟雾、爆炸等复杂图象不再需要CPU来处理。从而极大的提高了CPU速度和显卡速度。游戏图象中可以出现许多�_��场景�Q�如不锈钢茶壶上清楚的反��出周围物体、超�_��的�h物皮肤等�?/p>

　　��Z��最大程度的发挥Geometry Shader的威力，DX10��g�q�专门设�|�了一个名为流输出�?Stream Output State)的部件来配合它��用。这个层的功能是��Vertex Shader和Pixel Shader处理完成的数据输出给用户�Q�由用户�q�行处理后再反馈�l�流水线�l�箋处理。我们可以通过Stream Out把GPU拆成两段�Q�只利用前面的一�D�几何运��单元。对某些�U�学研究�Q�也许可以通过stream out来利用GPU的数学运��能力，�{�于在CPU之外又��^白多得了一个数学协处理器。�D个例子，Doom3常用的Stencil shadow�Q�因为CPU负担很重�Q�广受批评。但是因为GS可以计算轮廓�U? �q�可以动态插入新的多边�Ş�Q�有了Stream out之后�Q�Shadow volume的生成就可以攑ֈ�GPU端进行，实现Stencil shadow的硬件化�Q�这��大大降低CPU占用�?br>
�l�一着色架�?/font>
在以前的DirectX版本中，像素着色器因�ؓ受到帔R��寄存器、可用指令和��M��程可的限制��L��q�行在顶点着色器之后�Q�因此程序员必须学会怎样分别��d��用好��点和像素着色器的权限。Shader model 4.0则带来了与以往不同的统一着色架构，在DirectX 10基础上进行游戏开发，�E�序员不需要在避免着色冲�H�限制上��p��旉��Q�所有的�l�一架构着色器都能够��用GPU可以用的全部资源�?/p>

　　Shader model 4.0在着色器�E�序可用资源的提升方面让人激动，在以往的DirectX下，开发者不得不仔细计算可用的寄存器资源�Q�而在DirectX 10中，�q�些问题都不复存在，如上表所�C�，��M��上DirectX 10提供了超�q?0倍的DirectX 9可用资源�?/p>

更多的纹理和渲染
Shader Model 4.0支持�U�理队列集，把开发者从�J�重的拼接纹理图集的工作中解攑և�来，�q�能够在每个着色器上��用更多的�Ҏ(gu��)��U�理实现更好的视觉效果�?/p>

　　在Shader Model 4.0之前�Q�过高的开销使在一个着色器操作上��用多个特�D�纹理的操作基本无法实现。�ؓ了解册��个问题，开发把许多��的分散的纹理拼接成一个大的纹�?在运行层中，着色器也需要进行额外的地址�q�算以便在拼接纹理图集中扑ֈ�特定的纹理。纹理图集方式存在两个明昄��~�点:首先��纹理之间的分界�U�回��D��q��o操作错误;然后�Q�DirectX 9�?096*4096�U�理��寸限制也是�U�理��N��的��M��规模受到局限。纹理队列集能够解决所有问题，它能够��用队列格式存储纹理，每个队列能存�?12同尺�怸��U�理�Q�最大的可用�U�理��寸也提升到8192*8192。�ؓ了促�q�这�U�应用，每个着色器可以操作的最大纹理数也提高到�?28个，8倍于DirectX 9�?/p>

　　更多的渲染对�?br>　　多重渲染对象是DirectX 9时代的一个流行特性，它允许每个像素着色周期输�?个不同的渲染�l�果�Q�从而高效率的在一个周期内渲染一个场景的4遍。在DirectX 10中，渲染对象的数目提高到8�Q�着极大的提高了着色器能实现的场景复杂�E�度�Q��g�q�渲染和其它一些图像空间优化算法将�q�泛的从中受益�?br>
两种新的HDR格式
　两种新的HDR格式
　　HDR(High dynamic range rendering)从支持��Q点色彩格式的DirectX 9时代开始流行。不�q�的是��Q�Ҏ(gu��)��式比整数格式占用更多的寄存器�I�间而限制了其性能的发挥。如典型的FP16格式的每个色彩数据需要占�?6bits�Q�这两倍于整数格式的空间占用�?/p>

　　DirectX 10的新HDR格式能够在和FP16实现同样动态范围的前提下只占用50%的存储空间。第一�U�格式�ؓR11G11B10�Q�它使用11-bits的红色和�l�色以及10-bits的蓝色来优化存储�I�间;�W�二�U�格式是使用一�?-bits�׃�n首位存储所有色彩然后每个色彩拥�?-bits��֝��Q�这些简化的�Ҏ(gu��)��在HDR品质上和标准的FP16几乎没有差别。在最高��别的HDR斚w��Q�DirectX 10支持FP32的HDR�Q�这可以用于�U�学计算�{�对计算�_�ֺ�较高的应用程序�?/p>

　　很显�Ӟ��DirectX 10.0全新的Shader Model4.0对于消费者来说是一场全新的视觉革命�Q�更逼真�?D游戏画面、流畅的高清视频回放是微软、显卡厂商推动技术发展的动力之源�Q�在不远的将来我们就会体会到全新的DX10、SM4.0�l�我们带来的饕餮大餐�?br>

Render Donkey 2009-10-16 17:47 发表评论

�q�期在研�I�Skeletal Animation�Q�骨骼动画）

Render Donkey — Sat, 10 Oct 2009 13:17:00 GMT

骨骼动画一直是我感兴趣的内�?虽然采用现成的CSkinMesh能够使用XFile的骨骼动�?但对自己来说��L��觉缺��了点什�?于是,�q�是深入理解理解为好!!!

ZDNet软�g频道旉���Q?span>2008-03-24作�?/strong>�Q�Skyman | CSDN
本文关键词：骨骼动画�Q?/font> Animation Skeletal 游戏 Linux

骨骼动画(Skeletal Animation)又叫Bone Animation�Q�它与关键��动画(Key-frame Animation)相比�Q�占用空间小�Q�因为它不需要象关键帧动画那栯��存储每一帧的各个��点的数据，而是只需要存储每一帧的骨骼�Q�骨��g��点相比�Q�当然要��得多。所以骨骼动��L��很多优势�Q�当然其技术难度也很高。我个�h觉得动画在计��机囑�Ş学中是一个十分重要的内容�Q�不��是�?a title=游戏 >游戏、电(sh��)影动画还是虚拟现实中�Q�生动逼真的动画（人、动物等�Q�会使之增色不少。所以我军_��今后的研�I�方向就是计��机动画。目前在研究Skeletal Animation�Q�这是目前动��L��术中的主��。欢�q�同好与我交��，共同提高�Q?
    骨骼动画的实现思�\是从我们人的�w�体的运动方式而来的（所以VR��是对现实世界的虚拟�?:-)�Q�。动��M�h物的�w�体�Q�肉、皮肤）是一个网�?Mesh)模型�Q�网格的内部是一个骨架结构。当人物的骨架运动时�Q��n体就会跟着骨架一赯��动。骨架是�׃��定数目的骨骼�l�成的层�ơ结构，每一个骨骼的排列和连接关�p�d��整个骨架的运动有很重要的影响。每一个骨骼数据都包含其自�w�的动画数据。和每个骨架相关联的是一�?#8220;蒙皮”(Skin)模型�Q�它提供动画�l�制所需要的几何模型(Vertex,Normal,etc)和纹理材质信息。每个顶炚w��有相应的权�?Weight)�Q�这些权值定义了骨骼的运动对有关��点的媄响因子。当把动��M�h物的姿势和全局�q�动信息作用到骨架上�Ӟ��q�个“蒙皮”模型��׃��跟随骨架一赯��动。如下图所�C�：

    所以关键是寚w��架进行动�ȝ��成，生成的方法也是用关键帧。关键��动画是对人物的网�?Mesh)模型采用关键帧生成动画；而骨骼动��d��是对人物的骨枉��用关键��生成动画�Q�然后再让网�?Mesh)模型跟随骨架�q�动。关键��动画实现�?个关键点是：关键帧的选取和中间��的插补�?/p>
    关键帧的指定�?�U�基本的�Ҏ(gu��)��Q�前向动力学(FK)和逆向动力�?IK)。前向动力学用一�l�节点的角度来找到末端受动器的位�|�；而逆向动力学则是找到将末端受动器置于所要位�|�所需的一�l�节点角度。前向动力学的优�Ҏ(gu��)��Q�计��简单，�q�算速度快，�~�点是：需指定每个兌��的角度和位置�Q�而由于骨架的各个节点之间有内在的兌��性，直接指定各关节的值很�Ҏ(gu��)��产生不自然协调的动作�Q�逆向动力学的优点是：只需指定主要兌��点的位置�Q�负担轻�Q�缺�Ҏ(gu��)��Q�计��模型比较复杂，开发者需要机械运动和动力学、几何学以及向量数学�{�方面的相关知识�?/p>
    中间帧的插值分2步：(1) �Ҏ(gu��)��当前旉��Q�通过插��D��出每个骨骼的旋转、��^�Uȝ��|��形成中间帧的骨架。插值算法一般采用四元数(Quternion)的球面线性插�?Spherical linear interpolation)SLERP�Q�SLERP特别适合在两个方位之间进行插��|��不会出现像对�Ƨ拉角插值那样出��C��象锁的现象，而且�q�种插��D��产生更��^滑和�q�箋的旋转，表达方式也很��z�；(2) �Ҏ(gu��)��骨架的变化情况，插��D��出骨架�?#8220;蒙皮”模型的各个顶点的位置变化。对于某个特定骨��|��“蒙皮”模型的顶点变换矩阵＝初始姿势的变换矩�늚��?#215;姿势变换后的矩阵。另外还要考虑��点可能受多个骨��D��动的影响。这时我们对每个与当前顶点相兌��的骨��|��其�q�动姿势变换矩阵×当前��点相对于该骨骼的偏�U�d��?#215;该骨骼对当前��点的媄响因子（��x��重Weight�Q�，�Ҏ(gu��)��有与当前��点相关联的骨骼都这么处理，然后相加�Q�就得到当前��点的新位置�?/p>
    由此看出�Q�如何设�|�各关键帧的骨架的各节点的位�|�和骨骼的�{向（也就是骨架的POSE�Q�是其中的关键，�?�U�方法：一�U�是由动��d��手工攄��Q�这个对动画师的技术要求就比较高，要求动画师对现实生活中的人和动物�{�的动作有细心的观察。否则设�|�的骨架动作��׃��不自然、不协调�Q�另外一�U�是��Z��q�动捕捉(Motion Capture)的方法，��是在�h的各个关节处安置�q�动捕捉传感器，当�h做各�U�动作时�Q�捕捉��A器就��各节点的位�|�数据记录下来，�q�样我们��可以根据这些节�Ҏ(gu��)��据进行骨架徏模。由于这是捕捉的真实的�h的动作，所以这�U�方式得到的动画��很自然、很真实�Q�但捕捉仪器造�h(hu��n)昂贵�Q�国内估计只有很��几家有财力�?a title=游戏 >游戏公司才购�|�了�q�些讑֤�吧�?/p>
    目前有好�?D模型格式支持Skeletal Animation�Q�像Microsoft�?X格式、MilkShape的MS3D格式、Half Life的MDL格式、ID Software的MD5格式�{�。我准备首先研究一下MS3D格式�Q�因为它有公开的格式说明文档，阅读��h��比较�Ҏ(gu��)��Q�而且应用很广。当�Ӟ��首先要深入学�?a title=Skeletal >Skeletal Animation的底层技术，打好坚实的基��Q�呵呵！

Render Donkey 2009-10-10 21:17 发表评论

Render Donkey — Sat, 12 Sep 2009 05:36:00 GMT

��就看吧�Q�有些单词我实在不知道怎么��译�Q�只可意会！

像素着色器需要依靠寄存器来取得顶�Ҏ(gu��)��据，输出像素数据�Q�取得计��时的��时结果和兌��U�理采样通道�Q�stage)。有几种�c�d��的寄存器�Q�每一�U�都有特�D�的功能和用途�?/p>
像素着色器需要的用到的数据由寄存器保��，下面是寄器存的所有介�l?br>寄存器类型：描述了四�U�可用的寄存器和他们各自的用�?br>��d��端口限制�Q�单指针使用多个寄存器时的限�?br>R/RW�Q?描述了哪些寄存器可以用来读，写或是读写�?br>范围�Q�各个分量的范围的详�l�说�?/p>
Register Types
                                     Versions
Name Type                   1_1        1_2        1_3        1_4
c# Constant register       8             8             8           8
r# Temporary register    2             2             2          6
t# Texture register         4           4             4         6
v# Color register            2             2             2         2 in phase 2

1�Q�常量寄存器�Q�常量寄存器容纳了常量数据。数据可以用IDirect3DDevice9::SetPixelShaderConstantF函数��一个常量装入常量寄存器中。也可以用def-ps来定义一个常量�?帔R��寄存器对�U�理��d��指��o来说是不可用的，唯一例外的是texm3x3spec-ps指��o�Q�这个指令��用一个常量寄存器来提供一个视�U�向量（eye-ray vector�Q?/p>
2�Q��时寄存器�Q��时寄存器用来存立即结果。r0用来作�ؓPS的最�l�输出。shader的最后时刻r0中存攄��是最后的像素颜色�?br>如果��M��的着色器试图从一个没有被写入数据的��时寄存器中读取数据时�Q�着色器�ȀIDirect3DDevice9::CreatePixelShader��会��p�|�Q�shader validation will fail�Q�。假设激�z�（validation�Q�是可用状态D3DXAssembleShader函数调用也会因�ؓ相同的原因而失败。（不要使用D3DXSHADER_SKIPVALIDATION�Q?/p>
�U�理寄存器：
在ps 1_1 �?_3中，�U�理寄存器容�U�纹理数据或是纹理坐标。当一个纹理被采样�Ӟ��U�理数据便被装蝲��C��个纹理寄存器中�?br>当纹理通道状态属性被登记的时候纹理采样��用纹理坐标来查询�Q�look up)或采�?sample)一个纹理坐标（u,v,w,q)标记的颜色倹{��纹理坐标数据会�Ҏ(gu��)��点�U�理坐标数据�q�行插��|��q�关联到相关的纹理通道。纹理通道号与�U�理坐标声明序列有一个一一对应关系。默认情况下�Q�顶�Ҏ(gu��)��式中定义的第一个纹理坐标与�U�理通道0兌��?br> 在这些版本的像素着色器中，当纹理寄存器用来做算术运��的时候就和��时寄存器的效果一样了�?br>在ps_1_4中，�U�理寄存�?t#)容纳的是只读�U�理坐标信息。这意味着�U�理坐标集和�U�理通道�~�号是独立的。纹理通道�~�号��q��的寄存器�Q�r0 to r5)军_��。对于texld指��o来说�Q�纹理坐标集由源寄存器t0 to t5军_��。因此纹理坐标集可以映射��C�Q何的�U�理通道上。另外，对于texld的源寄存器（指定�U�理坐标信息�Q�也可以是��时寄存器(r#)。在�q�样的情况下�Q��时寄存器记录�U�理坐标�?br>颜色寄存器容�U�了每个像素的颜色��|��q�个值通过��点数据中的漫反��和镜面光颜色��D�P代而来。对于ps_1_4。颜色寄存器只有在phase2中可用。如果着色模式设�|��ؓD3DSHADE_FLAT,那么��点颜色中的颜色�q�代��不可用。如果雾化开启的话，那么渲染��线�q�是会忽略着色模式，寚w��q�行颜色�q�代。记住雾化比像素着色器后应用�?br>通常我们会从v0加蝲��点漫反��颜色数据。从v1加蝲��点镜面光颜色数据�?br>输入颜色数据值将会被规范�?�?�Q�因��是像素着色器中的颜色寄存器的有效范围

像素着色器寚w��色寄存器�q�行只读操作。颜色寄存器中存攄��是�P代��|��但是�q�代可能会造成比纹理坐标低很多�_�ֺ�

Render Donkey 2009-09-12 13:36 发表评论

per-pixel lighting �U�理�I�间坐标基的计算�Ҏ(gu��)��

Render Donkey — Fri, 17 Apr 2009 13:45:00 GMT

文章来源�Q?a >http://www.freegames.com.cn/school/383/2007/27685.html
Nemesis2k
per-pixel lighting �U�理�I�间坐标基的计算�Ҏ(gu��)��

我知道的几种�Ҏ(gu��)��Q?/p>
1. 对于参数化的表面�Q�设其方�E��ؓ P = P (u, v)�Q�其�?P 为向量，
三个分量分别�?x, y z。也可以表示为：
Px = Px (u ,v)
Py = Py (u ,v)
Pz = Pz (u ,v)
那在��L��一个顶�?br>T = {dPx/du, dPy/du, dPz/du}
B = {dPx/dv, dPy/dv, dPz/dv}
N = T X B
然后�?T, B, N 归一化就行了�?br>�q�里的偏导数可以用差分计��?br>�q�样计算出来的切�I�间是在每一个顶点的切空间�?/p>
2。对于由三角形面片组成的�|�格�Q�在 MSDN 上的 Per-pixel lighting
文章里介�l�了一�U�方法�?br>设三角�Ş的三个顶�Ҏ(gu��)�� P0, P1, P2�Q�其中每个顶炚w��有位�|�，法向�?br>�?2-D �U�理坐标�?br>Pi : {x, y, z}, {nx, ny, nz}, {s, t}
现在我们要计��在 P0 点的切空间�?br>�q�里要分辨两个切�I�间�Q?br>1�Q�顶点上的切�I�间
2�Q�三角�Ş面片上的切空�?br>两个切空间是相同的吗�Q�我觉得是不同的。方�?2 和方�?3 计算出来�?br>实际上都是三角�Ş面片的切�I�间�Q�顶点的切空间还要通过�q�_��点所�?br>各个三角形面片的切空间基向量来计��。（是这��L��吗？高手指教一下！�Q?/p>
设三角�Ş面片所在的切空间的基向量�ؓ T, B, N�Q�坐标原点在 P0�?br>那么三角形面片中的�Q意向量应该可以表�C�Zؓ�Q?br>Vec = x*T + y*B
因此�Q�如果我们找��C��两个向量 Vec1, Vec2 以及它们�?T, B 上的
分量�Q�那么自然就可以解出 T, B 了�?br>令：
Vec1 = P1 - P0
Vec2 = P2 - P0
dS1 = P1.s - P0.s
dS2 = P2.s - P0.s
dT1 = P1.t - P0.t
dT2 = P2.t - p0.t
那么我们�?br>Vec1 = dS1*T + dT1*B (1)
Vec2 = dS2*T + dT2*B (2)
联立 (1), (2) ��可以解�?br>B*(dS2*dT1 - dS1*dT2) = (dS2*Vec1 - dS1*Vec2)
所以：
(dS2*dT1 - dS1*dT2) 是一个常敎ͼ�反正我们之后要对 B 归一化，
可以不用��它。于是：
B = normalize(dS2*Vec1 - dS1*Vec2) �q�就�?MSDN 里那��文章里的方法�?br>B 可以通过解方�E�获得，但是 T ��׃��行了�Q�因��栯��出来�?T �?br>B 不一定垂直。怎么处理呢？
MSDN 中的�Ҏ(gu��)��是，利用��点�?N 来求 T�Q?br>T = B X N
然后再求 N
N = T X B
但是�q�样可以吗？�q�里�?N 是顶�?P0 �?N�Q�而不是三角�Ş面片�?N�?br>是不是这��h��出来�?T, N, B 恰好是顶�?P0 的切�I�间的坐标基�Q�不需�?br>再��^均了�Q�（高手指教�Q�）
我想的处理方法是�q�样的：
同样解出 T 来：
T = normalize(dT2*Vec1 - dT1*Vec2)
然后 N = T X B。这�?N 是三角�Ş面片�?N�?br>然后 T = B X N。这�?T, N, B 构成正交基，而且是三角�Ş面片的�?br>要计��?P0 ��点的切�I�间基，�q�需要��^均多个面片�?br>�q�种�Ҏ(gu��)��到是比较复杂�?/p>
一个问题是�Q��ؓ什么有
Vec1 = dS1*T + dT1*B (1)
Vec2 = dS2*T + dT2*B (2)
�q�两个公式！
我想是因为在计算��点的纹理坐标时�Q�因为是从��^面映��到�q�面�Q�所以我们��用了
仿射变换�Q?br>s = as*x + bs*y + cs
t = as*x + bs*y + cs
反过来我们有
x = ax*s + bx*t + cx (3)
y = ay*s + by*t + cy (4)
z = az*s + bz*t + cz (5)
于是
Vec1.x = P1.x - P0.x = ax*(P1.s - P0.s) + bx*(P1.t - P0.t)
Vec1.y = P1.y - P0.y = ay*(P1.s - P0.s) + by*(P1.t - P0.t)
Vec1.z = P1.z - P0.z = az*(P1.s - P0.s) + bz*(P1.t - P0.t)
于是
Vec1 = {ax, ay, az}*dS1 + {bx, by, bz}*dT1
�q�和 (1) 已经很象了，那么 {ax, ay, az} ��是 T 吗？
�{�案是是的！事实�?(3), (4), (5) ��是三角形面片的参数表示�Q�那�?br>T = {dx/ds, dy/ds, dz/ds} = {ax, ay, az}
B = {dx/dt, dy/dt, dz/dt} = {bx, by, bz}
也就是说�Q�如果我们能直接�?ax, ay, az, bx, by, bz 求出来，T �?B ��求出来�?/p>
�Q�当然要把他们正交归一化）

3 nVidia �|�站上的�Ҏ(gu��)��?br>我们可以假设
x = ax*s + bx*t + cx
y = ay*s + by*t + cy
z = az*s + bz*t + cz
如何求解 (3) �Q�这里有 3 个未知数�Q�那我们需�?3 个方�E��?br>��?3 个顶点的属�?{x, y ,z}, {s, t} 带入�Q�刚好有三个方程�Q?br>P0.x = ax*P0.s + bx*P0.t + cx (1)
P1.x = ax*P1.s + bx*P1.t + cx (2)
P2.x = ax*P2.s + bx*P2.t + cx (3)
解出来就得到 ax, bx, cx 了�?br>同理可得�Q?ay, by, cy, az, bz, cz�?br>T = {ax, ay, az}
B = {bx, by, bz}
N = T X B
T = B X N
然后都归一化即可�?/p>
nVidia �|�站上的�Ҏ(gu��)��呢，是徏立三个��^面方�E?br>Ax*x + Bx*s + Cx*t + Dx = 0 (4)
Ay*y + By*s + Cy*t + Dy = 0 (5)
Az*z + Bz*s + Cz*t + Dz = 0 (6)

�q�且指出�Q�三角�Ş面片上的所有点�?(x, s, t) 都在
方程 (4) 定义的��^面中。那�?br>dx/ds = -Bx/Ax
dx/dt = -Cx/Ax

同理
dy/ds = -By/Ay
dy/dt = -Cy/Ay

dz/ds = -Bz/Az
dz/dt = -Cz/Az

那么�q�些 Ax, Ay, Az, Bx, By, Bz, Cx, Cy, Cz 怎么求呢�Q?br>�Ҏ(gu��)��知道�Q�{Ax, Bx, Cx} 其实是��^面的法向量，那么可以
选��^面中的三个点�Q�计��出两个向量�Q�然后叉乘�?/p>
{Ax, Bx, Cx} = {P1.x - P0.x, P1.s - P0.s, P1.t - P0.t} X
{P2.x - P0.x, P2.s - P0.s, P2.t - P0.t}

�q�两�U�方法是�{��h(hu��n)的�?

Render Donkey 2009-04-17 21:45 发表评论

最新高清无码专区,国产亚洲精品v,欧美精品日本

镜面反射矩阵推导

Deferred Shading

2D Skinned Mesh�Q?D的完全翻�?带旋转）

Reflect & Refract (以水渲染��Z��)

CubeMap视线反射方向计算详解

使用投媄�U�理�q�行模型贴花(Mesh Decals)

HLSL中的MUL指��o深层剖析

�E�序中的四元数表�C�法

Computing Tangent Space Basis Vectors for an Arbitrary Mesh

[原]Irrlicht(鬼火引擎�Q�中多设备的支持

关于�?D���线��D��》这本书

SSAO

SSAO屏幕�I�间环境光遮蔽的�q�作方式

SSAO�?wbr>�?wbr>�?wbr>�?wbr>�?wbr>�?wbr>�?wbr>局�?wbr>�?wbr>�?wbr>�?wbr>

优化3D囑�Ş渲染通道负蝲

优化3D囑�Ş渲染通道负蝲

Shader Model 4.0 全新架构

�q�期在研�I�Skeletal Animation�Q�骨骼动画）

per-pixel lighting �U�理�I�间坐标基的计算�Ҏ(gu��)��

关于�?D��线��D��》这本书