欧美日韩三级电影在线,国产色爱av资源综合区,一区在线视频观看

�I�明��{ — Mon, 11 Feb 2013 12:09:00 GMT

梗概

SALVIA 0.5.2 的优化经历是一个“跌宕�v伏”的�q�程。这个过�E�的�l�果很简单：

在Core 2 Duo T5800(2.0GHz x 2)上，Sponza的性能提升�?0%�Q�ComplexMesh性能提升�?6%�?/p>

背景

SALVIA的整个渲染流�E�主要是以下几部分：

�Ҏ��Index Buffer获得需要进行变换的��点�Q?/li>
��顶点利用Vertex Shader�q�行变换�Q?/li>
��变换后的顶点，输出成若�q�个float4�Q?/li>
��三角�Ş光栅化。SALVIA的光栅化是将三角形拆分成4x4的像素块若干�Q�不满的块有掩码来处理；
��像素进行插��|��
插完值后把像素送到Pixel Shader中处理一��；
处理完的�l�果用Blend Shader塞到Back buffer里面厅R�?/li>

用于��试的场景：

Sponza 26万个面，20个左右的Diffuse�U�理�Q?024x1024�Q�；
PartOfSponza �U?00个面�Q?个Diffuse�U�理�Q?024x1024�Q�；
ComplexMesh 两万个面�Q�无�U�理�Q�有个能量保守的光照�?/li>

最初的版本�Q�V1231�Q�中�Q�性能的主要瓶颈在插值阶�D�，各种耗时林林��L��d��了一半以上（50% - 70%�Q��?/p>

相比之下其他阶段�Ҏ��能的媄响要么有限，要么没有多少优化�I�间。所以最�q�一周的优化�Q�就都集中在了“插值”上�?/p>

插值算�?/h1>

�U�性的插值算�?/strong>常见的实现有两种�Q?/p>

�W�一�U�是拿UV插��|��W�二�U�是用ddx和ddy累积�?/p>

UV是先计算像素的u和v�Q�基本方法是用面�U�比�Q�不记得��复习一下中学几何吧�Q�，然后用插值公式：

pixel = v0 * u + v1 * v + v2 * (1-u-v)

后者的步骤是选一个主��点�Q�然后计��这个顶点的ddx和ddy�Q�最后用

pixel = v0 + ddx * offset_x + ddy * offset_y

计算出相应顶炏V�?/p>
但是在图形学中，我们�q�需要对插��D��行透视修正�Q�获得在3D�I�间中线性的插值结果�?/p>
我们��步骤修正到透视�I�间�Q?/p>
先将v0�Q�v1�Q�v2弄到透视�I�间中，变成projected_v0, projected_v1, projected_v2

对于UV的插值是

pixel = ( projected_v0*u + projected_v1*v + projected_v2 * (1-u-v) ) / pixel_w

对于用ddx和ddy的篏�U�公式是�Q?/p>
pixel = ( projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y ) / pixel_w

插值算法的选择

何咏�Q�Graphixer�Q�大��之前也写了一个渲染器�Q�比我快许多�Q�大概是4-6倍）�Q�用的是UV�Q?/p>
gameKnife大神两个�C�拜写成的渲染器�Q�速度比我用五�q�写出来的半成品要快7倍，用的办法是Lerp到Scanline上，再Lerp到像素�?/p>
SALVIA采用了篏�U�法�Q?/p>
struct transformed_vertex { float4 attributes[MAX_ATTRIBUTE_COUNT]; };
transformed_vertex projected_corner; // 计算角点的坐�? projected_scanline_start = projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y; // 像素的透视修正�? float inv_w; // 最�l�输出的4x4个像�? pixel_input px_in[4][4]; for(int i = 0; i < 4; ++i) { projected_pixel = projected_scanline_start; for(int j = 0; j < 4; ++j) { // 透视�I�间转换到线性空间�ƈ输出到px_in�? px_in[i][j] = unproject( projected_pixel ); // 累加x方向上的��|��透视�I�间�Q? projected_pixel += projected_ddx; } // 累加y方向上的��|��透视�I�间�Q? projected_scanline_start += projected_ddy; }

本轮优化之前�Ҏ��值算法的优化��试

注意那个MAX_ATTRIBUTE_COUNT�Q�这个值通常比较大，在v1231中，它是32�?/p>
不过�Q�显然我们不需要对所有的属性进行计��。敏敏在�q�里�q�用了一点小��的技巧进行了优化�Q�只计算必要的属性。同�Ӟ��Z��减少分支的��用，他甚至用
template void sub_n(out, v0, v1 ) { for(int i = 0; i < N; ++i) { out.attributes[i] = v0.attributes[i] �?v1.attributes[i]; } }

�q��合函数指针的�Ҏ��Q�以促�ɾ~�译器展开循环�Q�减��分支�?/p>
不过从实际生成的汇编来看�Q�这个部分�ƈ没有被展开到期望的形式�Q�可能是�~�译器认为x86的Branch Predication性能已经��_��高了吧�?/p>
�q�个“优化”在v1231中就已经具备了�?/p>

首轮优化�Q�unproject函数�Q�operator += �?operator =

�W�一个Profiling是用BenchmarkPartOfSponza和Sponza跑的�Q�unproject�Q�operator +=和operator = 加在一起大�U�占用了15-20%的时间。单独的unproject

最初的实现��是普通的标量。既不要求对齐，也没有��用SIMD�?/p>
所以当然会以�ؓ用了SIMD后，优化效果会很好。于是在v1232中，中间��点和像素输入的分配都以16字节寚w��Q�unproj�Q?=�?也都使用了SSE�q�行了重写�?/p>
从跑分来看，PartOfSponza性能提升�?0%。但是，在测试ComplexMesh和Sponza�Ӟ��q�未发现帧率有显著提升�?/p>
其实在进行优化之前，何咏��告诫过我，因�ؓ��C��CPU的一些技术，比方说超标量啥的�Q�四个数据宽度的SSE和标量运��相比，��只�?0%的性能差距�?/p>
�q�且�q�些函数的指令已�l�极为简单，瓉��也很明确的落在计��指令上。例如Unproject优化后，性能焦点��p��在_mm_mul_ps上（3.7%�Q�，几无优化余地�?/p>

二轮优化�Q�插值算法的调整

在进行第二轮优化之前同样�q�行了一�ơProfiling。因为对PartOfSponza性能基本满意�Q�因此这�ơ优化的目标主要在Sponza上�?/p>
排名前几位的��函敎ͼ�分别是sub_n�Q�unproj�Q?= 和tex2D。对sub_n例行优化后，性能没什么变化。当�Ӟ��q�也是意料之中的事情了�?/p>
因此�Q�第二轮优化便着重考虑在插值算法本�w�上�?/p>
在优化之前，我尝试对代码成本做个�_�略的评伎ͼ�

在现有算法下�Q�假设每个像素有N个需要插值的属性，则��^均每个像素有

�Q�corner�Q?N/16个读 + 2N/16个乘�?+ 2N/16个加�?+ N/16个写

�Q�x�Q?=�Q?N个读 + N个加�?+ N个写

�Q�x�Q?�Q?nbsp; N个读 + 1个标量除�?+ N个乘�?+ N个写

�Q�y�Q?=�Q?N/4个读 + N/4个加�?+ N/4个写

�Q�y�Q?�Q?N/4个读 + N/4个写

因�ؓ每个都是函数指针�Q�所以这些都是优化不掉的。因此首先将一些操作合�q�了一下，比如�?= �?合�ƈ以减��一下读写操作。只可惜效果也不是很明显�?/p>

�W�二刀��q��到算法的头上。因为篏加本�w�是��Z��减少乘法的运用，但是�q�可能带来了多余的存取开销�?/p>
因此直接套用公式�Q?/p>
pixel = ( projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y ) / pixel_w

�q�样��有�Q?N读，2N乘法�Q?N加法�Q�N个乘法和N个写�Q�假讑֯�存器够用的话�Q�。不��Corner的计��成本，�q�样比较一下，��q��于是3N/4个读�Q�N/2+N个写�Q�N/4个加法来换取2N个乘法的旉��。本来以��Z��为IO瓉��的应用，�q�样可以提高一些性能。不�q�结果证实这个买卖实在是很不划算�Q�整体性能不增反减�?/p>

三轮优化�Q�减��内存占用，��x��花明

虽然所有的操作只针对已使用的属性，但是�I�间上还是浪费了许多�?/p>
考虑到内存占用较大也会导致一些性能损失�Q�于是将MAX_ATTRIBUTE_COUNT�?2下调��C��8�?/p>
�l�果令�h大跌眼镜。性能瞬间提升�?0-30%之多�?/p>
再加上SSE也不知道��Z��么开始发力了�Q��用上之后性能大约又有�?0-15%的提升�?/p>
我猜��可能是因�ؓ换页频率下降�Q�以及Cache的命中率提升。不�q�手上没有VTune�q�种工具�Q�所以也不太好验证�?/p>

四轮优化�Q�精度敏感性下降的额外�U�利

在这轮优化之后，PartOfSponza出现了精度问题。因��锥体的上下左叛_��个面都没有Clip�Q�所以可能会出现非常大的三角形。这��L��U�的时候一旦�v始点选择的不好，��׃��出现比较大的误差。在之前版本中，使用/fp: precise来减��这一问题出现的机会。但是因��Z��用了SSE�Q�也让这个问题再难解冟뀂因此我选用了一些办法，来改善精度问题。在大问题都修正以后�Q�换�?fp: fast来编译整个SALVIA�Q�最�l�也获得�?-10%左右的性能收益�?/p>

�l�论

对于�q�算和IO都密集的�E�序来说�Q�优化真可能是牵一发而动全��n的问题。比如在我的例子中，所有猜��是性能瓉��的地方，都没有得到预想中的改善�?/p>
倒是在内存占用这个地�Ҏ��心插査I��才得以柳暗花明，而且�q�让别的优化�Ҏ��体现了�h倹{��所以如果你不像qiaojie大牛那样对x86了如指掌�Q�还是要习惯于从多方面猜��，例如内存占用�Q�对齐或紧羃�Q�计��强度，访存密度�Q��ƈ行度�{�多个角度进行设惛_ƈ用实践去验证。尽��可能会遇到很多挫折�Q�但是，只要是直觉上有优化的余地�Q�一般都可以扑ֈ�合适的�Ҏ��?/p>

�I�明��{ 2013-02-11 20:09 发表评论

�I�明��{ — Sat, 12 Jan 2013 21:00:00 GMT

SALVIA是从07�q�底开始开发的。历�l�五�q�_��无论是设计目标，�q�是使用到的一些方法，都和最初差别很大�?
谨以此文�Q�纪忉|��在五�q�中作出来的各种傻逼决定�?

1. 2007�q?�?- 2007�q?2月：可笑的动机，可笑的雏�?/h1>
动机与原�?/h2>
SALVIA出现的原因其实很可笑�?7�q�底的时候我正在写一��paper�Q�讲GP-GPU的。那个时候还没有CUDA一�cȝ��东西�Q�一切都要靠Shader来。本来我手上的显卡是一�?550的SDRAM的简版。但是论文快�l�束的时候，�H�然�q�卡的风扇就�|�工了。然后我降频用了大概一个多月，卡也废掉了。因为没�׃��新显卡，我就打算写一个比D3D REF快的软�g渲染器�?/p>
07�q�底的时候，实现了第一版的SALVIA�Q�当时还叫SoftArt。第一版的SALVIA其实�q�算不错�Q�流水线的完整程度到现在都还没超�q�，包括Cpp的Vertex Shader和Pixel Shader、纹理采栗��光照什么的一应俱全。在开发过�E�中�Q�主要参考GL 2.0的Specification�Q�也阅读了一些同�c�d��软�g的代码，例如Muli3D和Mesa�?/p>
一些对��线臛_��重要的概念，例如透视修正、固定管�U�上�U�理采样的LoD Level、Clip都是借助于Spec和这些实现徏立的�?/p>
��Z��么要有Shader Compiler

如果是固定管�U�的话，那么SALVIA做到�q�些�Ҏ��也��p��够了。但是从SALVIA一开始，我就希望让它成�ؓ一个Pure Shader的管�U�，固定��线的那些状态实在太烦�h了。本来Cpp实现的Shading language能满��绝大部分的需要了�Q�但是有一个特性彻底难倒了我：Pixel Shader的差分函数ddx/ddy�?/p>
�q�个东西的工作原理是�q�样的：

比方说我有一�D�shader函数�Q?/p>
float shading_pixel( ... ): COLOR0 { float x; // Expression for calculating x return ddx(x); }

在Pixel Shader�q�行的时候，它一�ơ性执�?x2的一个小块，所有的指��o对于整个块内都是同步执行的。遇到ddx(x)后，四个像素都正好执行到�q�里�Q�然后把x方向上的盔R��两个像素的局部变量x求个差，��可以得出ddx了�?/p>
�q�个要求在C++中很隑֮�现�?/p>

不好让C++的四个函数都在同一个地方Join�Q?/li>
我不好去获得盔R��函数的栈上的倹{�?/li>

其实如果要较真，当然�q�是有办法的�Q?/p>

对于Join问题�Q��v码有两种�Ҏ��Q?/li>

自己搞一个Fiber Manager�Q�直接控制代码的栈的Switch。每个pixel都有一个Fiber�Q�到了DDX/DDY��换��C��一个Fiber执行�Q�直到所有的Fiber都执行完毕后�Q�计��ddx�Q�写入栈变量�Q�再�l�箋执行�Q?/li>
直接用线�E�，Join�Q�计��，然后�l�箋执行�?/li>

对于栈变量的地址问题�Q�也有办法：

在切换线�E�的时候直接保存��时变量的地址�?/li>

但是�q�些实现�Q�要么因为切换上下文而变得奇慢无比；要么��是完全没有�q�_��U�L��性。想来想去，�q�是要让代码按照��g的方式SIMD执行�?/p>
所以我最�l�横下一条心�Q�要为它做Shading Language Compiler。然后开始了漫长的Compiler开发。后来我看团镉K��个《�O无止境的八月》的时候，��直就是对着镜子照自��q��傻逹{��所以我才更黑团�ѝ�?/p>
2. 2008�q�初 - 2009�q?2月：黎明前的黑暗

Shader的文�?/h2>
08�q�到09�q�我都在外面实习�Q�一周上六天班，一天得�q�上十个多小时。从2008�q�初�?月䆾�Q�我都一直在看编译原理和成熟的语法库。底子薄�Q�看��h��很吃力。到�?月䆾开始设计Shader的EBNF。设计语�a��Q�不外乎是三个方面：应用场景、语法和库的支持。尽��有现成的HLSL和GLSL作参考，但对于我�?开始设计语�a�来说�Q�这些语�a�的语法和语义都过于复杂了。我需要让语言�Ҏ��慢慢的��d��q�来�?/p>
考虑到HLSL和C比较接近�Q�C的文法参考资料又很多�Q�于是我选择了从C开始裁剪语法。但是文法这个东西，�q�不��单单是树状的�l�构�Q�树上的��M��一个语法节点，都可能会引用到其它的文法规则。因此修改了一条规则后�Q�你会发现它可能会和其它规则冲突了，二义了。于是裁剪计划完蛋了�?/p>
当然�Q�如果我现在来设计语法，肯定会和陈汉子一��P��直接从Use Case��p��把EBNF写出来，再稍微规范一下，一门不那么复杂的语�a��成了。当然像C++�q�种变态语�a��Q�这样做是做不出来的。但当时我显然不具备那样的能力。从七月份开始就��磕�l�绊地裁剪了一些语法特性之后的语言�Q�到了八月䆾才出了个千疮癑֭�的方案�?/p>
��：Boost.Spirit

作�ؓ完全不懂�~�译器的矬货�Q�设计语�a�一定要和编译器的开发放在一��h��能有�Ҏ��莗��我用过Flex/Bison�Q�用�q�ANTLR。但是当时我对编译器特别的陌生，�l�织Build的能力也比较弱，因此它们在��用上�J�琐和难于调试给我带来了很大的困扰。不�q�那时我�Ҏ��ѝ��元�~�程和Boost��已�l�相当熟悉了�Q�无论是开发、阅��M��码还是Debug都能��L��应付�Q�所以我挑了半天�Q�选了Boost.Spirit�?/p>
Boost.Spirit是个很奇葩的东西。它惛_��C++里面提供一个类��g��EBNF、可以定义语法分析规则的方言。要让C++看�v来像一个方�a��Q�当然是要��用神出鬼没的操作�W�重载。当�Ӟ��即便是修饰后的语法，看�v来也�q�是会有�Ҏ��怪的。EBNF中的规则
Rule ::= Token SubRule0 [OptionalSubRule1]

在Cpp中最��单可以表�C�成
rule = token >> subrule0 >> optional(OptionalSubRule1)

虽然看�v来有点丑陋，但是它已�l�完全满��一个DSL的要求了�Q�直观的面向解决�Ҏ��?/p>
不过如果牉|��到实现细节，在C++里面要写一个又��单、又可用Parser Generator�Q�那几乎是不可能完成的�Q务。�v码对于Combinator-based Parser来说�Q�它够简单，但是没有CPS的支持会令错误恢复这一�cȝ��周遭设计变得极�ؓ可怕；如果Rule只是grammar definition�Q�不牉|��C�Q何Parser的构造，那解析这个definition的复杂度和调试难度又不亚于ANTLR或者Yacc�q�样有单独脚本的工具。所以这��工作，�q�是交给Haskell�q�样的语�a�来完成吧�?/p>
通过使用Spirit、设计编译器、折腾文法，让我对Compiler和Cpp的理解都递进了一大步。再加上08�q�全�q�都在做GUI相关的东西，也让我对�~�译器的理解有所加深�?/p>
09�q�下半年我一直都比较动荡�Q�不�q�到�q�底�ȝ��是安定了下来�?/p>
3. 2009�q?2月�?010�q?月：长征的开�?/h1>
后端与前�?/h2>
09�q?2月䆾的时候，Boost升��了，Spirit也到了V2。到�?月䆾�Q�我费了点功夫，把V2的Spirit折腾到SALVIA的前端上。Parser也有所变化�Q�前一版的Parser�q�比较草率，�q�一版的Parser我几乎是完全按照Spirit的Demo中的�Ҏ��q�行的。此时我也开始尝试着撰写语义分析。怎么做函数重载都是在那个时候开始点的技能树�Q�虽然在现在看来都是歪的。�ؓ了执行生成的代码�Q�我设计了半个虚拟机�Q�然后还准备写点教程。但是我思前惛_��Q�对于Shader�q�样一�U�钟要调�?0M�ơ的函数�Q�无论如何虚拟机都是不合适的�?/p>
所以我��开始筹备自��q��后端。要求就是一个字�Q�快。那个时候，陈汉子正在学怎么写x86的JIT。但是我的语�a�到x86有很长的路要走。怎么��d��配寄存器�Q�怎么把类型�{换到x86的Native�Q�怎么选择指��o�Q�我都是一知半解的。凭我当时的知识�Q�这一定是不可能完成的�?/p>
于是在阅��d��Intel Architecture手册和优化指南后�Q�我军_��L��一个合用的后端。考虑�q�很多可选的办法�Q�例如生成C++的Code然后�~�译成DLL�Q��用Tiny C�Q�TCC�Q�；或者是JIT。但是它们缺炚w��是很明显的。编译成DLL必须要自��p��剪一个GCC出来�Q�Tiny C的效率�ƈ不是很好�Q�JIT很复杂（��L��在那个时候是�q�样�Q�。不�q?月䆾的时候，敏敏�q�是谁指点了我一下，说你可以�ȝ��看LLVM。然后我��M��看，牛��|��是我要的东西！然后我就开始学LLVM。LLVM的IR很好学，一个下午就搞了个Hello world�?/p>
�q�个时候，minmin也在SALVIA上实��C��Half-Space的光栅化��法�?/p>
那个时候我�t�躇满志�Q�意气风发，三月赶英�Q�五月超��?/p>
可没想着��p��么掉坑里面去了�?/p>
4. 2010�q?月�?011�q�新�q�_��苦难的行�?/h1>
苦难�Q�复杂的问题

��M��大�h真是��，五个字就概括了我2010�q�一�q�的努力�?/p>

minmin做的SALVIA的Half-Space��法�q�不比我朴素的Top-Bottom的光栅化强；

�U�理上的优化��管使用了SSE但是仍然改进有限�Q?/li>
Shader�~�译器本�w�的�~�译旉��׃��Spirit的存在而实在�O长；

Shader�~�译器和Pipeline如何兌��又无从下手；

LLVM的集成也因�ؓ前端而有所耽搁�Q�另外因为各�U�错误层��Z��I�P��让整个开发进度变得龟速�?/li>

所以整个一�q�中�Q�SALVIA的开发就是写写停停，停停写写。可以说08�q�初的锐气，已经消磨的差不多了。到�?月䆾的时候，我毕业了�Q�新工作也基本上��定和熟悉了�Q�我��和minmin��_��从现在开始我写半�q�报吧，讲述一下半�q�来的进展。于是便有了�W�一��项目简报�?/p>
行军�Q�些微的�q�展

也正是从那个时候，我决定要把SALVIA作�ؓ一�Ƒ֮�验品来对待，用上所有我不会的或者新学的东西。单元测试，CMake工具链，为Shader设计的Pipeline�Q�语义分析和后端的原型都在那一�q�加入了SALVIA。虽然从实现上它们已�l�与现在相距甚远�Q�但是�v码一切都�q�是往好的方向发展�?/p>
另外�Q?8�q�到09�q�期间在实习的时候积累的教训开始慢慢的酝酿和发酵，敏捷也逐渐成�ؓ了我开发过�E�中的主要指南�?/p>
基本上，那个时候积累了很多必要的经验和教训。当然绝大多数是教训�?/p>
5. 2011�q?月�?011�q?月：新Shader的�v�?/h1>
坑神�Q�Boost.Spirit的灭�?/h2>
�?1�q�的春节期间�Q�我�l�于无法忍受Spirit的麻烦了�Q?/p>

一�D?00行不到的代码�Q�在我的机器上需要编�?0分钟�Q?/li>
Object File需要占�?.9G的硬盘；

Mangling name��L��过4K字符的限�Ӟ��

��L��撑爆obj文�g的symbol table�Q�需要用/bigobj才能够编译通过�Q?/li>
甚至在编译的时候会��L��的让32位的MSVC CL out of memory�?/li>

要知道，以上�q�些�q�是应用了Spirit指南中的�~�译速度优化�Ҏ��之后的结果�?/p>
�q�一切原因，都是因�ؓBoost.Spirit对于Parser Tree�Q�是用了完全静态的分析树结构。每条规则的�q�回值都会是完全不同的类型。这直接��D��c�d��数量极�ؓ庞大�Q�代码膨胀的厉実�?/p>
于是11�q�的寒假我花�?天的旉��重新山寨了一个文法分析器的��生器�Q��ƈ做到DSL几乎完全和Spirit一致。只不过Parser Tree不再是静态类型；模板的用量也减轻了很多�?/p>
Shader的阶�D�|��成�?/h2>
��C��四月份的时候，Shading Language Semantic/System Value已经在语法上支持了，语义上也能分析出哪些变量是System Value�Q�哪些变量是Uniform的。�ƈ且通过生成�Ҏ��的函数签名，Shader满��了以下几个需求：

Shader要返回一个函敎ͼ�

�q�个函数是可重入的（因�ؓ要�ƈ发）�Q?/li>
数据能正��的从Pipeline传入到Shader的函��C��Q�也能正��的�q�回�Q?/li>
Shader中对于Pipeline数据引用要能正确的生成地址�?/li>

��C��11�q?月䆾的时候，�l�于把Shader全线贯通。虽然很多Operator和Instrinsic�q�不支持�Q�但是�v码有了个可以看的Demo�?/p>
�W�一个版本与发布前的完善工作

LLVM用上了；VS完整了，PS也有了个雏�Ş�Q�预处理器什么的都有了�?/p>
Unit Test也有了原型。我为每个Stage都做了Unit test�Q�Parser�Q�Semantic�Q�CodeGen和JIT�?/p>
某种意义上来��_��q�几个月来在后端上顺利进展，让我多少有点得意忘�Ş。再加上梁�ȝ��帮助�Q�SoftArt�q�个名字�Ҏ��SALVIA�Q�LOGO也有了，我在部门内部做的一些Introduction也帮助我梳理了思�\。于是从4月䆾开始，我就�{�备着要把SALVIA正式发布出去�?/p>
11�q?�?��P��SALVIA Milestone 1.0 发布。有Change Log�Q�有Binary Demo�Q�有Snapshot�?/p>
三周后，发布了第一个有Vertex Shader的Demo

6. 2011�q?月�?012�q?月：坂道�?.0

Pixel Shader�Q�需求与设计

在Milestone 1.0发布后，我开始做Pixel Shader的特性。本以�ؓ半年之内��p��搞定�Q�发�?.0扬眉吐气一下。但是实践证明，我真是他妈的太盲目乐观了�?/p>
我先来说一说Pixel Shader的特点和需求。比方说我有四个pixel�Q�每个pixel都是一个float�?/p>
struct pixel_input { float data; }; pixel_input pixel_block[4];

然后我要计算一下，�q�个data加上1.0之后是多��。我前面说过�Q�我要让指��o看�v来是四个像素同一时刻执行的，那么昄��我生成的代码��׃��c�M��于这��P��
struct pixel_input { float data; }; struct pixel_output { float data; }; void shading_pixel(pixel_input* in_data, pixel_output* out_data) { // TMP = IN_DATA.DATA + 1.0 float tmp0 = in_data[0].data + 1.0; float tmp1 = in_data[1].data + 1.0; float tmp2 = in_data[2].data + 1.0; float tmp3 = in_data[3].data + 1.0; // OUT_DATA.DATA = TMP out_data[0].data = tmp0; out_data[1].data = tmp1; out_data[2].data = tmp2; out_data[3].data = tmp3; }

Pixel Shader�Q�优化与问题

昄��q�里是可以优化的�Q�将四条指��o�q�作一条SIMD指��o�?/p>
那么�q�个时候，有两个需求是要满��的�Q?/p>

同样的struct member一定要是邻接在一赗��?/li>
得根据SIMD的要求数据对齐�?/li>

只有一个域当然好办。如果struct很复杂呢�Q�比方说下面�q�样�Q?/p>
struct { float; float2; int3; struct { float2[3]; float; }; };

那就会衍生出各种问题�Q?/p>

那要不要把每个域都展�q�_��Q?/li>
展��^��C��么程度？

让每个Builtin Type Member盔R��Q�还是让每个Float/Int盔R��Q?/li>
那遇到动态寻址�Q�怎么办？

展��^后的代码�Q�与VS中的代码能通用吗？

每个�Ҏ��都一定能完成�Q�每个方案都有明昄��~�陷。最初我是想��试四个像素完全独立的办法，�q�样实现��h��最方便。但是出于对性能的追求，我又惛_��展��^的。展�q�的�Ҏ��做到一半，发现太复杂了�?/p>
坑神II�Q�LLVM

此外�Q�还有几个非�怸�重的问题�Q�发生在LLVM上�?/p>
一个是ABI。一个符合C Calling Convention的LLVM函数�Q�它对堆栈的理解与VS完全不同�Q�特别是参数传入或者返回Struct的时候。这��P��直接用LLVM的函数Export出来后，让VC去Call它就一定会��p�|。�ؓ了解军_��Q�我�׃��q�两周的旉��Q�设计了一个Proxy�Q�让函数避免用Struct来传递，一切数据，除了和寄存器同样大小的float和int�Q�其余数据都通过指针来做。同�Ӟ��我需要将一些函数注入到LLVM中，比方说纹理采��P��此时ABI同样是个��患。�ؓ了让Code Gen正确的识别函数是LLVM的调用协议还是我自己定制的调用协议，�q��生正��的代码。我做了各种奇葩和傻逼的�Ҏ��。有一些方案被废弃了，但是主要的Idea�Q�仍然沿用到现在�?/p>
一个是临时变量�Q�包括Spiller�Q�的寚w��。在Linux/GCC上，栈顶和栈基指针一定是16字节寚w��的。如果编译器需要分配一个��时变量，那么它只要通过ESP - 0x10*n��p��获得一个对齐的地址。但是在VC中，x86下完全没有这��L��限制�Q�除非函��C��使用了__m128�Q�这个时候在�q�入Frame之后会有一个SUB/AND的指令把栈顶搞到16字节寚w��。）。但LLVM生成的所有代码，又是��Z��GCC的假设。SALVIA生成的局部变量，�q�可以控制地址�Q�但是对于编译器临时生成的变量来��_��完全不可控了。在3.1之后因�ؓ引入了AVX�Q�需�?2字节寚w��Q�这个问题就更加变本加厉了。在x86上，我还可以通过嵌入汇编�Q�来强制调整栈��。但是在x64上，又启动了AVX的情况下�Q�我��彻底没有办法了。这个问题一直�g�l�到现在�Q�如果我不动手去Debug LLVM的话�Q�就只能�{�他们什么时候想��h��修复�q�个问题了�?/p>
SIMD执行模型下分支的处理

Pixel Shader的执行模型是SIMD的，�q�要求每个像素上同一时刻都执行相同的指��o。如果没有分支，那自然是��单无比。一旦有了分支就打破了这个约定。在DX9.0b及之前，�q�当然没问题�?/p>
但是Shader Model 3.0正式支持Dynamic Branch开始，�q�个问题��凸现出来了�Q�分支要怎么处理�Q?/p>
对于Pixel Shader来说�Q�会面��三种分支�Q�静态分支，准静态分支（�q�个名字是我瞎�v的）和动态分支�?/p>
float branches( uniform float udata, float vdata: POSITION): COLOR0 { const float zero = 0.0; if(zero < 1.0) { // Static branch } if(udata) { // Semi-Static Branch (我自己造的) } if(vdata) { // Dynamic Branch } }

我们来分情况讨论一下：

对于静态分支来��_��因�ؓ��定分支的是一个常量，那么昄��在编译阶�D�就能够知道分支执行与否�Q�直接生成对应的代码��可以了�?/li>
对于uniform作�ؓ判断条�g的分支来��_��在shader�~�译的时候，�q�不知道�q�个分支是否会执行。但是呢�Q�Uniform会在Shader执行前设�|�，和代码执行相比，Uniform讄��的比例非�怽�。这个时候我们可以先讲代码编译成中间表达�Q�这个中间表达会知道一个变量是不是Uniform的。在Uniform讄��好后�Q�Shader真正执行前，把Uniform替换成那个��|��也就是把Uniform当做帔R��Q�对Shader再编译一�ơ，得到真正的执行指令。所以在指��o执行的时候，准静态分支就和静态分支完全相同了�?/li>
最后一个，动态分支。如果判断条件就是动态的�Q�那没办法，如果要支持SM3.0�Q�就必须要能支持它。同时对于不同的Pixel�Q�都可能有不同的分支。这对于SIMD来说�Q�才是真正的��N��?/li>

实际上，我们真正要解决的�Q�就是动态分支�?/p>
对于SIMD模型来说�Q�动态分支有三种处理办法�?/p>

跌��{执行。像CUDA 2.0以上那样的指令集具备有一定的跌��{执行能力。编译器可以把SIMD拆开�Q�按照标量执行。每个都执行完了后，再��l�按照SIMD执行其他的代码�?/li>
条�g执行。这也是囑�Ş��g上最常见的执行模式。通过一个位�Q�就可以军_��GPU中的执行单元是否执行一�D�代码。�D个不准确的例子，如果是个4�q�发的执行器�Q�那么四个�ƈ发执行器的执行条件可以设�|��ؓ1100�Q�这样就只有前两个单元的数据执行�Q�后两个不执行了�?/li>
写掩码。这个办法是没有办法的办法。它的基本理念就是：只要不写到内存中的执行结果，��可以认为它没执行过。但是写掩码��L��费了指令。不�q�好歹它�q�是避免了蟩转的。所以对于早期的ARM�q�样没有分支预测的精��体系来说�Q�一旦有分支执行��h��是�ȝ��。所以它有类��g��Select-Store�q�样的指令，��可能的避免分支的出现�?/li>

对于SAVLIA来说�Q�蟩转执行和写掩码是两个可能的选择。因为写掩码的代码生成�v来更加轻松一些，所以目前的SALVIA的实现是写掩码的。在x86/x64�q�_��上，对于AVX以上的指令，�q�可以用blend。但是对于其他指令而言�Q�基本上只能是通过跌��{实现写掩码。所以这部分的开销其实很大。等到造出了自��q��SSA之后�Q�再来考虑分支执行的事情吧�?/p>
对于写掩码的掩码要怎么计算�Q�一开始我心里挺没��q��。特别是有了�Q�Continue和Break之后�Q�情况就会变得复杂�v来。一开始我没法��信自己的方案是正确的。后来看了MESA的Gallinum以后�Q�看见了Continue Mask和Break Mask两个变量�Q�瞬间就明白了�?/p>
具体怎么思考的不多说了�Q�这里写下几个结论：

语言不能有Goto�Q�有Goto会让代码变得非常复杂�Q�甚至不可解�Q�；

所需要的掩码的数量会随着循环的嵌套层数的增加而增加；

每个循环最多有三个掩码�Q�Break�Q�Continue和Mask�Q?/li>
�E�序是固定的话，掩码的数量就一定是个常量。（要不然硬件就没法做了�Q?/li>
写掩码的位数只和执行单元的数量有养I��和嵌套深度无兟�?/li>

坂道のTest

��管遇到了各�U�难处，但是很多�Ҏ��q�是��利的做出来了。方案和�Ҏ��之间差异很大�Q�要想顺利移植，必须要有Test�?/p>
之前也说�q�，一开始我的Test是按照Parser�Q�Semantic�Q�Code Gen�Q�JIT分开做的。但是呢�Q�这样一来，不同Stage之间的Test复用性非帔R��。而且因�ؓStage�l�常变化�Q�包括Stage的接口。这时候Test��完蛋了。Test本��n也很枯燥�Q�变量名都不好�v�Q�，所以Test重写��h��难过的要歅R�?/p>
于是我重新审视了一下需求。发现我最�l�只兛_��JIT�~�译出来的函数的�q�行�l�果�Q�其实�ƈ不关心中间的�q�程。而且随着我对�~�译�q�程理解的逐步变化�Q�Compiler Stages几乎每隔两个月就要进行比较大的修正。测试的量稍微大一点，��没有办法维护Test Case了。�ƈ且，对于单条语句或者非常短的函数来��_��从词法到最�l�JIT出来的函数所覆盖的编译器代码非常之少�Q�可�?-4个函敎ͼ�代码��出来了。即便有问题�Q�对比过�ȝ��版本��L��p��分析出来。再加上大量的Assertion�Q�诊断�v来更加容易�?/p>
因此�Q�在�q�几个月中我完全重写了Test Case�Q�让JIT的测试粒度更低，��试更丰富；取消所有的中间Level的测试。新的测试回归�v来非常容易，��Z��问题也很好找到。在Test Case写完后，正好看到Martin Fowler喯��度TDD的问题，真是感同�w�受�?/p>
��试需要吗�Q�当焉��要。但是选择合适的Level�Q�做合适的��试是非帔R��要的。结合之前实习的时候的Unit Test�l�验�Q�有以下几点感受�Q?/p>

��试一定要选择��可能低的面�Q�这��L��涉的代码��尽可能��；

在纵向上�Q�粒度要�l�。除了单个API的Test�Q�还要有适度的交叉，不过太综合的��试�Q�请让集成测试用例来完成�Q?/li>
要重视代码覆盖率�Q?/li>
��试面向的API要稳定。天天变得API会让你彻底失��d��Test的信心。API��稳定，在它上面出现问题的机会就��多�Q�你写的��试性�h比也��高�?/li>

坡长路远�Q�小步快�?/h2>
在完成了Test的改造后�Q�终于有了一个合适的发布前评估。所以到�?1�q?1月后�Q�发布的速度��明昑֏�快了许多。快速的发布对于做一个长期项目来说非帔R��要。这也和敏捷的想法不谋而合。不��是从品质控制上、还是进度追�t�上�Q�或者是说对开发者自信心的增强，都需要有短��^快的开发周期�?1�q�也正好是Autodesk推行敏捷的一�q�。同事里面有很多的�h反应说敏捷会��D��软�g品质的下降，短期目标会导致过于追逐眼前利益�?/p>
但是从我的经验来看，对于个�h�Q�敏捯��短��^快。但对于团队�Q�敏捯��从长计议。不是所有的iteration都需要开发新�Ҏ��，必须要保留��够的iteration来完成重构、整理、设计方案的反省和讨论。对于以�q��ؓ单位的长周期产品来说�Q�可以每个季度有3-5天的旉��Q�每个�h都提出对框架的改�q�计划；每年有两周的旉��Q�完成框架的重构和修正。更��的重构�Q�可以安排的更加短小的时间�?/p>
6. 2012�q?月及以后�Q�现在与未来

新特性，新思�?/h2>
�?1�q?月䆾开始到现在�Q�就一直在做Demo、优化、特性的完善�Q�以及一些新�Ҏ��的思考�?/p>
�ȝ��来说�Q�这一�q�半的时间里面，很多工作已经不像早先几年做的那么吃力�Q�但是仍然在很多的点上有所斩获�?/p>

整个�~�译器后端，包括基本的分析和优化都已�l�有所了解�Q�LLVM也熟悉了许多�Q?/li>
对Shader相关的API的了解也不再應|��懂懂�Q?/li>
对于语言机制的研�IӞ��加上陈汉子时不时抛来的一些思维发散题��o我对语言有了更深入的认识�Q?/li>
认识了RFX�Q�在短短几周��帮助我在阅读V8和LLVM时积累的一些知识�{化成了有用的理解�?/li>

�?012�q�底为SALVIA�q�行了局部的重新设计�Q�也是“学”与“习”的��C��轮“习”。新的SSA及Shader优化、JIT化的��线、对性能有要求的新前端、瞄准DX11以上Shader Model Features、JIT的调试符��P��q�些一定会�l�我带来许多�l�尽脑汁想不明白的问题，但同时我也会学习到、实践到许多新的知识�?/p>
我相信时间会教给我们一切�?/p>

�I�明��{ 2013-01-13 05:00 发表评论

�I�明��{ — Thu, 08 Mar 2012 13:25:00 GMT

1. Diagnostic需要提供哪些数�?/p>
出错处理和错误提�C�，是编译器开发过�E�中重要而繁琐的部分�?/p>
诊断信息的格式因�~�译器和IDE而不同�?/p>
SALVIA��采用Visual Studio的格式，�?文�g + 行列 + �c�d��Q�等�U�） + �~�号 + 出错信息。例如：

d:\programming\salvia\sasl\test\cgllvm_test\function_test_basic.cpp(16): error C2061: syntax error : identifier 'te'

因此在出错分析的时候，也需要提供如上的一些信息�?/p>

2. 诊断信息Diagnostic Item

在以上信息中�Q�文件名和行列号可以在词法分析的时候获得，我们��它作�ؓ属性附加在Token中�?/p>
�c�d��和编��P��对于同一个编译器而言是相对固定的�Q�尽��我们可以用ID来表�C�，但是它�ƈ不直观，�~�译器检查也较少。与参数匚w��Ӟ��也比较容易出错�?/p>
SASL中的诊断信息��每个错误都使用一个类型来表达�Q?/p>
class diagnostic_item { }; class unrecognized_identifier: public diagnostic_item { public: unrecognized_identifier& token( token_t tok ); private: static int level; static int id; static std::string description_template; private: std::string ident; size_t row, col; // Other properties };

�q�样的好处在于可以用Combinator的风格来撰写错误信息。例如这��P��

diagnostic_chat.report().token( err_tok );
�q�且�׃��~�译器的保证也比较不�Ҏ��写错�?

但是�q�种写法也有一个很关键的问题，需要�ؓ每个错误都定义一个类�Q�工作量很大。SASL对这一问题的处理，自然是传�l�的大杀器：�q�用脚本�q�行生成�?
Clang使用了它内置的代码生成工具td来完成生成的工作�?

3. 诊断信息��理器Diagnostic Chat
Chat是诊断信息的��理工具。它主要要完成以下需求：��d��和清理诊断信息，以及在诊断信息的��d��清理时提供回调操作�?
后者是很有用的�Q�尤其是在调试编译器的时候。你得分清楚�I�竟是真正的�E�序错误呢，�q�是�~�译器出了错�?
Diagnostic Chat的原型如下：
class diagnostic_chat { public: template <typename T> T& report(); void add_report_diagnostic_handler( DiagnosticHandlerT handler ); };

同时�Q�我们也��Treat Warning As Error�Q�Error Count�Q�Disable Warning�Q�Stop compiling when error occurs�{�状态和功能所需要的支持��d��到Chat中�?
所以，Chat除了提供��理之外�Q�也要具有相应的诊断信息的统计功能�?

4. �q��o器Diagnostic Filter
Filter主要配合IDE使用�Q�从Chat中取出符合条件的诊断信息。Error Count和Disable Warnings�{�功能也可以通过它来完成�?

5. Formatter
Formatter用于��DiagnosticItems中的信息转换成�h可读的字�W�串。目前SASL只打��支持Visual Studio的格式，但是�怿�支持GCC的格式以更好的和Eclipse�{�第三方IDE集成�q�不困难�?
在C#里面�Q�我们可以用“We need ‘{0}�?not ‘{1}�?”这��L��方式来分��description template�q��g期的产生格式化的字符丌Ӏ�但是在C++中，�q�种做法�q�不�Ҏ��。C的sprintf很难��h��延期、渐增的�l�定模板的特定，对自定义�c�d��的字�W�串化的支持也不��I��c�d��安全也比较差�Q�而stream的话�Q�也会面临着��好端端的格式化字符串割裂的问题。SASL使用了boost.format�Q�从一定程度上搞定了这两个问题�Q�从而像C#一��P��使用格式化字�W�串的功能�?/p>

�I�明��{ 2012-03-08 21:25 发表评论

�I�明��{ — Tue, 06 Mar 2012 09:41:00 GMT

SALVIA 0.3 出炉了！

�q�是�?010�q?月䆾以来�Q?SALVIA Milestone 1.0之后最重要的发布！

0.3开始，SALVIA正式支持了Pixel Shader�?/p>
�?008�q�中开始的Shader设计与实现工作基本完成�?/p>
未来一�q�内�Q�SALVIA的工作将集中以下几点�Q?/p>

在Shader�~�译器的完善上，比如友善的语法和语义错误提示�?/li>
提升与管�U�的集成度，�q�而充分提升性能�?/li>
�~�译器和�~�译器生成代码的优化�Q�提高Shader的编译速度和运行速度�?/li>
新的囑�Ş�Ҏ��，如各向异性过滤等�?/li>

随着SALVIA整体的逐渐成熟�Q�我们也希望有其他的朋友能来参与和支持这个项目，一同进步�?/p>
如果您希望参与到�q�个��目中，请mail联系我：wuye9036 __at__ gmail dota com.

�I�明��{ 2012-03-06 17:41 发表评论

�I�明��{ — Fri, 24 Feb 2012 08:56:00 GMT

SALVIA 0.2.5 发布�Q?br>

��目主页�Q?http://code.google.com/p/softart/

更新列表如下�Q?/p>

0.2.2 - 0.2.5 (Feb 24, 2012)

版本名称发生变化�Q�从原先的Milestone X fix Y的命名方式正式更��Cؓ与主版本相同的版本号序列�?
取消了对DirectX的强制依赖�?
��d��了对Visual C++ Express的支�?
Pixel Shader �q�一步增强：
          1. 提供了对分支语句 if 的支�?nbsp;
          2. 支持 for, while, do-while 循环
          3. ��d��了新的内建函敎ͼ�ddx ddy dot cross sqrt
          4. ��d��了纹理取样函�?strong>tex2D的原�?

对Rasterizer�q�行了进一步的优化
修正了以下问题：

1. 在x86上执行vertex shader时可能会Crash的问�?br> 2. 不能再build配置文�g中指定CMake路径的问�?br> 3. 一些表辑ּ�调用时报告函数重载错误的问题

�I�明��{ 2012-02-24 16:56 发表评论

SALVIA正式支持一站式�~�译

�I�明��{ — Mon, 26 Dec 2011 13:09:00 GMT

SALVIA在Milestone 1.2 Fix 2中，正式提供了一站式�~�译脚本的支持�?/p>

��目主页�Q?a title="http://code.google.com/p/softart/" >http://code.google.com/p/softart/

新的�~�译步骤如下�Q?/p>

1. 下蝲最新的CMake�q�安装�?/p>

2. 下蝲Python 2.7�q�安装�?/p>

3. 下蝲boost 1.44或更新的版本�Q�解压到某个目录下�?/p>

4. Clone或下载SALVIA代码包，执行根目录下的build_all.py文�g。第一�ơ运行的时候会生成一个project.py�Q�编辑project.py讄��相应属性，包括boost代码目录�Q�编译器�Q�configuration�{��?/p>

5. 再次�q�行build_all.py�Q�编译程序�?/p>

�I�明��{ 2011-12-26 21:09 发表评论

LLVM随笔

�I�明��{ — Tue, 22 Nov 2011 13:04:00 GMT

1. LLVM在x86和x64下都和Microsft C++ ABI的吻合程度不够。目前已知在以下情况下会出错�Q?br />

参数为结构体�?/li>
�q�回��gؓ�l�构�?

以下情况我没有完整测试过�Q?

�q�回��gؓ单个��点
�q�回��gؓ向量�Q�_m128 / <4 x float>�Q?
参数为向量（_m128 / <4xfloat>�Q?

所以徏议大家统一��是�l�构体的�q�回值和参数以引�?指针的�Ş式传递�?br /> 对于大小�?个或�?个字节的�l�构体如果希望按��g��递，那么需要在LLVM函数的签名上使用i32/i64作�ؓ参数�c�d��Q��ƈ使用bit cast在函��C��内强制�{换成�l�构体�?br />
2. LLVM提供了很多的Intrinsics�Q�例如SSE指��o集。它在Module上提供了一个getOrCreateTargetIntrinsic�Q�但实际上这个函数是坑爹的。有两个�Ҏ��可以正确的创建�ƈ获取指��o集：

使用Module::getOrInsertFunction( intrinsic_name, intrinsic_function_type )。它会自动识别intrinsic的名�U��ƈ创徏function或者是intrinsic。指令需要��用全名。例�?llvm.x86.sse.sqrt.ps.
或者��用Ilvm::Intrinsic::getDeclaration( id ) 来创建。这个id可以在intrinsics.gen中找到�?/li>

因�ؓLLVM生成的Intrinsic是全�q�_��的，所以可以在x86上指定ARM汇编的生成，反之亦然�?br />
3. 默认情况下，LLVM的JIT是不会启用InliningPass的，Optimization Level指定为Aggressive也不会。这意味着inlinehint和alwaysinline都是失效的。如果需要inlining得自�׃��改JIT的源代码�?br />
4. UndefValue是个好东�ѝ��这个常量可以��生成的汇�~�少一条初始化指��o。比方说�?初始化，可能对应的汇�~�就�?xor reg, reg。如果用了Undef�Q�那�q�条指��o��没了�?br />
5. TypeBuilder很好用，只是不能生成struct�{�复杂的�c�d��。不�q�你可以对它做一些修改以让它支持struct和vector。这个时候Boost.MPL��p��z�上用场了。不�q�要当心MPL带来漫长的编译时间�?

�I�明��{ 2011-11-22 21:04 发表评论

LLVM的调用协议与内存寚w��

�I�明��{ — Wed, 17 Aug 2011 05:58:00 GMT

在设计一门语�a�与其他语�a�交互的API与ABI�Q�Application Binary Interface�Q�二�q�制接口�Q�时�Q�调用协议和内存寚w��是两个无从回避的问题�?/p>

本文��讨论如何在LLVM上生成正��的内存寚w��和调用协议的代码�?/p>

在这里�ؓ了方便和标准赯��Q�假定应用LLVM的语�a�的Extending和Embedding的对象都是C�?/p>

调用协议

先来讨论调用协议。调用协议用于保证调用方和被调用方在二进�?汇编一�U�上是相容的。合适的调用协议可以帮助构造出以下代码�Q?/p>

// Callee Signature of LLVM code
void __cdecl foo( int a, float b, float4 c);

// C caller
typedef void (__cdecl* fn_ptr)(int, float, float4)
fn_ptr p = static_cast( get_jit_function("foo") );
p(1, 1.0, vec);

一般来说调用协议包括参��C��递和�q�回��g��递和堆栈�q��三个部分。在x86�q�_��上的C/C++�~�译器中常见的调用协议有cdecl, fastcall和stdcall。具体的协议内容请参见MSDN�?/p>

在C++中还有一�cȝ��D�的调用协议thiscall�Q�用于调用对象的成员函数。但是这一�c�调用协议不同的�q�_��Q�不同的�~�译器实现皆有不同，既无书面标准�Q�也无事实标准，再加上virtual call�{�复杂的情况存在�Q��ƈ不适合用于做跨语言的调用�?/p>

对于x64�q�_��而言�Q�在windows下和linux下分别有两种调用协议�?/p>

先来看x86。由于x86在cdecl和fastcall上是有着跨��^台的标准的，因此LLVM对它的支持是比较完整的。程序只要在创徏Function的时候指定Call Convention卛_��?/p>

但是对于x64�Q�LLVM的支持便不是那么完善。以windows��Z��Q�windows的x64调用协议要求以rcx�Q�rdx�Q�r8�Q�r9寄存器传递前四个不大�?4bit的参敎ͼ�其余参数攑֜�栈上。如果参数大�?4bit�Q�则要求传递它的指针。��Q点��用xmm0-3来传递。但是对于LLVM而言�Q�一旦参数大�?4bit�Q�它便会��整个对象而不是指针压到栈上传递。因此在遇到x64�Ӟ��需要小心处理API部分的调用协议�?/p>

在这里，我们需要将所有超�q?4bit的结构体处理成指针（或者拷贝后处理成指针）传递�?/p>

同时�Q�LLVM提供了readonly和byval两个参数属性（Attribute�Q�来��保参数的��D��义。前者意味着传入的指针所指向的值是不被修改的，�Q�类��g��T const*�Q�，而后者会对传入的指针做一份内存拷贝，��保写��g��被传递出函数�Q�类��g��值拷贝）。这��P��LLVM生成的函��C��可以MSVC生成的x64代码正确调用了�?/p>

内存寚w��

与移动��^台的体系�l�构相比�Q�x86对内存对齐的条�g��是相当宽松的了。大部分的指令对内存寚w��基本上是没有�Ҏ��要求的。只有一些SIMD的指令会对内存对齐有所限定�Q�例如movaps�?/p>

��Z��方便后端生成SIMD代码�Q�LLVM提供了vector�c�d��Q�例如vector。在代码生成的时候，vector会编译成最有可能的SIMD�c�d��。因此在x86�q�_��上，vector都被处理成类��g��__m128的类型，更长的vector则被拆分成多个__m128�c�d��?/p>

�q�实际上意味着�Q�所有的vector都应该遵�?6Bytes寚w��的原则�?/p>

考虑到我们的需求，�c�M��于struct{ float[3]; }�q�样的结构，如果能表�C�Zؓvector昄��适合一些数学运��，例如shuffle�Q�逐元素的add�Q�sub�Q�mul�Q�同时LLVM指��o的选择也更加灵�z�R��但是显�Ӟ��q�个�l�构体有两个条�g是不满��的：16字节寚w��?6字节的大��（movups和movaps都是一�ơ取16字节�Q�。这会造成边界下读写的内存��界。因此非常可惜，�q�些数据必须表示为struct{ float ,float, float }。在��d��的时候，也会生成正确的指令：movss�?/p>

那么�Q�对于一般的非对齐的vec4应用vector行不行呢�Q?/p>

�{�案是，很困难。对于LLVM而言�Q�他们在设计的时候就没有�q�多的考虑vector在非寚w��时候的应用。尽��load和store都能够指定alignment以生成非寚w��的内存操作（例如movups�Q��ƈ且确实会��h��Q�但是由于代码优化、��时存取等�Ҏ��的存在�Q�导致一些非load和store的内存操作仍然是要求寚w��的（例如生成了addaps xmm, [addr]�Q�。此时仍然有可能为非寚w��的数据生成了内存寚w��的指令�?/p>

因此�l�合权衡�Q�SASL在API界面上��用了struct{float x,y,z,w;} �q�样的ABI来表�C�数据，在代码生成时�Q�会首先��struct的数据�{换成vector�Q�然后再执行其它的操作，兼顾ABI与SIMD�Q�同时对于Intrinsic�Q�由于�ƈ不暴露给Host�Q�所以它们仍然尽可能使用Vector�Q�便于LLVM�q�行优化�?/p>

�I�明��{ 2011-08-17 13:58 发表评论

SALVIA Milestone 1.1 Fix 1: 新Sponza Demo

�I�明��{ — Sun, 17 Jul 2011 09:46:00 GMT

��目主页�Q?/font>

http://code.google.com/p/softart

源码下蝲地址�Q?/font>

Zip格式�Q?a title="https://bitbucket.org/wuye9036/salvia/get/tip.tar.bz2" >https://bitbucket.org/wuye9036/salvia/get/tip.tar.bz2
Mercurial地址1�Q?a href="https://wuye9036@bitbucket.org/wuye9036/salvia">https://bitbucket.org/wuye9036/salvia
Mercurial地址2�Q?a >https://code.google.com/p/softart/

版本�Q?/font>

Milestone 1.1 Fix 1

更新记录�Q?/font>

��d��了了新的Demo�Q�Sponza
Wavefront Obj��d��?2位烦引的支持�?
修复�?Wavefront Obj 错误的顶点共享的问题�?
修复�?Mip-map 计算错误的问题�?
修复了对多边形错误剔除的问题�?/li>

Demo下蝲�Q?/font>

下蝲地址

Demo截图�Q?/strong>

�I�明��{ 2011-07-17 17:46 发表评论

欧美日韩三级电影在线,国产色爱av资源综合区,一区在线视频观看

梗概

背景

插值算法的选择

本轮优化之前�Ҏ��值算法的优化���试

首轮优化�Q�unproject函数�Q�operator += �?operator =

二轮优化�Q�插值算法的调整

三轮优化�Q�减���内存占用，��x��花明

四轮优化�Q�精度敏感性下降的额外�U�利

�l�论

1. 2007�q?�?- 2007�q?2月：可笑的动机，可笑的雏�?/h1>

��Z��么要有Shader Compiler

2. 2008�q�初 - 2009�q?2月：黎明前的黑暗

���：Boost.Spirit

3. 2009�q?2月�?010�q?月：长征的开�?/h1>

4. 2010�q?月�?011�q�新�q�_��苦难的行�?/h1>

苦难�Q�复杂的问题

行军�Q�些微的�q�展

5. 2011�q?月�?011�q?月：新Shader的�v�?/h1>

�W�一个版本与发布前的完善工作

6. 2011�q?月�?012�q?月：坂道�?.0

Pixel Shader�Q�需求与设计

Pixel Shader�Q�优化与问题

坑神II�Q�LLVM

SIMD执行模型下分支的处理

坂道のTest

6. 2012�q?月及以后�Q�现在与未来

SALVIA正式支持一站式�~�译

LLVM随笔

LLVM的调用协议与内存寚w��

SALVIA Milestone 1.1 Fix 1: 新Sponza Demo

本轮优化之前�Ҏ��值算法的优化��试

三轮优化�Q�减��内存占用，��x��花明

��：Boost.Spirit