置頂隨筆 #

[置頂]SALVIA：A Direct 3D 10 Similar Software Renderer 項目新成員招募計劃

SALVIA是一款光柵化的軟件渲染器，設計目標是達到Direct3D 10/11的核心功能的實現。我們的設計目的主要包括以下幾點：

一個高度可移植的光柵化圖形管線的軟件實現
圖形硬件工作原理的展現和教學
為下一代Many Core處理器架構的計算設備提供高性能的圖形繪制能力
提供在GPU一類的流處理器上難以實現，但在Many Core架構的設備上有著顯著優勢的Features
比圖形API更加易于使用的接口
與復雜的渲染技術（如輻射度和光線追蹤等）相結合的可伸縮的渲染體系，研究可以提供速度-質量相均衡的渲染架構

SALVIA的接口重點參照了DX10的設計。
以流水線劃分Stage；每個Stage及其相關設施的接口，均采用了Object-Oriented的設計風格。
這種設計與D3D9和OGL的狀態機風格的設計相比更易于使用，同時也降低了流水線前后級的耦合，對于優化或擴展都是有利的。

目前，SALVIA已經具有了完整的D3D9的流水線級，并有了基本的Demo。
在未來，SALVIA將在維持內核穩定的同時，通過擴展提供先進的圖形技術支撐。
同時，我們還將嘗試著將一些不易在GPU上實現的算法，以擴展的形式在SALVIA中實現出來，以期提供高于圖形API的表現和特性。

SALVIA在近階段的主要工作包括：

Rasterizer的優化
SALVIA Shading Language語言特性設計及編譯器實現，為SALVIA提供文本化的Shader
MSAA，并提供可定制的Sampling Pattern（2x 和 4x，目前尚有Bug）
EWA-based Anistropic Filtering
以擴展形式提供的Geometry Shader，Hull Shader和Tesselassion Shader
并行優化（持續優化中）
Intel SCC的移植
特性及性能的演示用例
文檔撰寫（已經有成員負責此事）

目前，SALVIA已經作為一個開源項目發布在http://code.google.com/p/softart上，最新的代碼在Mercurial中。
所有代碼除特殊聲明外，均為GPL 2協議，您可以在協議許可的范圍內自由下載或使用。

如果發現了軟件的缺陷，或者有任何好的意見和建議，您可以在項目管理頁面上留言，或者聯系作者
wuye9036@gmail.com
minmin.gong@gmail.com
我謹代表項目全體成員及用戶，對您為本項目的發展做出的獨一無二的貢獻表示敬意和感謝！

作為一款基于GPL2協議的開源光柵化渲染器，SALVIA的目的當然不僅僅是軟件產品那么簡單。
我們也希望以SALVIA為基礎，建設一個充滿智慧與活力的社區。
這個社區里，每一個智慧的閃光，都能夠給其他人以啟迪；每一個智慧的閃光，都能夠使SALVIA向更好的方向邁出一步。

隨著SALVIA框架的完成，SALVIA復雜而有挑戰性的特性擴充工作已經擺在面前。
無論你

是喜歡Irregular Z Buffer一類不走尋常路的硬件架構技術，期望實現自己的硬件架構；
還是癡迷于運用最新的圖形學理論，制作讓人眼花繚亂，嘆為觀止的Demo；
還是希望將SALVIA與商業產品相結合，使其想用戶所想，為用戶所不能為；

我們都以100%的熱忱歡迎您。

為了維持SALVIA核心框架的穩定性，保證代碼質量，我們計劃將全部的Project Members分為核心組和開發者組兩部分。

核心組暫時由空明流轉(wuye9036@gmail.com) 和 Minmin.Gong(minmin.gong@gmail.com) 組成，主要負責架構設計，Shading Language語言標準的制定，SALVIA內核的開發，設計文檔和接口約定的撰寫，以及主分支的維護工作。

開發者組將按照工作內容大致分為三種：

文檔組：主要負責注釋和文檔的撰寫工作等
編譯器組：負責編譯器Host特性和Language Bridge的設計和擴充，編譯器維護，性能調優等
擴展組：撰寫設備或輔助庫擴展，如Geometry Shader的Host代碼，數學庫等

現有開發組成員均具有6-12年不等的開發經驗，多數在業內著名企業擔任主要開發人員或技術負責人的職位。

我們對開發組成員充分信任，開發組成員將在各自的分支上完成開發工作，在您工作的分支上，您享有完全的寫權限。
我們將按期進行所有分支修改的Review工作，并邀請您參與到Review中來，您既是分支的作者，也是其他分支的審閱者。
如果您的修改通過了Review并采納到主分支中，我們希望能在您的協助下，將您對SALVIA的所思，所想，所為，原原本本的融入到SALVIA主分支中，令它如您所想般的成長。
同時，核心組將會視情況，組織線上或線下的技術交流活動，與大家一起交流技術心得、分享管理經驗。當然，也會分享快樂的人生。

如果您希望加入我們這個團隊當中，為我們的團隊，為SALVIA提供您寶貴的支持，請您準備好您的以下資料：

ID：常用的ID，最好包括真實姓名
Google Account：如果沒有，可以申請一個。因為我們的SVN Repository是建立在Google Code上的）
聯系方式：IM（QQ,MSN,GTALK）和Email，有手機最好
自我介紹：包括擅長的技術啦，項目經驗啦，閑扯也可，呵呵
希望參與的工作
其他要求：唔。。。隨便什么要求

發送至郵箱 wuye9036@gmail.com，或在此站點以站內信的方式發送與我。我將盡可能的與您聯系并面議。

我們真誠歡迎您的參與，并對您的加盟，表示真心的感謝和由衷的期待！

posted @ 2009-12-07 10:31 空明流轉閱讀(3419) | 評論 (15) | 編輯收藏

2014年1月14日 #

2013總結

以前的時候話多，能寫很長。工作以后人越來越懶，也越來越不能寫了。總體來說13年干掉的事情比較多，但是得到的成長比較少。最重要的當然是把結婚證領了。這個本來就在計劃內，沒啥好說的。然后就是來了X康。雖然去年底就把面試什么的走完了，但是二月底我才拿到offer，三月初才入職，然后9月份就忙著領證，十月份開始就是辦簽證，準備搬家，諸如此類日常瑣碎的事務。十二月份整個月都耽誤在Relocation上。自己的項目方面，就是想明白一些事情后，緩慢更新SALVIA。開了一些坑，比如CppTemplateTutorial。但是沒有一個坑是填平了的。估摸著，2014年大概和今年的狀態接近。買車，把老婆弄過來，婚禮，省錢準備接下來的生活，有時間的話就填坑（你們有什么C++ Template的問題都來問吧。。。）。

posted @ 2014-01-14 10:07 空明流轉閱讀(3403) | 評論 (6) | 編輯收藏

2013年2月11日 #

SALVIA 0.5.2優化談

梗概

SALVIA 0.5.2 的優化經歷是一個“跌宕起伏”的過程。這個過程的結果很簡單：

在Core 2 Duo T5800(2.0GHz x 2)上，Sponza的性能提升了60%，ComplexMesh性能提升了26%。

背景

SALVIA的整個渲染流程主要是以下幾部分：

根據Index Buffer獲得需要進行變換的頂點；
將頂點利用Vertex Shader進行變換；
將變換后的頂點，輸出成若干個float4；
將三角形光柵化。SALVIA的光柵化是將三角形拆分成4x4的像素塊若干，不滿的塊有掩碼來處理；
將像素進行插值；
插完值后把像素送到Pixel Shader中處理一趟；
處理完的結果用Blend Shader塞到Back buffer里面去。

用于測試的場景：

Sponza 26萬個面，20個左右的Diffuse紋理（1024x1024）；
PartOfSponza 約200個面，4個Diffuse紋理（1024x1024）；
ComplexMesh 兩萬個面，無紋理，有個能量保守的光照。

最初的版本（V1231）中，性能的主要瓶頸在插值階段，各種耗時林林總總占了一半以上（50% - 70%）。

相比之下其他階段對性能的影響要么有限，要么沒有多少優化空間。所以最近一周的優化，就都集中在了“插值”上。

插值算法

線性的插值算法常見的實現有兩種，

第一種是拿UV插值，第二種是用ddx和ddy累積。

UV是先計算像素的u和v（基本方法是用面積比，不記得就復習一下中學幾何吧），然后用插值公式：

pixel = v0 * u + v1 * v + v2 * (1-u-v)

后者的步驟是選一個主頂點，然后計算這個頂點的ddx和ddy，最后用

pixel = v0 + ddx * offset_x + ddy * offset_y

計算出相應頂點。

但是在圖形學中，我們還需要對插值進行透視修正，獲得在3D空間中線性的插值結果。

我們將步驟修正到透視空間：

先將v0，v1，v2弄到透視空間中，變成projected_v0, projected_v1, projected_v2

對于UV的插值是

pixel = ( projected_v0*u + projected_v1*v + projected_v2 * (1-u-v) ) / pixel_w

對于用ddx和ddy的累積公式是：

pixel = ( projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y ) / pixel_w

插值算法的選擇

何詠（Graphixer）大神之前也寫了一個渲染器，比我快許多（大概是4-6倍），用的是UV；

gameKnife大神兩個禮拜寫成的渲染器，速度比我用五年寫出來的半成品要快7倍，用的辦法是Lerp到Scanline上，再Lerp到像素。

SALVIA采用了累積法：

struct transformed_vertex { float4 attributes[MAX_ATTRIBUTE_COUNT]; };

transformed_vertex projected_corner;

// 計算角點的坐標
projected_scanline_start = projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y; 

// 像素的透視修正值
float inv_w; 

// 最終輸出的4x4個像素
pixel_input px_in[4][4];

for(int i = 0; i < 4; ++i)
{
  projected_pixel = projected_scanline_start;
  for(int j = 0; j < 4; ++j)
  {
      // 透視空間轉換到線性空間并輸出到px_in中
      px_in[i][j] = unproject( projected_pixel );
     // 累加x方向上的值（透視空間）
      projected_pixel += projected_ddx;
  }
  // 累加y方向上的值（透視空間）
  projected_scanline_start += projected_ddy;
}

本輪優化之前對插值算法的優化嘗試

注意那個MAX_ATTRIBUTE_COUNT，這個值通常比較大，在v1231中，它是32。

不過，顯然我們不需要對所有的屬性進行計算。敏敏在這里運用了一點小小的技巧進行了優化：只計算必要的屬性。同時，為了減少分支的使用，他甚至用

template <int N>
void sub_n(out, v0, v1 )
{
    for(int i = 0; i < N; ++i) {
       out.attributes[i] = v0.attributes[i] – v1.attributes[i];
    }
}

并配合函數指針的方法，以促使編譯器展開循環，減少分支。

不過從實際生成的匯編來看，這個部分并沒有被展開到期望的形式，可能是編譯器認為x86的Branch Predication性能已經足夠高了吧。

這個“優化”在v1231中就已經具備了。

首輪優化：unproject函數，operator += 與 operator =

第一個Profiling是用BenchmarkPartOfSponza和Sponza跑的；unproject，operator +=和operator = 加在一起大約占用了15-20%的時間。單獨的unproject

最初的實現就是普通的標量。既不要求對齊，也沒有使用SIMD。

所以當然會以為用了SIMD后，優化效果會很好。于是在v1232中，中間頂點和像素輸入的分配都以16字節對齊，unproj，+=和=也都使用了SSE進行了重寫。

從跑分來看，PartOfSponza性能提升了20%。但是，在測試ComplexMesh和Sponza時，并未發現幀率有顯著提升。

其實在進行優化之前，何詠就告誡過我，因為現代CPU的一些技術，比方說超標量啥的，四個數據寬度的SSE和標量運算相比，就只有50%的性能差距。

并且這些函數的指令已經極為簡單，瓶頸也很明確的落在計算指令上。例如Unproject優化后，性能焦點就落在_mm_mul_ps上（3.7%），幾無優化余地。

二輪優化：插值算法的調整

在進行第二輪優化之前同樣運行了一次Profiling。因為對PartOfSponza性能基本滿意，因此這次優化的目標主要在Sponza上。

排名前幾位的小函數，分別是sub_n，unproj，+= 和tex2D。對sub_n例行優化后，性能沒什么變化。當然，這也是意料之中的事情了。

因此，第二輪優化便著重考慮在插值算法本身上。

在優化之前，我嘗試對代碼成本做個粗略的評估：

在現有算法下，假設每個像素有N個需要插值的屬性，則平均每個像素有

（corner）3N/16個讀 + 2N/16個乘法 + 2N/16個加法 + N/16個寫

（x：+=）2N個讀 + N個加法 + N個寫

（x：*） N個讀 + 1個標量除法 + N個乘法 + N個寫

（y：+=）2N/4個讀 + N/4個加法 + N/4個寫

（y：=） N/4個讀 + N/4個寫

因為每個都是函數指針，所以這些都是優化不掉的。因此首先將一些操作合并了一下，比如把+= 和*合并以減少一下讀寫操作。只可惜效果也不是很明顯。

第二刀就砍到算法的頭上。因為累加本身是為了減少乘法的運用，但是這可能帶來了多余的存取開銷。

因此直接套用公式：

pixel = ( projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y ) / pixel_w

這樣就有：3N讀，2N乘法，2N加法，N個乘法和N個寫（假設寄存器夠用的話）。不算Corner的計算成本，這樣比較一下，就等于是3N/4個讀，N/2+N個寫，N/4個加法來換取2N個乘法的時間。本來以為作為IO瓶頸的應用，這樣可以提高一些性能。不過結果證實這個買賣實在是很不劃算，整體性能不增反減。

三輪優化：減少內存占用，柳暗花明

雖然所有的操作只針對已使用的屬性，但是空間上還是浪費了許多。

考慮到內存占用較大也會導致一些性能損失，于是將MAX_ATTRIBUTE_COUNT從32下調到了8。

結果令人大跌眼鏡。性能瞬間提升了20-30%之多。

再加上SSE也不知道為什么開始發力了，使用上之后性能大約又有了10-15%的提升。

我猜測可能是因為換頁頻率下降，以及Cache的命中率提升。不過手上沒有VTune這種工具，所以也不太好驗證。

四輪優化：精度敏感性下降的額外紅利

在這輪優化之后，PartOfSponza出現了精度問題。因為視錐體的上下左右四個面都沒有Clip，所以可能會出現非常大的三角形。這樣累積的時候一旦起始點選擇的不好，就會出現比較大的誤差。在之前版本中，使用/fp: precise來減少這一問題出現的機會。但是因為使用了SSE，也讓這個問題再難解決。因此我選用了一些辦法，來改善精度問題。在大問題都修正以后，換用/fp: fast來編譯整個SALVIA，最終也獲得了0-10%左右的性能收益。

結論

對于運算和IO都密集的程序來說，優化真可能是牽一發而動全身的問題。比如在我的例子中，所有猜測是性能瓶頸的地方，都沒有得到預想中的改善。

倒是在內存占用這個地方無心插柳，才得以柳暗花明，而且還讓別的優化方案體現了價值。所以如果你不像qiaojie大牛那樣對x86了如指掌，還是要習慣于從多方面猜測，例如內存占用，對齊或緊縮，計算強度，訪存密度，并行度等多個角度進行設想并用實踐去驗證。盡管可能會遇到很多挫折，但是，只要是直覺上有優化的余地，一般都可以找到合適的方案。

posted @ 2013-02-11 20:09 空明流轉閱讀(2836) | 評論 (2) | 編輯收藏

2013年1月13日 #

開源光柵化渲染器SALVIA的漫長五年（準·干貨）

SALVIA是從07年底開始開發的。歷經五年，無論是設計目標，還是使用到的一些方法，都和最初差別很大。

謹以此文，紀念我在五年中作出來的各種傻逼決定。

1. 2007年9月 - 2007年12月：可笑的動機，可笑的雛形

動機與原型

SALVIA出現的原因其實很可笑。07年底的時候我正在寫一篇paper，講GP-GPU的。那個時候還沒有CUDA一類的東西，一切都要靠Shader來。本來我手上的顯卡是一塊9550的SDRAM的簡版。但是論文快結束的時候，突然這卡的風扇就罷工了。然后我降頻用了大概一個多月，卡也廢掉了。因為沒錢買新顯卡，我就打算寫一個比D3D REF快的軟件渲染器。

07年底的時候，實現了第一版的SALVIA，當時還叫SoftArt。第一版的SALVIA其實還算不錯，流水線的完整程度到現在都還沒超過，包括Cpp的Vertex Shader和Pixel Shader、紋理采樣、光照什么的一應俱全。在開發過程中，主要參考GL 2.0的Specification，也閱讀了一些同類型軟件的代碼，例如Muli3D和Mesa。

一些對管線至關重要的概念，例如透視修正、固定管線上紋理采樣的LoD Level、Clip都是借助于Spec和這些實現建立的。

為什么要有Shader Compiler

如果是固定管線的話，那么SALVIA做到這些特性也就足夠了。但是從SALVIA一開始，我就希望讓它成為一個Pure Shader的管線，固定管線的那些狀態實在太煩人了。本來Cpp實現的Shading language能滿足絕大部分的需要了，但是有一個特性徹底難倒了我：Pixel Shader的差分函數ddx/ddy。

這個東西的工作原理是這樣的：

比方說我有一段shader函數：

float shading_pixel( ... ): COLOR0
{
    float x;
    // Expression for calculating x
    return ddx(x);
}

在Pixel Shader運行的時候，它一次性執行2x2的一個小塊，所有的指令對于整個塊內都是同步執行的。遇到ddx(x)后，四個像素都正好執行到這里，然后把x方向上的相鄰兩個像素的局部變量x求個差，就可以得出ddx了。

這個要求在C++中很難實現。

不好讓C++的四個函數都在同一個地方Join；
我不好去獲得相鄰函數的棧上的值。

其實如果要較真，當然還是有辦法的：

對于Join問題，起碼有兩種方案：

自己搞一個Fiber Manager，直接控制代碼的棧的Switch。每個pixel都有一個Fiber，到了DDX/DDY就換到下一個Fiber執行，直到所有的Fiber都執行完畢后，計算ddx，寫入棧變量，再繼續執行；
直接用線程，Join，計算，然后繼續執行。

對于棧變量的地址問題，也有辦法：

在切換線程的時候直接保存臨時變量的地址。

但是這些實現，要么因為切換上下文而變得奇慢無比；要么就是完全沒有平臺移植性。想來想去，還是要讓代碼按照硬件的方式SIMD執行。

所以我最終橫下一條心：要為它做Shading Language Compiler。然后開始了漫長的Compiler開發。后來我看團長那個《漫無止境的八月》的時候，簡直就是對著鏡子照自己的傻逼。所以我才更黑團長。

2. 2008年初 - 2009年12月：黎明前的黑暗

Shader的文法

08年到09年我都在外面實習，一周上六天班，一天得干上十個多小時。從2008年初到7月份，我都一直在看編譯原理和成熟的語法庫。底子薄，看起來很吃力。到了8月份開始設計Shader的EBNF。設計語言，不外乎是三個方面：應用場景、語法和庫的支持。盡管有現成的HLSL和GLSL作參考，但對于我從0開始設計語言來說，這些語言的語法和語義都過于復雜了。我需要讓語言特性慢慢的添加進來。

考慮到HLSL和C比較接近，C的文法參考資料又很多，于是我選擇了從C開始裁剪語法。但是文法這個東西，并不簡簡單單是樹狀的結構，樹上的任何一個語法節點，都可能會引用到其它的文法規則。因此修改了一條規則后，你會發現它可能會和其它規則沖突了，二義了。于是裁剪計劃完蛋了。

當然，如果我現在來設計語法，肯定會和陳漢子一樣，直接從Use Case就能把EBNF寫出來，再稍微規范一下，一門不那么復雜的語言就成了。當然像C++這種變態語言，這樣做是做不出來的。但當時我顯然不具備那樣的能力。從七月份開始就磕磕絆絆地裁剪了一些語法特性之后的語言，到了八月份才出了個千瘡百孔的方案。

神：Boost.Spirit

作為完全不懂編譯器的矬貨，設計語言一定要和編譯器的開發放在一起才能有點收獲。我用過Flex/Bison，用過ANTLR。但是當時我對編譯器特別的陌生，組織Build的能力也比較弱，因此它們在使用上繁瑣和難于調試給我帶來了很大的困擾。不過那時我對模板、元編程和Boost就已經相當熟悉了，無論是開發、閱讀代碼還是Debug都能輕松應付，所以我挑了半天，選了Boost.Spirit。

Boost.Spirit是個很奇葩的東西。它想在C++里面提供一個類似于EBNF、可以定義語法分析規則的方言。要讓C++看起來像一個方言，當然是要使用神出鬼沒的操作符重載。當然，即便是修飾后的語法，看起來也還是會有點怪怪的。EBNF中的規則

Rule ::= Token SubRule0 [OptionalSubRule1]

在Cpp中最簡單可以表示成

rule = token >> subrule0 >> optional(OptionalSubRule1)

雖然看起來有點丑陋，但是它已經完全滿足一個DSL的要求了：直觀的面向解決方案。

不過如果牽涉到實現細節，在C++里面要寫一個又簡單、又可用Parser Generator，那幾乎是不可能完成的任務。起碼對于Combinator-based Parser來說，它夠簡單，但是沒有CPS的支持會令錯誤恢復這一類的周遭設計變得極為可怕；如果Rule只是grammar definition，不牽涉到任何Parser的構造，那解析這個definition的復雜度和調試難度又不亞于ANTLR或者Yacc這樣有單獨腳本的工具。所以這項工作，還是交給Haskell這樣的語言來完成吧。

通過使用Spirit、設計編譯器、折騰文法，讓我對Compiler和Cpp的理解都遞進了一大步。再加上08年全年都在做GUI相關的東西，也讓我對編譯器的理解有所加深。

09年下半年我一直都比較動蕩，不過到年底總算是安定了下來。

3. 2009年12月—2010年2月：長征的開始

后端與前端

09年12月份的時候，Boost升級了，Spirit也到了V2。到了2月份，我費了點功夫，把V2的Spirit折騰到SALVIA的前端上。Parser也有所變化：前一版的Parser還比較草率，這一版的Parser我幾乎是完全按照Spirit的Demo中的方案進行的。此時我也開始嘗試著撰寫語義分析。怎么做函數重載都是在那個時候開始點的技能樹，雖然在現在看來都是歪的。為了執行生成的代碼，我設計了半個虛擬機，然后還準備寫點教程。但是我思前想后，對于Shader這樣一秒鐘要調用10M次的函數，無論如何虛擬機都是不合適的。

所以我就開始籌備自己的后端。要求就是一個字：快。那個時候，陳漢子正在學怎么寫x86的JIT。但是我的語言到x86有很長的路要走。怎么去分配寄存器，怎么把類型轉換到x86的Native，怎么選擇指令，我都是一知半解的。憑我當時的知識，這一定是不可能完成的。

于是在閱讀完Intel Architecture手冊和優化指南后，我決定去找一個合用的后端。考慮過很多可選的辦法，例如生成C++的Code然后編譯成DLL；使用Tiny C（TCC）；或者是JIT。但是它們缺點都是很明顯的。編譯成DLL必須要自己裁剪一個GCC出來；Tiny C的效率并不是很好；JIT很復雜（起碼在那個時候是這樣）。不過2月份的時候，敏敏還是誰指點了我一下，說你可以去看看LLVM。然后我去一看，牛逼，就是我要的東西！然后我就開始學LLVM。LLVM的IR很好學，一個下午就搞了個Hello world。

這個時候，minmin也在SALVIA上實現了Half-Space的光柵化算法。

那個時候我躊躇滿志，意氣風發，三月趕英，五月超美。

可沒想著就這么掉坑里面去了。

4. 2010年2月—2011年新年：苦難的行軍

苦難：復雜的問題

主體大人真是神，五個字就概括了我2010年一年的努力。

minmin做的SALVIA的Half-Space算法并不比我樸素的Top-Bottom的光柵化強；
紋理上的優化盡管使用了SSE但是仍然改進有限；
Shader編譯器本身的編譯時間由于Spirit的存在而實在漫長；
Shader編譯器和Pipeline如何關聯又無從下手；
LLVM的集成也因為前端而有所耽擱，另外因為各種錯誤層出不窮，讓整個開發進度變得龜速。

所以整個一年中，SALVIA的開發就是寫寫停停，停停寫寫。可以說08年初的銳氣，已經消磨的差不多了。到了8月份的時候，我畢業了，新工作也基本上確定和熟悉了，我就和minmin說，從現在開始我寫半年報吧，講述一下半年來的進展。于是便有了第一篇項目簡報。

行軍：些微的進展

也正是從那個時候，我決定要把SALVIA作為一款實驗品來對待，用上所有我不會的或者新學的東西。單元測試，CMake工具鏈，為Shader設計的Pipeline，語義分析和后端的原型都在那一年加入了SALVIA。雖然從實現上它們已經與現在相距甚遠，但是起碼一切都還是往好的方向發展。

另外，08年到09年期間在實習的時候積累的教訓開始慢慢的醞釀和發酵，敏捷也逐漸成為了我開發過程中的主要指南。

基本上，那個時候積累了很多必要的經驗和教訓。當然絕大多數是教訓。

5. 2011年2月—2011年6月：新Shader的起點

坑神：Boost.Spirit的滅亡

在11年的春節期間，我終于無法忍受Spirit的麻煩了：

一段400行不到的代碼，在我的機器上需要編譯30分鐘；
Object File需要占用1.9G的硬盤；
Mangling name輕松超過4K字符的限制；
輕易撐爆obj文件的symbol table，需要用/bigobj才能夠編譯通過；
甚至在編譯的時候會輕易的讓32位的MSVC CL out of memory。

要知道，以上這些還是應用了Spirit指南中的編譯速度優化方案之后的結果。

這一切原因，都是因為Boost.Spirit對于Parser Tree，是用了完全靜態的分析樹結構。每條規則的返回值都會是完全不同的類型。這直接導致類型數量極為龐大，代碼膨脹的厲害。

于是11年的寒假我花了5天的時間重新山寨了一個文法分析器的產生器，并做到DSL幾乎完全和Spirit一致。只不過Parser Tree不再是靜態類型；模板的用量也減輕了很多。

Shader的階段性成果

到了四月份的時候，Shading Language Semantic/System Value已經在語法上支持了，語義上也能分析出哪些變量是System Value，哪些變量是Uniform的。并且通過生成特殊的函數簽名，Shader滿足了以下幾個需求：

Shader要返回一個函數；
這個函數是可重入的（因為要并發）；
數據能正確的從Pipeline傳入到Shader的函數中，也能正確的返回；
Shader中對于Pipeline數據引用要能正確的生成地址。

到了11年6月份的時候，終于把Shader全線貫通。雖然很多Operator和Instrinsic還不支持，但是起碼有了個可以看的Demo。

第一個版本與發布前的完善工作

LLVM用上了；VS完整了，PS也有了個雛形；預處理器什么的都有了。

Unit Test也有了原型。我為每個Stage都做了Unit test：Parser，Semantic，CodeGen和JIT。

某種意義上來說，這幾個月來在后端上順利進展，讓我多少有點得意忘形。再加上梁總的幫助，SoftArt這個名字改成SALVIA，LOGO也有了，我在部門內部做的一些Introduction也幫助我梳理了思路。于是從4月份開始，我就籌備著要把SALVIA正式發布出去。

11年6月1號，SALVIA Milestone 1.0 發布。有Change Log，有Binary Demo，有Snapshot。

三周后，發布了第一個有Vertex Shader的Demo

6. 2011年7月—2012年1月：坂道の1.0

Pixel Shader：需求與設計

在Milestone 1.0發布后，我開始做Pixel Shader的特性。本以為半年之內就能搞定，發個1.0揚眉吐氣一下。但是實踐證明，我真是他媽的太盲目樂觀了。

我先來說一說Pixel Shader的特點和需求。比方說我有四個pixel，每個pixel都是一個float。

struct pixel_input
{
  float data;
};

pixel_input pixel_block[4];

然后我要計算一下，這個data加上1.0之后是多少。我前面說過，我要讓指令看起來是四個像素同一時刻執行的，那么顯然我生成的代碼就會類似于這樣：

struct pixel_input
{
  float data;
};

struct pixel_output
{
  float data;
};

void shading_pixel(pixel_input* in_data, pixel_output* out_data)
{
     // TMP = IN_DATA.DATA + 1.0
     float tmp0 = in_data[0].data + 1.0;
     float tmp1 = in_data[1].data + 1.0;
     float tmp2 = in_data[2].data + 1.0;
     float tmp3 = in_data[3].data + 1.0;

    // OUT_DATA.DATA = TMP
    out_data[0].data = tmp0;
    out_data[1].data = tmp1;
    out_data[2].data = tmp2;
    out_data[3].data = tmp3;
}

Pixel Shader：優化與問題

顯然這里是可以優化的：將四條指令并作一條SIMD指令。

那么這個時候，有兩個需求是要滿足的：

同樣的struct member一定要是鄰接在一起。
得根據SIMD的要求數據對齊。

只有一個域當然好辦。如果struct很復雜呢，比方說下面這樣：

struct
{
   float;
   float2;
   int3;
   struct 
   {
       float2[3];
       float;
   };
};

那就會衍生出各種問題：

那要不要把每個域都展平呢？
展平到什么程度？
讓每個Builtin Type Member相鄰，還是讓每個Float/Int相鄰？
那遇到動態尋址，怎么辦？
展平后的代碼，與VS中的代碼能通用嗎？

每個方案都一定能完成，每個方案都有明顯的缺陷。最初我是想嘗試四個像素完全獨立的辦法，這樣實現起來最方便。但是出于對性能的追求，我又想做展平的。展平的方案做到一半，發現太復雜了。

坑神II：LLVM

此外，還有幾個非常嚴重的問題，發生在LLVM上。

一個是ABI。一個符合C Calling Convention的LLVM函數，它對堆棧的理解與VS完全不同，特別是參數傳入或者返回Struct的時候。這樣，直接用LLVM的函數Export出來后，讓VC去Call它就一定會失敗。為了解決它，我花了近兩周的時間，設計了一個Proxy，讓函數避免用Struct來傳遞，一切數據，除了和寄存器同樣大小的float和int，其余數據都通過指針來做。同時，我需要將一些函數注入到LLVM中，比方說紋理采樣，此時ABI同樣是個禍患。為了讓Code Gen正確的識別函數是LLVM的調用協議還是我自己定制的調用協議，并產生正確的代碼。我做了各種奇葩和傻逼的方案。有一些方案被廢棄了，但是主要的Idea，仍然沿用到現在。

一個是臨時變量（包括Spiller）的對齊。在Linux/GCC上，棧頂和棧基指針一定是16字節對齊的。如果編譯器需要分配一個臨時變量，那么它只要通過ESP - 0x10*n就能獲得一個對齊的地址。但是在VC中，x86下完全沒有這樣的限制（除非函數中使用了__m128，這個時候在進入Frame之后會有一個SUB/AND的指令把棧頂搞到16字節對齊。）。但LLVM生成的所有代碼，又是基于GCC的假設。SALVIA生成的局部變量，還可以控制地址，但是對于編譯器臨時生成的變量來說，就完全不可控了。在3.1之后因為引入了AVX，需要32字節對齊，這個問題就更加變本加厲了。在x86上，我還可以通過嵌入匯編，來強制調整棧幀。但是在x64上，又啟動了AVX的情況下，我就徹底沒有辦法了。這個問題一直延續到現在，如果我不動手去Debug LLVM的話，就只能等他們什么時候想起來修復這個問題了。

SIMD執行模型下分支的處理

Pixel Shader的執行模型是SIMD的，這要求每個像素上同一時刻都執行相同的指令。如果沒有分支，那自然是簡單無比。一旦有了分支就打破了這個約定。在DX9.0b及之前，這當然沒問題。

但是Shader Model 3.0正式支持Dynamic Branch開始，這個問題就凸現出來了：分支要怎么處理？

對于Pixel Shader來說，會面臨三種分支：靜態分支，準靜態分支（這個名字是我瞎起的）和動態分支。

float branches( uniform float udata, float vdata: POSITION): COLOR0
{
   const float zero = 0.0;
   if(zero < 1.0)
   {
     // Static branch
   }

   if(udata)
   {
      // Semi-Static Branch (我自己造的)
   }
  
   if(vdata)
   {
     // Dynamic Branch
   }
}

我們來分情況討論一下：

對于靜態分支來說，因為確定分支的是一個常量，那么顯然在編譯階段就能夠知道分支執行與否，直接生成對應的代碼就可以了。
對于uniform作為判斷條件的分支來說，在shader編譯的時候，并不知道這個分支是否會執行。但是呢，Uniform會在Shader執行前設置，和代碼執行相比，Uniform設置的比例非常低。這個時候我們可以先講代碼編譯成中間表達，這個中間表達會知道一個變量是不是Uniform的。在Uniform設置好后，Shader真正執行前，把Uniform替換成那個值，也就是把Uniform當做常量，對Shader再編譯一次，得到真正的執行指令。所以在指令執行的時候，準靜態分支就和靜態分支完全相同了。
最后一個，動態分支。如果判斷條件就是動態的，那沒辦法，如果要支持SM3.0，就必須要能支持它。同時對于不同的Pixel，都可能有不同的分支。這對于SIMD來說，才是真正的難題。

實際上，我們真正要解決的，就是動態分支。

對于SIMD模型來說，動態分支有三種處理辦法。

跳轉執行。像CUDA 2.0以上那樣的指令集具備有一定的跳轉執行能力。編譯器可以把SIMD拆開，按照標量執行。每個都執行完了后，再繼續按照SIMD執行其他的代碼。
條件執行。這也是圖形硬件上最常見的執行模式。通過一個位，就可以決定GPU中的執行單元是否執行一段代碼。舉個不準確的例子，如果是個4并發的執行器，那么四個并發執行器的執行條件可以設置為1100，這樣就只有前兩個單元的數據執行，后兩個不執行了。
寫掩碼。這個辦法是沒有辦法的辦法。它的基本理念就是：只要不寫到內存中的執行結果，就可以認為它沒執行過。但是寫掩碼總是浪費了指令。不過好歹它還是避免了跳轉的。所以對于早期的ARM這樣沒有分支預測的精簡體系來說，一旦有分支執行起來就是死翹翹。所以它有類似于Select-Store這樣的指令，盡可能的避免分支的出現。

對于SAVLIA來說，跳轉執行和寫掩碼是兩個可能的選擇。因為寫掩碼的代碼生成起來更加輕松一些，所以目前的SALVIA的實現是寫掩碼的。在x86/x64平臺上，對于AVX以上的指令，還可以用blend。但是對于其他指令而言，基本上只能是通過跳轉實現寫掩碼。所以這部分的開銷其實很大。等到造出了自己的SSA之后，再來考慮分支執行的事情吧。

對于寫掩碼的掩碼要怎么計算，一開始我心里挺沒譜的。特別是有了，Continue和Break之后，情況就會變得復雜起來。一開始我沒法確信自己的方案是正確的。后來看了MESA的Gallinum以后，看見了Continue Mask和Break Mask兩個變量，瞬間就明白了。

具體怎么思考的不多說了，這里寫下幾個結論：

語言不能有Goto（有Goto會讓代碼變得非常復雜，甚至不可解）；
所需要的掩碼的數量會隨著循環的嵌套層數的增加而增加；
每個循環最多有三個掩碼：Break，Continue和Mask；
程序是固定的話，掩碼的數量就一定是個常量。（要不然硬件就沒法做了）
寫掩碼的位數只和執行單元的數量有關，和嵌套深度無關。

坂道のTest

盡管遇到了各種難處，但是很多方案還是順利的做出來了。方案和方案之間差異很大，要想順利移植，必須要有Test。

之前也說過，一開始我的Test是按照Parser，Semantic，Code Gen，JIT分開做的。但是呢，這樣一來，不同Stage之間的Test復用性非常高。而且因為Stage經常變化，包括Stage的接口。這時候Test就完蛋了。Test本身也很枯燥（變量名都不好起），所以Test重寫起來難過的要死。

于是我重新審視了一下需求。發現我最終只關心JIT編譯出來的函數的運行結果，其實并不關心中間的過程。而且隨著我對編譯過程理解的逐步變化，Compiler Stages幾乎每隔兩個月就要進行比較大的修正。測試的量稍微大一點，就沒有辦法維護Test Case了。并且，對于單條語句或者非常短的函數來說，從詞法到最終JIT出來的函數所覆蓋的編譯器代碼非常之少，可能3-4個函數，代碼就出來了。即便有問題，對比過去的版本輕松就能分析出來。再加上大量的Assertion，診斷起來更加容易。

因此，在這幾個月中我完全重寫了Test Case：讓JIT的測試粒度更低，測試更豐富；取消所有的中間Level的測試。新的測試回歸起來非常容易，出了問題也很好找到。在Test Case寫完后，正好看到Martin Fowler噴過度TDD的問題，真是感同身受。

測試需要嗎？當然需要。但是選擇合適的Level，做合適的測試是非常重要的。結合之前實習的時候的Unit Test經驗，有以下幾點感受：

測試一定要選擇盡可能低的面，這樣牽涉的代碼就盡可能少；
在縱向上，粒度要細。除了單個API的Test，還要有適度的交叉，不過太綜合的測試，請讓集成測試用例來完成；
要重視代碼覆蓋率；
測試面向的API要穩定。天天變得API會讓你徹底失去寫Test的信心。API越穩定，在它上面出現問題的機會就越多，你寫的測試性價比也越高。

坡長路遠，小步快走

在完成了Test的改造后，終于有了一個合適的發布前評估。所以到了11年11月后，發布的速度就明顯變快了許多。快速的發布對于做一個長期項目來說非常重要。這也和敏捷的想法不謀而合。不管是從品質控制上、還是進度追蹤上，或者是說對開發者自信心的增強，都需要有短平快的開發周期。11年也正好是Autodesk推行敏捷的一年。同事里面有很多的人反應說敏捷會導致軟件品質的下降，短期目標會導致過于追逐眼前利益。

但是從我的經驗來看，對于個人，敏捷要短平快。但對于團隊，敏捷要從長計議。不是所有的iteration都需要開發新特性，必須要保留足夠的iteration來完成重構、整理、設計方案的反省和討論。對于以年為單位的長周期產品來說，可以每個季度有3-5天的時間，每個人都提出對框架的改進計劃；每年有兩周的時間，完成框架的重構和修正。更小的重構，可以安排的更加短小的時間。

6. 2012年1月及以后：現在與未來

新特性，新思考

從11年7月份開始到現在，就一直在做Demo、優化、特性的完善；以及一些新特性的思考。

總的來說，這一年半的時間里面，很多工作已經不像早先幾年做的那么吃力，但是仍然在很多的點上有所斬獲。

整個編譯器后端，包括基本的分析和優化都已經有所了解，LLVM也熟悉了許多；
對Shader相關的API的了解也不再懵懵懂懂；
對于語言機制的研究，加上陳漢子時不時拋來的一些思維發散題令我對語言有了更深入的認識；
認識了RFX，在短短幾周就幫助我在閱讀V8和LLVM時積累的一些知識轉化成了有用的理解。

在2012年底為SALVIA進行了局部的重新設計，也是“學”與“習”的新一輪“習”。新的SSA及Shader優化、JIT化的管線、對性能有要求的新前端、瞄準DX11以上Shader Model Features、JIT的調試符號，這些一定會給我帶來許多絞盡腦汁想不明白的問題，但同時我也會學習到、實踐到許多新的知識。

我相信時間會教給我們一切。

posted @ 2013-01-13 05:00 空明流轉閱讀(6104) | 評論 (12) | 編輯收藏

2012年3月8日 #

SASL編譯器Diagnostic信息的管理、格式化與輸出

1. Diagnostic需要提供哪些數據

出錯處理和錯誤提示，是編譯器開發過程中重要而繁瑣的部分。

診斷信息的格式因編譯器和IDE而不同。

SALVIA將采用Visual Studio的格式，即文件 + 行列 + 類別（等級） + 編號 + 出錯信息。例如：

d:\programming\salvia\sasl\test\cgllvm_test\function_test_basic.cpp(16): error C2061: syntax error : identifier 'te'

因此在出錯分析的時候，也需要提供如上的一些信息。

2. 診斷信息Diagnostic Item

在以上信息中，文件名和行列號可以在詞法分析的時候獲得，我們將它作為屬性附加在Token中。

類別和編號，對于同一個編譯器而言是相對固定的，盡管我們可以用ID來表示，但是它并不直觀，編譯器檢查也較少。與參數匹配時，也比較容易出錯。

SASL中的診斷信息將每個錯誤都使用一個類型來表達：

class diagnostic_item
{
};


class unrecognized_identifier: public diagnostic_item
{
public:
    unrecognized_identifier& token( token_t tok );
    
private:
    static int level;
    static int id;
    static std::string description_template;
    
private:
    std::string ident;
    size_t      row, col;
    // Other properties
};

這樣的好處在于可以用Combinator的風格來撰寫錯誤信息。例如這樣：

diagnostic_chat.report<unrecognized_identifier>().token( err_tok );

并且由于編譯器的保證也比較不容易寫錯。

但是這種寫法也有一個很關鍵的問題，需要為每個錯誤都定義一個類，工作量很大。SASL對這一問題的處理，自然是傳統的大殺器：運用腳本進行生成。

Clang使用了它內置的代碼生成工具td來完成生成的工作。

3. 診斷信息管理器Diagnostic Chat

Chat是診斷信息的管理工具。它主要要完成以下需求：添加和清理診斷信息，以及在診斷信息的添加清理時提供回調操作。

后者是很有用的，尤其是在調試編譯器的時候。你得分清楚究竟是真正的程序錯誤呢，還是編譯器出了錯。

Diagnostic Chat的原型如下：

class diagnostic_chat
{
public:
    template <typename T> T& report();
    void add_report_diagnostic_handler( DiagnosticHandlerT handler );
};

同時，我們也將Treat Warning As Error，Error Count，Disable Warning，Stop compiling when error occurs等狀態和功能所需要的支持添加到Chat中。

所以，Chat除了提供管理之外，也要具有相應的診斷信息的統計功能。

4. 過濾器Diagnostic Filter

Filter主要配合IDE使用，從Chat中取出符合條件的診斷信息。Error Count和Disable Warnings等功能也可以通過它來完成。

5. Formatter

Formatter用于將DiagnosticItems中的信息轉換成人可讀的字符串。目前SASL只打算支持Visual Studio的格式，但是相信支持GCC的格式以更好的和Eclipse等第三方IDE集成并不困難。

在C#里面，我們可以用“We need ‘{0}’ not ‘{1}’.”這樣的方式來分離description template并延期的產生格式化的字符串。但是在C++中，這種做法并不容易。C的sprintf很難具有延期、漸增的綁定模板的特定，對自定義類型的字符串化的支持也不足，類型安全也比較差；而stream的話，也會面臨著將好端端的格式化字符串割裂的問題。SASL使用了boost.format，從一定程度上搞定了這兩個問題，從而像C#一樣，使用格式化字符串的功能。

posted @ 2012-03-08 21:25 空明流轉閱讀(2068) | 評論 (0) | 編輯收藏

2012年3月6日 #

SALVIA 0.3 發布：Pixel Shader添加了tex2D的支持

SALVIA 0.3 出爐了！

這是自2010年8月份以來， SALVIA Milestone 1.0之后最重要的發布！

0.3開始，SALVIA正式支持了Pixel Shader。

自2008年中開始的Shader設計與實現工作基本完成。

未來一年內，SALVIA的工作將集中以下幾點：

在Shader編譯器的完善上，比如友善的語法和語義錯誤提示。
提升與管線的集成度，進而充分提升性能。
編譯器和編譯器生成代碼的優化，提高Shader的編譯速度和運行速度。
新的圖形特性，如各向異性過濾等。

隨著SALVIA整體的逐漸成熟，我們也希望有其他的朋友能來參與和支持這個項目，一同進步。

如果您希望參與到這個項目中，請mail聯系我：wuye9036 __at__ gmail dota com.

posted @ 2012-03-06 17:41 空明流轉閱讀(1946) | 評論 (0) | 編輯收藏

2012年2月24日 #

開源軟件光柵化渲染器SALVIA 0.2.5發布：為Pixel Shader添加了分支與循環的支持

SALVIA 0.2.5 發布！

項目主頁： http://code.google.com/p/softart/

更新列表如下：

0.2.2 - 0.2.5 (Feb 24, 2012)

版本名稱發生變化，從原先的Milestone X fix Y的命名方式正式更新為與主版本相同的版本號序列。
取消了對DirectX的強制依賴。
添加了對Visual C++ Express的支持
Pixel Shader 進一步增強：

          1. 提供了對分支語句 if 的支持
          2. 支持 for, while, do-while 循環
          3. 添加了新的內建函數：ddx ddy dot cross sqrt
          4. 添加了紋理取樣函數tex2D的原型

對Rasterizer進行了進一步的優化
修正了以下問題：

          1. 在x86上執行vertex shader時可能會Crash的問題
          2. 不能再build配置文件中指定CMake路徑的問題
          3. 一些表達式調用時報告函數重載錯誤的問題

posted @ 2012-02-24 16:56 空明流轉閱讀(2585) | 評論 (1) | 編輯收藏

2011年12月26日 #

SALVIA正式支持一站式編譯

SALVIA在Milestone 1.2 Fix 2中，正式提供了一站式編譯腳本的支持。

項目主頁：http://code.google.com/p/softart/

新的編譯步驟如下：

1. 下載最新的CMake并安裝。

2. 下載Python 2.7并安裝。

3. 下載boost 1.44或更新的版本，解壓到某個目錄下。

4. Clone或下載SALVIA代碼包，執行根目錄下的build_all.py文件。第一次運行的時候會生成一個project.py，編輯project.py設置相應屬性，包括boost代碼目錄，編譯器，configuration等。

5. 再次運行build_all.py，編譯程序。

posted @ 2011-12-26 21:09 空明流轉閱讀(2642) | 評論 (5) | 編輯收藏

2011年11月22日 #

LLVM隨筆

1. LLVM在x86和x64下都和Microsft C++ ABI的吻合程度不夠。目前已知在以下情況下會出錯：

參數為結構體的
返回值為結構體

以下情況我沒有完整測試過：

返回值為單個浮點
返回值為向量（_m128 / <4 x float>）
參數為向量（_m128 / <4xfloat>）

所以建議大家統一將是結構體的返回值和參數以引用/指針的形式傳遞。
對于大小為4個或者8個字節的結構體如果希望按值傳遞，那么需要在LLVM函數的簽名上使用i32/i64作為參數類型，并使用bit cast在函數體內強制轉換成結構體。

2. LLVM提供了很多的Intrinsics，例如SSE指令集。它在Module上提供了一個getOrCreateTargetIntrinsic，但實際上這個函數是坑爹的。有兩個方法可以正確的創建并獲取指令集：

使用Module::getOrInsertFunction( intrinsic_name, intrinsic_function_type )。它會自動識別intrinsic的名稱并創建function或者是intrinsic。指令需要使用全名。例如 llvm.x86.sse.sqrt.ps.
或者使用Ilvm::Intrinsic::getDeclaration( id ) 來創建。這個id可以在intrinsics.gen中找到。

因為LLVM生成的Intrinsic是全平臺的，所以可以在x86上指定ARM匯編的生成，反之亦然。

3. 默認情況下，LLVM的JIT是不會啟用InliningPass的，Optimization Level指定為Aggressive也不會。這意味著inlinehint和alwaysinline都是失效的。如果需要inlining得自己修改JIT的源代碼。

4. UndefValue是個好東西。這個常量可以使生成的匯編少一條初始化指令。比方說用0初始化，可能對應的匯編就是 xor reg, reg。如果用了Undef，那這條指令就沒了。

5. TypeBuilder很好用，只是不能生成struct等復雜的類型。不過你可以對它做一些修改以讓它支持struct和vector。這個時候Boost.MPL就能派上用場了。不過要當心MPL帶來漫長的編譯時間。

posted @ 2011-11-22 21:04 空明流轉閱讀(2938) | 評論 (0) | 編輯收藏

2011年8月17日 #

LLVM的調用協議與內存對齊

在設計一門語言與其他語言交互的API與ABI（Application Binary Interface，二進制接口）時，調用協議和內存對齊是兩個無從回避的問題。

本文將討論如何在LLVM上生成正確的內存對齊和調用協議的代碼。

在這里為了方便和標準起見，假定應用LLVM的語言的Extending和Embedding的對象都是C。

調用協議

先來討論調用協議。調用協議用于保證調用方和被調用方在二進制/匯編一級上是相容的。合適的調用協議可以幫助構造出以下代碼：

// Callee Signature of LLVM code
void __cdecl foo( int a, float b, float4 c);

// C caller
typedef void (__cdecl* fn_ptr)(int, float, float4)
fn_ptr p = static_cast<fn_ptr>( get_jit_function("foo") );
p(1, 1.0, vec);

一般來說調用協議包括參數傳遞和返回值傳遞和堆棧平衡三個部分。在x86平臺上的C/C++編譯器中常見的調用協議有cdecl, fastcall和stdcall。具體的協議內容請參見MSDN。

在C++中還有一類特殊的調用協議thiscall，用于調用對象的成員函數。但是這一類調用協議不同的平臺，不同的編譯器實現皆有不同，既無書面標準，也無事實標準，再加上virtual call等復雜的情況存在，并不適合用于做跨語言的調用。

對于x64平臺而言，在windows下和linux下分別有兩種調用協議。

先來看x86。由于x86在cdecl和fastcall上是有著跨平臺的標準的，因此LLVM對它的支持是比較完整的。程序只要在創建Function的時候指定Call Convention即可。

但是對于x64，LLVM的支持便不是那么完善。以windows為例，windows的x64調用協議要求以rcx，rdx，r8，r9寄存器傳遞前四個不大于64bit的參數，其余參數放在棧上。如果參數大于64bit，則要求傳遞它的指針。浮點使用xmm0-3來傳遞。但是對于LLVM而言，一旦參數大于64bit，它便會將整個對象而不是指針壓到棧上傳遞。因此在遇到x64時，需要小心處理API部分的調用協議。

在這里，我們需要將所有超過64bit的結構體處理成指針（或者拷貝后處理成指針）傳遞。

同時，LLVM提供了readonly和byval兩個參數屬性（Attribute）來確保參數的值語義。前者意味著傳入的指針所指向的值是不被修改的，（類似于T const*），而后者會對傳入的指針做一份內存拷貝，確保寫值不被傳遞出函數（類似于值拷貝）。這樣，LLVM生成的函數便可以MSVC生成的x64代碼正確調用了。

內存對齊

與移動平臺的體系結構相比，x86對內存對齊的條件算是相當寬松的了。大部分的指令對內存對齊基本上是沒有特殊要求的。只有一些SIMD的指令會對內存對齊有所限定，例如movaps。

為了方便后端生成SIMD代碼，LLVM提供了vector類型，例如vector<float, 1>。在代碼生成的時候，vector會編譯成最有可能的SIMD類型。因此在x86平臺上，vector<float, 1-4>都被處理成類似于__m128的類型，更長的vector則被拆分成多個__m128類型。

這實際上意味著，所有的vector都應該遵循16Bytes對齊的原則。

考慮到我們的需求，類似于struct{ float[3]; }這樣的結構，如果能表示為vector<float, 3>顯然適合一些數學運算，例如shuffle，逐元素的add，sub，mul，同時LLVM指令的選擇也更加靈活。但是顯然，這個結構體有兩個條件是不滿足的：16字節對齊和16字節的大小（movups和movaps都是一次取16字節）。這會造成邊界下讀寫的內存越界。因此非常可惜，這些數據必須表示為struct{ float ,float, float }。在讀取的時候，也會生成正確的指令：movss。

那么，對于一般的非對齊的vec4應用vector<float,4>行不行呢？

答案是，很困難。對于LLVM而言，他們在設計的時候就沒有過多的考慮vector在非對齊時候的應用。盡管load和store都能夠指定alignment以生成非對齊的內存操作（例如movups）并且確實會起效，但是由于代碼優化、臨時存取等特性的存在，導致一些非load和store的內存操作仍然是要求對齊的（例如生成了addaps xmm, [addr]）。此時仍然有可能為非對齊的數據生成了內存對齊的指令。

因此綜合權衡，SASL在API界面上使用了struct{float x,y,z,w;} 這樣的ABI來表示數據，在代碼生成時，會首先將struct的數據轉換成vector，然后再執行其它的操作，兼顧ABI與SIMD；同時對于Intrinsic，由于并不暴露給Host，所以它們仍然盡可能使用Vector，便于LLVM進行優化。

posted @ 2011-08-17 13:58 空明流轉閱讀(3485) | 評論 (3) | 編輯收藏

2011年7月17日 #

SALVIA Milestone 1.1 Fix 1: 新Sponza Demo

項目主頁：

http://code.google.com/p/softart

源碼下載地址：

Zip格式：https://bitbucket.org/wuye9036/salvia/get/tip.tar.bz2
Mercurial地址1：https://bitbucket.org/wuye9036/salvia
Mercurial地址2：https://code.google.com/p/softart/

版本：

Milestone 1.1 Fix 1

更新記錄：

添加了了新的Demo：Sponza
Wavefront Obj添加了32位索引的支持。
修復了 Wavefront Obj 錯誤的頂點共享的問題。
修復了 Mip-map 計算錯誤的問題。
修復了對多邊形錯誤剔除的問題。

Demo下載：

下載地址

Demo截圖：

posted @ 2011-07-17 17:46 空明流轉閱讀(3115) | 評論 (0) | 編輯收藏

僅列出標題下一頁

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

歲月流轉，往昔空明

常用鏈接

留言簿(15)

隨筆檔案(118)

文章分類(3)

文章檔案(3)

收藏夾(1)

青青子衿

友情鏈接

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

梗概

背景