青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

歲月流轉(zhuǎn),往昔空明

C++博客 首頁 新隨筆 聯(lián)系 聚合 管理
  118 Posts :: 3 Stories :: 413 Comments :: 0 Trackbacks

置頂隨筆 #

SALVIA是一款光柵化的軟件渲染器,設(shè)計目標(biāo)是達(dá)到Direct3D 10/11的核心功能的實現(xiàn)。我們的設(shè)計目的主要包括以下幾點(diǎn)

  • 一個高度可移植的光柵化圖形管線的軟件實現(xiàn)
  • 圖形硬件工作原理的展現(xiàn)和教學(xué)
  • 為下一代Many Core處理器架構(gòu)的計算設(shè)備提供高性能的圖形繪制能力
  • 提供在GPU一類的流處理器上難以實現(xiàn),但在Many Core架構(gòu)的設(shè)備上有著顯著優(yōu)勢的Features
  • 比圖形API更加易于使用的接口
  • 與復(fù)雜的渲染技術(shù)(如輻射度和光線追蹤等)相結(jié)合的可伸縮的渲染體系,研究可以提供速度-質(zhì)量相均衡的渲染架構(gòu)


SALVIA的接口重點(diǎn)參照了DX10的設(shè)計。
以流水線劃分Stage;每個Stage及其相關(guān)設(shè)施的接口,均采用了Object-Oriented的設(shè)計風(fēng)格。
這種設(shè)計與D3D9和OGL的狀態(tài)機(jī)風(fēng)格的設(shè)計相比更易于使用,同時也降低了流水線前后級的耦合,對于優(yōu)化或擴(kuò)展都是有利的。

目前,SALVIA已經(jīng)具有了完整的D3D9的流水線級,并有了基本的Demo。
在未來,SALVIA將在維持內(nèi)核穩(wěn)定的同時,通過擴(kuò)展提供先進(jìn)的圖形技術(shù)支撐。
同時,我們還將嘗試著將一些不易在GPU上實現(xiàn)的算法,以擴(kuò)展的形式在SALVIA中實現(xiàn)出來,以期提供高于圖形API的表現(xiàn)和特性。

SALVIA在近階段的主要工作包括:

  • Rasterizer的優(yōu)化
  • SALVIA Shading Language語言特性設(shè)計及編譯器實現(xiàn),為SALVIA提供文本化的Shader
  • MSAA,并提供可定制的Sampling Pattern(2x 和 4x,目前尚有Bug)
  • EWA-based Anistropic Filtering
  • 以擴(kuò)展形式提供的Geometry Shader,Hull Shader和Tesselassion Shader
  • 并行優(yōu)化(持續(xù)優(yōu)化中)
  • Intel SCC的移植
  • 特性及性能的演示用例
  • 文檔撰寫 (已經(jīng)有成員負(fù)責(zé)此事)


目前,SALVIA已經(jīng)作為一個開源項目發(fā)布在http://code.google.com/p/softart上,最新的代碼在Mercurial中。
所有代碼除特殊聲明外,均為GPL 2協(xié)議,您可以在協(xié)議許可的范圍內(nèi)自由下載或使用。

如果發(fā)現(xiàn)了軟件的缺陷,或者有任何好的意見和建議,您可以在項目管理頁面上留言,或者聯(lián)系作者
wuye9036@gmail.com
minmin.gong@gmail.com
我謹(jǐn)代表項目全體成員及用戶,對您為本項目的發(fā)展做出的獨(dú)一無二的貢獻(xiàn)表示敬意和感謝!


作為一款基于GPL2協(xié)議的開源光柵化渲染器,SALVIA的目的當(dāng)然不僅僅是軟件產(chǎn)品那么簡單。
我們也希望以SALVIA為基礎(chǔ),建設(shè)一個充滿智慧與活力的社區(qū)。
這個社區(qū)里,每一個智慧的閃光,都能夠給其他人以啟迪;每一個智慧的閃光,都能夠使SALVIA向更好的方向邁出一步。

隨著SALVIA框架的完成,SALVIA復(fù)雜而有挑戰(zhàn)性的特性擴(kuò)充工作已經(jīng)擺在面前。
無論你

  • 是喜歡Irregular Z Buffer一類不走尋常路的硬件架構(gòu)技術(shù),期望實現(xiàn)自己的硬件架構(gòu);
  • 還是癡迷于運(yùn)用最新的圖形學(xué)理論,制作讓人眼花繚亂,嘆為觀止的Demo;
  • 還是希望將SALVIA與商業(yè)產(chǎn)品相結(jié)合,使其想用戶所想,為用戶所不能為;

我們都以100%的熱忱歡迎您。

為了維持SALVIA核心框架的穩(wěn)定性,保證代碼質(zhì)量,我們計劃將全部的Project Members分為核心組開發(fā)者組兩部分。

核心組
暫時由 空明流轉(zhuǎn)(wuye9036@gmail.com) 和 Minmin.Gong(minmin.gong@gmail.com) 組成,主要負(fù)責(zé)架構(gòu)設(shè)計,Shading Language語言標(biāo)準(zhǔn)的制定,SALVIA內(nèi)核的開發(fā),設(shè)計文檔和接口約定的撰寫,以及主分支的維護(hù)工作。

開發(fā)者組將按照工作內(nèi)容大致分為三種:

  • 文檔組:主要負(fù)責(zé)注釋和文檔的撰寫工作等
  • 編譯器組:負(fù)責(zé)編譯器Host特性和Language Bridge的設(shè)計和擴(kuò)充,編譯器維護(hù),性能調(diào)優(yōu)等
  • 擴(kuò)展組:撰寫設(shè)備或輔助庫擴(kuò)展,如Geometry Shader的Host代碼,數(shù)學(xué)庫等

現(xiàn)有開發(fā)組成員均具有6-12年不等的開發(fā)經(jīng)驗,多數(shù)在業(yè)內(nèi)著名企業(yè)擔(dān)任主要開發(fā)人員或技術(shù)負(fù)責(zé)人的職位。

我們對開發(fā)組成員充分信任,開發(fā)組成員將在各自的分支上完成開發(fā)工作,在您工作的分支上,您享有完全的寫權(quán)限。
我們將按期進(jìn)行所有分支修改的Review工作,并邀請您參與到Review中來,您既是分支的作者,也是其他分支的審閱者。
如果您的修改通過了Review并采納到主分支中,我們希望能在您的協(xié)助下,將您對SALVIA的所思,所想,所為,原原本本的融入到SALVIA主分支中,令它如您所想般的成長。
同時,核心組將會視情況,組織線上或線下的技術(shù)交流活動,與大家一起交流技術(shù)心得、分享管理經(jīng)驗。當(dāng)然,也會分享快樂的人生。

如果您希望加入我們這個團(tuán)隊當(dāng)中,為我們的團(tuán)隊,為SALVIA提供您寶貴的支持,請您準(zhǔn)備好您的以下資料

  • ID:常用的ID,最好包括真實姓名
  • Google Account:如果沒有,可以申請一個。因為我們的SVN Repository是建立在Google Code上的)
  • 聯(lián)系方式:IM(QQ,MSN,GTALK)和Email,有手機(jī)最好
  • 自我介紹:包括擅長的技術(shù)啦,項目經(jīng)驗啦,閑扯也可,呵呵
  • 希望參與的工作
  • 其他要求:唔。。。隨便什么要求


發(fā)送至郵箱 wuye9036@gmail.com,或在此站點(diǎn)以站內(nèi)信的方式發(fā)送與我。我將盡可能的與您聯(lián)系并面議。


我們真誠歡迎您的參與,并對您的加盟,表示真心的感謝和由衷的期待!

posted @ 2009-12-07 10:31 空明流轉(zhuǎn) 閱讀(3420) | 評論 (15)編輯 收藏

2014年1月14日 #

以前的時候話多,能寫很長。工作以后人越來越懶,也越來越不能寫了。 總體來說13年干掉的事情比較多,但是得到的成長比較少。 最重要的當(dāng)然是把結(jié)婚證領(lǐng)了。這個本來就在計劃內(nèi),沒啥好說的。 然后就是來了X康。雖然去年底就把面試什么的走完了,但是二月底我才拿到offer,三月初才入職, 然后9月份就忙著領(lǐng)證,十月份開始就是辦簽證,準(zhǔn)備搬家,諸如此類日常瑣碎的事務(wù)。 十二月份整個月都耽誤在Relocation上。 自己的項目方面,就是想明白一些事情后,緩慢更新SALVIA。開了一些坑,比如CppTemplateTutorial。但是沒有一個坑是填平了的。 估摸著,2014年大概和今年的狀態(tài)接近。買車,把老婆弄過來,婚禮,省錢準(zhǔn)備接下來的生活,有時間的話就填坑(你們有什么C++ Template的問題都來問吧。。。)。
posted @ 2014-01-14 10:07 空明流轉(zhuǎn) 閱讀(3403) | 評論 (6)編輯 收藏

2013年2月11日 #

梗概

SALVIA 0.5.2 的優(yōu)化經(jīng)歷是一個“跌宕起伏”的過程。這個過程的結(jié)果很簡單:

在Core 2 Duo T5800(2.0GHz x 2)上,Sponza的性能提升了60%,ComplexMesh性能提升了26%。

 

背景

SALVIA的整個渲染流程主要是以下幾部分:

  • 根據(jù)Index Buffer獲得需要進(jìn)行變換的頂點(diǎn);
  • 將頂點(diǎn)利用Vertex Shader進(jìn)行變換;
  • 將變換后的頂點(diǎn),輸出成若干個float4;
  • 將三角形光柵化。SALVIA的光柵化是將三角形拆分成4x4的像素塊若干,不滿的塊有掩碼來處理;
  • 將像素進(jìn)行插值;
  • 插完值后把像素送到Pixel Shader中處理一趟;
  • 處理完的結(jié)果用Blend Shader塞到Back buffer里面去。

用于測試的場景:

  • Sponza 26萬個面,20個左右的Diffuse紋理(1024x1024);
  • PartOfSponza 約200個面,4個Diffuse紋理(1024x1024);
  • ComplexMesh 兩萬個面,無紋理,有個能量保守的光照。

最初的版本(V1231)中,性能的主要瓶頸在插值階段,各種耗時林林總總占了一半以上(50% - 70%)。

相比之下其他階段對性能的影響要么有限,要么沒有多少優(yōu)化空間。所以最近一周的優(yōu)化,就都集中在了“插值”上。

 

插值算法

線性的插值算法常見的實現(xiàn)有兩種,

第一種是拿UV插值,第二種是用ddx和ddy累積。

UV是先計算像素的u和v(基本方法是用面積比,不記得就復(fù)習(xí)一下中學(xué)幾何吧),然后用插值公式:

pixel = v0 * u + v1 * v + v2 * (1-u-v)

后者的步驟是選一個主頂點(diǎn),然后計算這個頂點(diǎn)的ddx和ddy,最后用

pixel = v0 + ddx * offset_x + ddy * offset_y

計算出相應(yīng)頂點(diǎn)。

但是在圖形學(xué)中,我們還需要對插值進(jìn)行透視修正,獲得在3D空間中線性的插值結(jié)果。

我們將步驟修正到透視空間

先將v0,v1,v2弄到透視空間中,變成projected_v0, projected_v1, projected_v2

對于UV的插值是

pixel = ( projected_v0*u + projected_v1*v + projected_v2 * (1-u-v) ) / pixel_w

對于用ddx和ddy的累積公式是:

pixel = ( projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y ) / pixel_w

 

插值算法的選擇

何詠(Graphixer)大神之前也寫了一個渲染器,比我快許多(大概是4-6倍),用的是UV;

gameKnife大神兩個禮拜寫成的渲染器,速度比我用五年寫出來的半成品要快7倍,用的辦法是Lerp到Scanline上,再Lerp到像素。

SALVIA采用了累積法:

struct transformed_vertex { float4 attributes[MAX_ATTRIBUTE_COUNT]; };
transformed_vertex projected_corner;

// 計算角點(diǎn)的坐標(biāo)
projected_scanline_start = projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y; 

// 像素的透視修正值
float inv_w; 

// 最終輸出的4x4個像素
pixel_input px_in[4][4];

for(int i = 0; i < 4; ++i)
{
  projected_pixel = projected_scanline_start;
  for(int j = 0; j < 4; ++j)
  {
      // 透視空間轉(zhuǎn)換到線性空間并輸出到px_in中
      px_in[i][j] = unproject( projected_pixel );
     // 累加x方向上的值(透視空間)
      projected_pixel += projected_ddx;
  }
  // 累加y方向上的值(透視空間)
  projected_scanline_start += projected_ddy;
}

 

本輪優(yōu)化之前對插值算法的優(yōu)化嘗試

注意那個MAX_ATTRIBUTE_COUNT,這個值通常比較大,在v1231中,它是32。

不過,顯然我們不需要對所有的屬性進(jìn)行計算。敏敏在這里運(yùn)用了一點(diǎn)小小的技巧進(jìn)行了優(yōu)化:只計算必要的屬性。同時,為了減少分支的使用,他甚至用

template <int N>
void sub_n(out, v0, v1 )
{
    for(int i = 0; i < N; ++i) {
       out.attributes[i] = v0.attributes[i] – v1.attributes[i];
    }
}

并配合函數(shù)指針的方法,以促使編譯器展開循環(huán),減少分支。

不過從實際生成的匯編來看,這個部分并沒有被展開到期望的形式,可能是編譯器認(rèn)為x86的Branch Predication性能已經(jīng)足夠高了吧。

這個“優(yōu)化”在v1231中就已經(jīng)具備了。

 

首輪優(yōu)化:unproject函數(shù),operator += 與 operator =

第一個Profiling是用BenchmarkPartOfSponza和Sponza跑的;unproject,operator +=和operator = 加在一起大約占用了15-20%的時間。單獨(dú)的unproject

最初的實現(xiàn)就是普通的標(biāo)量。既不要求對齊,也沒有使用SIMD。

所以當(dāng)然會以為用了SIMD后,優(yōu)化效果會很好。于是在v1232中,中間頂點(diǎn)和像素輸入的分配都以16字節(jié)對齊,unproj,+=和=也都使用了SSE進(jìn)行了重寫。

從跑分來看,PartOfSponza性能提升了20%。但是,在測試ComplexMesh和Sponza時,并未發(fā)現(xiàn)幀率有顯著提升。

其實在進(jìn)行優(yōu)化之前,何詠就告誡過我,因為現(xiàn)代CPU的一些技術(shù),比方說超標(biāo)量啥的,四個數(shù)據(jù)寬度的SSE和標(biāo)量運(yùn)算相比,就只有50%的性能差距。

并且這些函數(shù)的指令已經(jīng)極為簡單,瓶頸也很明確的落在計算指令上。例如Unproject優(yōu)化后,性能焦點(diǎn)就落在_mm_mul_ps上(3.7%),幾無優(yōu)化余地。

 

二輪優(yōu)化:插值算法的調(diào)整

在進(jìn)行第二輪優(yōu)化之前同樣運(yùn)行了一次Profiling。因為對PartOfSponza性能基本滿意,因此這次優(yōu)化的目標(biāo)主要在Sponza上。

排名前幾位的小函數(shù),分別是sub_n,unproj,+= 和tex2D。對sub_n例行優(yōu)化后,性能沒什么變化。當(dāng)然,這也是意料之中的事情了。

因此,第二輪優(yōu)化便著重考慮在插值算法本身上。

在優(yōu)化之前,我嘗試對代碼成本做個粗略的評估:

在現(xiàn)有算法下,假設(shè)每個像素有N個需要插值的屬性,則平均每個像素有

(corner)3N/16個讀 + 2N/16個乘法 + 2N/16個加法 + N/16個寫

(x:+=)2N個讀 + N個加法 + N個寫

(x:*)  N個讀 + 1個標(biāo)量除法 + N個乘法 + N個寫

(y:+=)2N/4個讀 + N/4個加法 + N/4個寫

(y:=) N/4個讀 + N/4個寫

因為每個都是函數(shù)指針,所以這些都是優(yōu)化不掉的。因此首先將一些操作合并了一下,比如把+= 和*合并以減少一下讀寫操作。只可惜效果也不是很明顯。

 

第二刀就砍到算法的頭上。因為累加本身是為了減少乘法的運(yùn)用,但是這可能帶來了多余的存取開銷。

因此直接套用公式:

pixel = ( projected_v0 + projected_ddx * offset_x + projected_ddy * offset_y ) / pixel_w

這樣就有:3N讀,2N乘法,2N加法,N個乘法和N個寫(假設(shè)寄存器夠用的話)。不算Corner的計算成本,這樣比較一下,就等于是3N/4個讀,N/2+N個寫,N/4個加法來換取2N個乘法的時間。本來以為作為IO瓶頸的應(yīng)用,這樣可以提高一些性能。不過結(jié)果證實這個買賣實在是很不劃算,整體性能不增反減。

 

三輪優(yōu)化:減少內(nèi)存占用,柳暗花明

雖然所有的操作只針對已使用的屬性,但是空間上還是浪費(fèi)了許多。

考慮到內(nèi)存占用較大也會導(dǎo)致一些性能損失,于是將MAX_ATTRIBUTE_COUNT從32下調(diào)到了8。

結(jié)果令人大跌眼鏡。性能瞬間提升了20-30%之多。

再加上SSE也不知道為什么開始發(fā)力了,使用上之后性能大約又有了10-15%的提升。

我猜測可能是因為換頁頻率下降,以及Cache的命中率提升。不過手上沒有VTune這種工具,所以也不太好驗證。

 

四輪優(yōu)化:精度敏感性下降的額外紅利

在這輪優(yōu)化之后,PartOfSponza出現(xiàn)了精度問題。因為視錐體的上下左右四個面都沒有Clip,所以可能會出現(xiàn)非常大的三角形。這樣累積的時候一旦起始點(diǎn)選擇的不好,就會出現(xiàn)比較大的誤差。在之前版本中,使用/fp: precise來減少這一問題出現(xiàn)的機(jī)會。但是因為使用了SSE,也讓這個問題再難解決。因此我選用了一些辦法,來改善精度問題。在大問題都修正以后,換用/fp: fast來編譯整個SALVIA,最終也獲得了0-10%左右的性能收益。

 

結(jié)論

對于運(yùn)算和IO都密集的程序來說,優(yōu)化真可能是牽一發(fā)而動全身的問題。比如在我的例子中,所有猜測是性能瓶頸的地方,都沒有得到預(yù)想中的改善。

倒是在內(nèi)存占用這個地方無心插柳,才得以柳暗花明,而且還讓別的優(yōu)化方案體現(xiàn)了價值。所以如果你不像qiaojie大牛那樣對x86了如指掌,還是要習(xí)慣于從多方面猜測,例如內(nèi)存占用,對齊或緊縮,計算強(qiáng)度,訪存密度,并行度等多個角度進(jìn)行設(shè)想并用實踐去驗證。盡管可能會遇到很多挫折,但是,只要是直覺上有優(yōu)化的余地,一般都可以找到合適的方案。

posted @ 2013-02-11 20:09 空明流轉(zhuǎn) 閱讀(2837) | 評論 (2)編輯 收藏

2013年1月13日 #

SALVIA是從07年底開始開發(fā)的。歷經(jīng)五年,無論是設(shè)計目標(biāo),還是使用到的一些方法,都和最初差別很大。

謹(jǐn)以此文,紀(jì)念我在五年中作出來的各種傻逼決定。

 

1. 2007年9月 - 2007年12月:可笑的動機(jī),可笑的雛形

動機(jī)與原型

SALVIA出現(xiàn)的原因其實很可笑。07年底的時候我正在寫一篇paper,講GP-GPU的。那個時候還沒有CUDA一類的東西,一切都要靠Shader來。本來我手上的顯卡是一塊9550的SDRAM的簡版。但是論文快結(jié)束的時候,突然這卡的風(fēng)扇就罷工了。然后我降頻用了大概一個多月,卡也廢掉了。因為沒錢買新顯卡,我就打算寫一個比D3D REF快的軟件渲染器。

07年底的時候,實現(xiàn)了第一版的SALVIA,當(dāng)時還叫SoftArt。第一版的SALVIA其實還算不錯,流水線的完整程度到現(xiàn)在都還沒超過,包括Cpp的Vertex Shader和Pixel Shader、紋理采樣、光照什么的一應(yīng)俱全。在開發(fā)過程中,主要參考GL 2.0的Specification,也閱讀了一些同類型軟件的代碼,例如Muli3D和Mesa。

一些對管線至關(guān)重要的概念,例如透視修正、固定管線上紋理采樣的LoD Level、Clip都是借助于Spec和這些實現(xiàn)建立的。

為什么要有Shader Compiler

如果是固定管線的話,那么SALVIA做到這些特性也就足夠了。但是從SALVIA一開始,我就希望讓它成為一個Pure Shader的管線,固定管線的那些狀態(tài)實在太煩人了。本來Cpp實現(xiàn)的Shading language能滿足絕大部分的需要了,但是有一個特性徹底難倒了我:Pixel Shader的差分函數(shù)ddx/ddy。

這個東西的工作原理是這樣的:

比方說我有一段shader函數(shù):

float shading_pixel( ... ): COLOR0
{
    float x;
    // Expression for calculating x
    return ddx(x);
}

在Pixel Shader運(yùn)行的時候,它一次性執(zhí)行2x2的一個小塊,所有的指令對于整個塊內(nèi)都是同步執(zhí)行的。遇到ddx(x)后,四個像素都正好執(zhí)行到這里,然后把x方向上的相鄰兩個像素的局部變量x求個差,就可以得出ddx了。

這個要求在C++中很難實現(xiàn)。

  1. 不好讓C++的四個函數(shù)都在同一個地方Join;
  2. 我不好去獲得相鄰函數(shù)的棧上的值。

其實如果要較真,當(dāng)然還是有辦法的:

  1. 對于Join問題,起碼有兩種方案:
    • 自己搞一個Fiber Manager,直接控制代碼的棧的Switch。每個pixel都有一個Fiber,到了DDX/DDY就換到下一個Fiber執(zhí)行,直到所有的Fiber都執(zhí)行完畢后,計算ddx,寫入棧變量,再繼續(xù)執(zhí)行;
    • 直接用線程,Join,計算,然后繼續(xù)執(zhí)行。
  2. 對于棧變量的地址問題,也有辦法:
    • 在切換線程的時候直接保存臨時變量的地址。

但是這些實現(xiàn),要么因為切換上下文而變得奇慢無比;要么就是完全沒有平臺移植性。想來想去,還是要讓代碼按照硬件的方式SIMD執(zhí)行。

所以我最終橫下一條心:要為它做Shading Language Compiler。然后開始了漫長的Compiler開發(fā)。后來我看團(tuán)長那個《漫無止境的八月》的時候,簡直就是對著鏡子照自己的傻逼。所以我才更黑團(tuán)長。

2. 2008年初 - 2009年12月:黎明前的黑暗

Shader的文法

08年到09年我都在外面實習(xí),一周上六天班,一天得干上十個多小時。從2008年初到7月份,我都一直在看編譯原理和成熟的語法庫。底子薄,看起來很吃力。到了8月份開始設(shè)計Shader的EBNF。設(shè)計語言,不外乎是三個方面:應(yīng)用場景、語法和庫的支持。盡管有現(xiàn)成的HLSL和GLSL作參考,但對于我從0開始設(shè)計語言來說,這些語言的語法和語義都過于復(fù)雜了。我需要讓語言特性慢慢的添加進(jìn)來。

考慮到HLSL和C比較接近,C的文法參考資料又很多,于是我選擇了從C開始裁剪語法。但是文法這個東西,并不簡簡單單是樹狀的結(jié)構(gòu),樹上的任何一個語法節(jié)點(diǎn),都可能會引用到其它的文法規(guī)則。因此修改了一條規(guī)則后,你會發(fā)現(xiàn)它可能會和其它規(guī)則沖突了,二義了。于是裁剪計劃完蛋了。

當(dāng)然,如果我現(xiàn)在來設(shè)計語法,肯定會和陳漢子一樣,直接從Use Case就能把EBNF寫出來,再稍微規(guī)范一下,一門不那么復(fù)雜的語言就成了。當(dāng)然像C++這種變態(tài)語言,這樣做是做不出來的。但當(dāng)時我顯然不具備那樣的能力。從七月份開始就磕磕絆絆地裁剪了一些語法特性之后的語言,到了八月份才出了個千瘡百孔的方案。

神:Boost.Spirit

作為完全不懂編譯器的矬貨,設(shè)計語言一定要和編譯器的開發(fā)放在一起才能有點(diǎn)收獲。我用過Flex/Bison,用過ANTLR。但是當(dāng)時我對編譯器特別的陌生,組織Build的能力也比較弱,因此它們在使用上繁瑣和難于調(diào)試給我?guī)砹撕艽蟮睦_。不過那時我對模板、元編程和Boost就已經(jīng)相當(dāng)熟悉了,無論是開發(fā)、閱讀代碼還是Debug都能輕松應(yīng)付,所以我挑了半天,選了Boost.Spirit。

Boost.Spirit是個很奇葩的東西。它想在C++里面提供一個類似于EBNF、可以定義語法分析規(guī)則的方言。要讓C++看起來像一個方言,當(dāng)然是要使用神出鬼沒的操作符重載。當(dāng)然,即便是修飾后的語法,看起來也還是會有點(diǎn)怪怪的。EBNF中的規(guī)則

Rule ::= Token SubRule0 [OptionalSubRule1]

在Cpp中最簡單可以表示成

rule = token >> subrule0 >> optional(OptionalSubRule1)

雖然看起來有點(diǎn)丑陋,但是它已經(jīng)完全滿足一個DSL的要求了:直觀的面向解決方案。

不過如果牽涉到實現(xiàn)細(xì)節(jié),在C++里面要寫一個又簡單、又可用Parser Generator,那幾乎是不可能完成的任務(wù)。起碼對于Combinator-based Parser來說,它夠簡單,但是沒有CPS的支持會令錯誤恢復(fù)這一類的周遭設(shè)計變得極為可怕;如果Rule只是grammar definition,不牽涉到任何Parser的構(gòu)造,那解析這個definition的復(fù)雜度和調(diào)試難度又不亞于ANTLR或者Yacc這樣有單獨(dú)腳本的工具。所以這項工作,還是交給Haskell這樣的語言來完成吧。

通過使用Spirit、設(shè)計編譯器、折騰文法,讓我對Compiler和Cpp的理解都遞進(jìn)了一大步。再加上08年全年都在做GUI相關(guān)的東西,也讓我對編譯器的理解有所加深。

09年下半年我一直都比較動蕩,不過到年底總算是安定了下來。

3. 2009年12月—2010年2月:長征的開始

后端與前端

09年12月份的時候,Boost升級了,Spirit也到了V2。到了2月份,我費(fèi)了點(diǎn)功夫,把V2的Spirit折騰到SALVIA的前端上。Parser也有所變化:前一版的Parser還比較草率,這一版的Parser我?guī)缀跏峭耆凑誗pirit的Demo中的方案進(jìn)行的。此時我也開始嘗試著撰寫語義分析。怎么做函數(shù)重載都是在那個時候開始點(diǎn)的技能樹,雖然在現(xiàn)在看來都是歪的。為了執(zhí)行生成的代碼,我設(shè)計了半個虛擬機(jī),然后還準(zhǔn)備寫點(diǎn)教程。但是我思前想后,對于Shader這樣一秒鐘要調(diào)用10M次的函數(shù),無論如何虛擬機(jī)都是不合適的。

所以我就開始籌備自己的后端。要求就是一個字:快。那個時候,陳漢子正在學(xué)怎么寫x86的JIT。但是我的語言到x86有很長的路要走。怎么去分配寄存器,怎么把類型轉(zhuǎn)換到x86的Native,怎么選擇指令,我都是一知半解的。憑我當(dāng)時的知識,這一定是不可能完成的。

于是在閱讀完Intel Architecture手冊和優(yōu)化指南后,我決定去找一個合用的后端。考慮過很多可選的辦法,例如生成C++的Code然后編譯成DLL;使用Tiny C(TCC);或者是JIT。但是它們?nèi)秉c(diǎn)都是很明顯的。編譯成DLL必須要自己裁剪一個GCC出來;Tiny C的效率并不是很好;JIT很復(fù)雜(起碼在那個時候是這樣)。不過2月份的時候,敏敏還是誰指點(diǎn)了我一下,說你可以去看看LLVM。然后我去一看,牛逼,就是我要的東西!然后我就開始學(xué)LLVM。LLVM的IR很好學(xué),一個下午就搞了個Hello world。

這個時候,minmin也在SALVIA上實現(xiàn)了Half-Space的光柵化算法。

那個時候我躊躇滿志,意氣風(fēng)發(fā),三月趕英,五月超美。

可沒想著就這么掉坑里面去了。

4. 2010年2月—2011年新年:苦難的行軍

苦難:復(fù)雜的問題

主體大人真是神,五個字就概括了我2010年一年的努力。

  • minmin做的SALVIA的Half-Space算法并不比我樸素的Top-Bottom的光柵化強(qiáng);
  • 紋理上的優(yōu)化盡管使用了SSE但是仍然改進(jìn)有限;
  • Shader編譯器本身的編譯時間由于Spirit的存在而實在漫長;
  • Shader編譯器和Pipeline如何關(guān)聯(lián)又無從下手;
  • LLVM的集成也因為前端而有所耽擱,另外因為各種錯誤層出不窮,讓整個開發(fā)進(jìn)度變得龜速。

所以整個一年中,SALVIA的開發(fā)就是寫寫停停,停停寫寫。可以說08年初的銳氣,已經(jīng)消磨的差不多了。到了8月份的時候,我畢業(yè)了,新工作也基本上確定和熟悉了,我就和minmin說,從現(xiàn)在開始我寫半年報吧,講述一下半年來的進(jìn)展。于是便有了第一篇項目簡報。

行軍:些微的進(jìn)展

也正是從那個時候,我決定要把SALVIA作為一款實驗品來對待,用上所有我不會的或者新學(xué)的東西。單元測試,CMake工具鏈,為Shader設(shè)計的Pipeline,語義分析和后端的原型都在那一年加入了SALVIA。雖然從實現(xiàn)上它們已經(jīng)與現(xiàn)在相距甚遠(yuǎn),但是起碼一切都還是往好的方向發(fā)展。

另外,08年到09年期間在實習(xí)的時候積累的教訓(xùn)開始慢慢的醞釀和發(fā)酵,敏捷也逐漸成為了我開發(fā)過程中的主要指南。

基本上,那個時候積累了很多必要的經(jīng)驗和教訓(xùn)。當(dāng)然絕大多數(shù)是教訓(xùn)。

5. 2011年2月—2011年6月:新Shader的起點(diǎn)

坑神:Boost.Spirit的滅亡

在11年的春節(jié)期間,我終于無法忍受Spirit的麻煩了:

  • 一段400行不到的代碼,在我的機(jī)器上需要編譯30分鐘;
  • Object File需要占用1.9G的硬盤;
  • Mangling name輕松超過4K字符的限制;
  • 輕易撐爆obj文件的symbol table,需要用/bigobj才能夠編譯通過;
  • 甚至在編譯的時候會輕易的讓32位的MSVC CL out of memory。

要知道,以上這些還是應(yīng)用了Spirit指南中的編譯速度優(yōu)化方案之后的結(jié)果。

這一切原因,都是因為Boost.Spirit對于Parser Tree,是用了完全靜態(tài)的分析樹結(jié)構(gòu)。每條規(guī)則的返回值都會是完全不同的類型。這直接導(dǎo)致類型數(shù)量極為龐大,代碼膨脹的厲害。

于是11年的寒假我花了5天的時間重新山寨了一個文法分析器的產(chǎn)生器,并做到DSL幾乎完全和Spirit一致。只不過Parser Tree不再是靜態(tài)類型;模板的用量也減輕了很多。

Shader的階段性成果

到了四月份的時候,Shading Language Semantic/System Value已經(jīng)在語法上支持了,語義上也能分析出哪些變量是System Value,哪些變量是Uniform的。并且通過生成特殊的函數(shù)簽名,Shader滿足了以下幾個需求:

  1. Shader要返回一個函數(shù);
  2. 這個函數(shù)是可重入的(因為要并發(fā));
  3. 數(shù)據(jù)能正確的從Pipeline傳入到Shader的函數(shù)中,也能正確的返回;
  4. Shader中對于Pipeline數(shù)據(jù)引用要能正確的生成地址。

到了11年6月份的時候,終于把Shader全線貫通。雖然很多Operator和Instrinsic還不支持,但是起碼有了個可以看的Demo。

第一個版本與發(fā)布前的完善工作

LLVM用上了;VS完整了,PS也有了個雛形;預(yù)處理器什么的都有了。

Unit Test也有了原型。我為每個Stage都做了Unit test:Parser,Semantic,CodeGen和JIT。

某種意義上來說,這幾個月來在后端上順利進(jìn)展,讓我多少有點(diǎn)得意忘形。再加上梁總的幫助,SoftArt這個名字改成SALVIA,LOGO也有了,我在部門內(nèi)部做的一些Introduction也幫助我梳理了思路。于是從4月份開始,我就籌備著要把SALVIA正式發(fā)布出去。

11年6月1號,SALVIA Milestone 1.0 發(fā)布。有Change Log,有Binary Demo,有Snapshot。

三周后,發(fā)布了第一個有Vertex Shader的Demo

6. 2011年7月—2012年1月:坂道の1.0

Pixel Shader:需求與設(shè)計

在Milestone 1.0發(fā)布后,我開始做Pixel Shader的特性。本以為半年之內(nèi)就能搞定,發(fā)個1.0揚(yáng)眉吐氣一下。但是實踐證明,我真是他媽的太盲目樂觀了。

我先來說一說Pixel Shader的特點(diǎn)和需求。比方說我有四個pixel,每個pixel都是一個float。

struct pixel_input
{
  float data;
};

pixel_input pixel_block[4];

然后我要計算一下,這個data加上1.0之后是多少。我前面說過,我要讓指令看起來是四個像素同一時刻執(zhí)行的,那么顯然我生成的代碼就會類似于這樣:

struct pixel_input
{
  float data;
};

struct pixel_output
{
  float data;
};

void shading_pixel(pixel_input* in_data, pixel_output* out_data)
{
     // TMP = IN_DATA.DATA + 1.0
     float tmp0 = in_data[0].data + 1.0;
     float tmp1 = in_data[1].data + 1.0;
     float tmp2 = in_data[2].data + 1.0;
     float tmp3 = in_data[3].data + 1.0;

    // OUT_DATA.DATA = TMP
    out_data[0].data = tmp0;
    out_data[1].data = tmp1;
    out_data[2].data = tmp2;
    out_data[3].data = tmp3;
}

Pixel Shader:優(yōu)化與問題

顯然這里是可以優(yōu)化的:將四條指令并作一條SIMD指令。

那么這個時候,有兩個需求是要滿足的:

  1. 同樣的struct member一定要是鄰接在一起。
  2. 得根據(jù)SIMD的要求數(shù)據(jù)對齊。

只有一個域當(dāng)然好辦。如果struct很復(fù)雜呢,比方說下面這樣:

struct
{
   float;
   float2;
   int3;
   struct 
   {
       float2[3];
       float;
   };
};

那就會衍生出各種問題:

  • 那要不要把每個域都展平呢?
  • 展平到什么程度?
  • 讓每個Builtin Type Member相鄰,還是讓每個Float/Int相鄰?
  • 那遇到動態(tài)尋址,怎么辦?
  • 展平后的代碼,與VS中的代碼能通用嗎?

每個方案都一定能完成,每個方案都有明顯的缺陷。最初我是想嘗試四個像素完全獨(dú)立的辦法,這樣實現(xiàn)起來最方便。但是出于對性能的追求,我又想做展平的。展平的方案做到一半,發(fā)現(xiàn)太復(fù)雜了。

坑神II:LLVM

此外,還有幾個非常嚴(yán)重的問題,發(fā)生在LLVM上。

一個是ABI。一個符合C Calling Convention的LLVM函數(shù),它對堆棧的理解與VS完全不同,特別是參數(shù)傳入或者返回Struct的時候。這樣,直接用LLVM的函數(shù)Export出來后,讓VC去Call它就一定會失敗。為了解決它,我花了近兩周的時間,設(shè)計了一個Proxy,讓函數(shù)避免用Struct來傳遞,一切數(shù)據(jù),除了和寄存器同樣大小的float和int,其余數(shù)據(jù)都通過指針來做。同時,我需要將一些函數(shù)注入到LLVM中,比方說紋理采樣,此時ABI同樣是個禍患。為了讓Code Gen正確的識別函數(shù)是LLVM的調(diào)用協(xié)議還是我自己定制的調(diào)用協(xié)議,并產(chǎn)生正確的代碼。我做了各種奇葩和傻逼的方案。有一些方案被廢棄了,但是主要的Idea,仍然沿用到現(xiàn)在。

一個是臨時變量(包括Spiller)的對齊。在Linux/GCC上,棧頂和棧基指針一定是16字節(jié)對齊的。如果編譯器需要分配一個臨時變量,那么它只要通過ESP - 0x10*n就能獲得一個對齊的地址。但是在VC中,x86下完全沒有這樣的限制(除非函數(shù)中使用了__m128,這個時候在進(jìn)入Frame之后會有一個SUB/AND的指令把棧頂搞到16字節(jié)對齊。)。但LLVM生成的所有代碼,又是基于GCC的假設(shè)。SALVIA生成的局部變量,還可以控制地址,但是對于編譯器臨時生成的變量來說,就完全不可控了。在3.1之后因為引入了AVX,需要32字節(jié)對齊,這個問題就更加變本加厲了。在x86上,我還可以通過嵌入?yún)R編,來強(qiáng)制調(diào)整棧幀。但是在x64上,又啟動了AVX的情況下,我就徹底沒有辦法了。這個問題一直延續(xù)到現(xiàn)在,如果我不動手去Debug LLVM的話,就只能等他們什么時候想起來修復(fù)這個問題了。

SIMD執(zhí)行模型下分支的處理

Pixel Shader的執(zhí)行模型是SIMD的,這要求每個像素上同一時刻都執(zhí)行相同的指令。如果沒有分支,那自然是簡單無比。一旦有了分支就打破了這個約定。在DX9.0b及之前,這當(dāng)然沒問題。

但是Shader Model 3.0正式支持Dynamic Branch開始,這個問題就凸現(xiàn)出來了:分支要怎么處理?

對于Pixel Shader來說,會面臨三種分支:靜態(tài)分支,準(zhǔn)靜態(tài)分支(這個名字是我瞎起的)和動態(tài)分支。

float branches( uniform float udata, float vdata: POSITION): COLOR0
{
   const float zero = 0.0;
   if(zero < 1.0)
   {
     // Static branch
   }

   if(udata)
   {
      // Semi-Static Branch (我自己造的)
   }
  
   if(vdata)
   {
     // Dynamic Branch
   }
} 

我們來分情況討論一下:

  • 對于靜態(tài)分支來說,因為確定分支的是一個常量,那么顯然在編譯階段就能夠知道分支執(zhí)行與否,直接生成對應(yīng)的代碼就可以了。
  • 對于uniform作為判斷條件的分支來說,在shader編譯的時候,并不知道這個分支是否會執(zhí)行。但是呢,Uniform會在Shader執(zhí)行前設(shè)置,和代碼執(zhí)行相比,Uniform設(shè)置的比例非常低。這個時候我們可以先講代碼編譯成中間表達(dá),這個中間表達(dá)會知道一個變量是不是Uniform的。在Uniform設(shè)置好后,Shader真正執(zhí)行前,把Uniform替換成那個值,也就是把Uniform當(dāng)做常量,對Shader再編譯一次,得到真正的執(zhí)行指令。所以在指令執(zhí)行的時候,準(zhǔn)靜態(tài)分支就和靜態(tài)分支完全相同了。
  • 最后一個,動態(tài)分支。如果判斷條件就是動態(tài)的,那沒辦法,如果要支持SM3.0,就必須要能支持它。同時對于不同的Pixel,都可能有不同的分支。這對于SIMD來說,才是真正的難題。

實際上,我們真正要解決的,就是動態(tài)分支。

對于SIMD模型來說,動態(tài)分支有三種處理辦法。

  1. 跳轉(zhuǎn)執(zhí)行。像CUDA 2.0以上那樣的指令集具備有一定的跳轉(zhuǎn)執(zhí)行能力。編譯器可以把SIMD拆開,按照標(biāo)量執(zhí)行。每個都執(zhí)行完了后,再繼續(xù)按照SIMD執(zhí)行其他的代碼。
  2. 條件執(zhí)行。這也是圖形硬件上最常見的執(zhí)行模式。通過一個位,就可以決定GPU中的執(zhí)行單元是否執(zhí)行一段代碼。舉個不準(zhǔn)確的例子,如果是個4并發(fā)的執(zhí)行器,那么四個并發(fā)執(zhí)行器的執(zhí)行條件可以設(shè)置為1100,這樣就只有前兩個單元的數(shù)據(jù)執(zhí)行,后兩個不執(zhí)行了。
  3. 寫掩碼。這個辦法是沒有辦法的辦法。它的基本理念就是:只要不寫到內(nèi)存中的執(zhí)行結(jié)果,就可以認(rèn)為它沒執(zhí)行過。但是寫掩碼總是浪費(fèi)了指令。不過好歹它還是避免了跳轉(zhuǎn)的。所以對于早期的ARM這樣沒有分支預(yù)測的精簡體系來說,一旦有分支執(zhí)行起來就是死翹翹。所以它有類似于Select-Store這樣的指令,盡可能的避免分支的出現(xiàn)。

對于SAVLIA來說,跳轉(zhuǎn)執(zhí)行和寫掩碼是兩個可能的選擇。因為寫掩碼的代碼生成起來更加輕松一些,所以目前的SALVIA的實現(xiàn)是寫掩碼的。在x86/x64平臺上,對于AVX以上的指令,還可以用blend。但是對于其他指令而言,基本上只能是通過跳轉(zhuǎn)實現(xiàn)寫掩碼。所以這部分的開銷其實很大。等到造出了自己的SSA之后,再來考慮分支執(zhí)行的事情吧。

對于寫掩碼的掩碼要怎么計算,一開始我心里挺沒譜的。特別是有了,Continue和Break之后,情況就會變得復(fù)雜起來。一開始我沒法確信自己的方案是正確的。后來看了MESA的Gallinum以后,看見了Continue Mask和Break Mask兩個變量,瞬間就明白了。

具體怎么思考的不多說了,這里寫下幾個結(jié)論:

  1. 語言不能有Goto(有Goto會讓代碼變得非常復(fù)雜,甚至不可解);
  2. 所需要的掩碼的數(shù)量會隨著循環(huán)的嵌套層數(shù)的增加而增加;
  3. 每個循環(huán)最多有三個掩碼:Break,Continue和Mask;
  4. 程序是固定的話,掩碼的數(shù)量就一定是個常量。(要不然硬件就沒法做了)
  5. 寫掩碼的位數(shù)只和執(zhí)行單元的數(shù)量有關(guān),和嵌套深度無關(guān)。

坂道のTest

盡管遇到了各種難處,但是很多方案還是順利的做出來了。方案和方案之間差異很大,要想順利移植,必須要有Test。

之前也說過,一開始我的Test是按照Parser,Semantic,Code Gen,JIT分開做的。但是呢,這樣一來,不同Stage之間的Test復(fù)用性非常高。而且因為Stage經(jīng)常變化,包括Stage的接口。這時候Test就完蛋了。Test本身也很枯燥(變量名都不好起),所以Test重寫起來難過的要死。

于是我重新審視了一下需求。發(fā)現(xiàn)我最終只關(guān)心JIT編譯出來的函數(shù)的運(yùn)行結(jié)果,其實并不關(guān)心中間的過程。而且隨著我對編譯過程理解的逐步變化,Compiler Stages幾乎每隔兩個月就要進(jìn)行比較大的修正。測試的量稍微大一點(diǎn),就沒有辦法維護(hù)Test Case了。并且,對于單條語句或者非常短的函數(shù)來說,從詞法到最終JIT出來的函數(shù)所覆蓋的編譯器代碼非常之少,可能3-4個函數(shù),代碼就出來了。即便有問題,對比過去的版本輕松就能分析出來。再加上大量的Assertion,診斷起來更加容易。

因此,在這幾個月中我完全重寫了Test Case:讓JIT的測試粒度更低,測試更豐富;取消所有的中間Level的測試。新的測試回歸起來非常容易,出了問題也很好找到。在Test Case寫完后,正好看到Martin Fowler噴過度TDD的問題,真是感同身受。

測試需要嗎?當(dāng)然需要。但是選擇合適的Level,做合適的測試是非常重要的。結(jié)合之前實習(xí)的時候的Unit Test經(jīng)驗,有以下幾點(diǎn)感受:

  1. 測試一定要選擇盡可能低的面,這樣牽涉的代碼就盡可能少;
  2. 在縱向上,粒度要細(xì)。除了單個API的Test,還要有適度的交叉,不過太綜合的測試,請讓集成測試用例來完成;
  3. 要重視代碼覆蓋率;
  4. 測試面向的API要穩(wěn)定。天天變得API會讓你徹底失去寫Test的信心。API越穩(wěn)定,在它上面出現(xiàn)問題的機(jī)會就越多,你寫的測試性價比也越高。

坡長路遠(yuǎn),小步快走

在完成了Test的改造后,終于有了一個合適的發(fā)布前評估。所以到了11年11月后,發(fā)布的速度就明顯變快了許多。快速的發(fā)布對于做一個長期項目來說非常重要。這也和敏捷的想法不謀而合。不管是從品質(zhì)控制上、還是進(jìn)度追蹤上,或者是說對開發(fā)者自信心的增強(qiáng),都需要有短平快的開發(fā)周期。11年也正好是Autodesk推行敏捷的一年。同事里面有很多的人反應(yīng)說敏捷會導(dǎo)致軟件品質(zhì)的下降,短期目標(biāo)會導(dǎo)致過于追逐眼前利益。

但是從我的經(jīng)驗來看,對于個人,敏捷要短平快。但對于團(tuán)隊,敏捷要從長計議。不是所有的iteration都需要開發(fā)新特性,必須要保留足夠的iteration來完成重構(gòu)、整理、設(shè)計方案的反省和討論。對于以年為單位的長周期產(chǎn)品來說,可以每個季度有3-5天的時間,每個人都提出對框架的改進(jìn)計劃;每年有兩周的時間,完成框架的重構(gòu)和修正。更小的重構(gòu),可以安排的更加短小的時間。

6. 2012年1月及以后:現(xiàn)在與未來

新特性,新思考

從11年7月份開始到現(xiàn)在,就一直在做Demo、優(yōu)化、特性的完善;以及一些新特性的思考。

總的來說,這一年半的時間里面,很多工作已經(jīng)不像早先幾年做的那么吃力,但是仍然在很多的點(diǎn)上有所斬獲。

  • 整個編譯器后端,包括基本的分析和優(yōu)化都已經(jīng)有所了解,LLVM也熟悉了許多;
  • 對Shader相關(guān)的API的了解也不再懵懵懂懂;
  • 對于語言機(jī)制的研究,加上陳漢子時不時拋來的一些思維發(fā)散題令我對語言有了更深入的認(rèn)識;
  • 認(rèn)識了RFX,在短短幾周就幫助我在閱讀V8和LLVM時積累的一些知識轉(zhuǎn)化成了有用的理解。

在2012年底為SALVIA進(jìn)行了局部的重新設(shè)計,也是“學(xué)”與“習(xí)”的新一輪“習(xí)”。新的SSA及Shader優(yōu)化、JIT化的管線、對性能有要求的新前端、瞄準(zhǔn)DX11以上Shader Model Features、JIT的調(diào)試符號,這些一定會給我?guī)碓S多絞盡腦汁想不明白的問題,但同時我也會學(xué)習(xí)到、實踐到許多新的知識。

我相信時間會教給我們一切。

posted @ 2013-01-13 05:00 空明流轉(zhuǎn) 閱讀(6107) | 評論 (12)編輯 收藏

2012年3月8日 #

1. Diagnostic需要提供哪些數(shù)據(jù)

出錯處理和錯誤提示,是編譯器開發(fā)過程中重要而繁瑣的部分。

診斷信息的格式因編譯器和IDE而不同。

SALVIA將采用Visual Studio的格式,即 文件 + 行列 + 類別(等級) + 編號 + 出錯信息。例如:

d:\programming\salvia\sasl\test\cgllvm_test\function_test_basic.cpp(16): error C2061: syntax error : identifier 'te'

因此在出錯分析的時候,也需要提供如上的一些信息。


2. 診斷信息Diagnostic Item

在以上信息中,文件名和行列號可以在詞法分析的時候獲得,我們將它作為屬性附加在Token中。

類別和編號,對于同一個編譯器而言是相對固定的,盡管我們可以用ID來表示,但是它并不直觀,編譯器檢查也較少。與參數(shù)匹配時,也比較容易出錯。

SASL中的診斷信息將每個錯誤都使用一個類型來表達(dá):

class diagnostic_item
{
};


class unrecognized_identifier: public diagnostic_item
{
public:
    unrecognized_identifier& token( token_t tok );
    
private:
    static int level;
    static int id;
    static std::string description_template;
    
private:
    std::string ident;
    size_t      row, col;
    // Other properties
};

這樣的好處在于可以用Combinator的風(fēng)格來撰寫錯誤信息。例如這樣:

diagnostic_chat.report<unrecognized_identifier>().token( err_tok );

并且由于編譯器的保證也比較不容易寫錯。

 

但是這種寫法也有一個很關(guān)鍵的問題,需要為每個錯誤都定義一個類,工作量很大。SASL對這一問題的處理,自然是傳統(tǒng)的大殺器:運(yùn)用腳本進(jìn)行生成。

Clang使用了它內(nèi)置的代碼生成工具td來完成生成的工作。

 

3. 診斷信息管理器Diagnostic Chat

Chat是診斷信息的管理工具。它主要要完成以下需求:添加和清理診斷信息,以及在診斷信息的添加清理時提供回調(diào)操作。

后者是很有用的,尤其是在調(diào)試編譯器的時候。你得分清楚究竟是真正的程序錯誤呢,還是編譯器出了錯。

Diagnostic Chat的原型如下:

class diagnostic_chat
{
public:
    template <typename T> T& report();
    void add_report_diagnostic_handler( DiagnosticHandlerT handler );
};

同時,我們也將Treat Warning As Error,Error Count,Disable Warning,Stop compiling when error occurs等狀態(tài)和功能所需要的支持添加到Chat中。

所以,Chat除了提供管理之外,也要具有相應(yīng)的診斷信息的統(tǒng)計功能。

 

4. 過濾器Diagnostic Filter

Filter主要配合IDE使用,從Chat中取出符合條件的診斷信息。Error Count和Disable Warnings等功能也可以通過它來完成。

 

5. Formatter

Formatter用于將DiagnosticItems中的信息轉(zhuǎn)換成人可讀的字符串。目前SASL只打算支持Visual Studio的格式,但是相信支持GCC的格式以更好的和Eclipse等第三方IDE集成并不困難。

在C#里面,我們可以用“We need ‘{0}’ not ‘{1}’.”這樣的方式來分離description template并延期的產(chǎn)生格式化的字符串。但是在C++中,這種做法并不容易。C的sprintf很難具有延期、漸增的綁定模板的特定,對自定義類型的字符串化的支持也不足,類型安全也比較差;而stream的話,也會面臨著將好端端的格式化字符串割裂的問題。SASL使用了boost.format,從一定程度上搞定了這兩個問題,從而像C#一樣,使用格式化字符串的功能。

posted @ 2012-03-08 21:25 空明流轉(zhuǎn) 閱讀(2069) | 評論 (0)編輯 收藏

2012年3月6日 #

SALVIA 0.3 出爐了!

這是自2010年8月份以來, SALVIA Milestone 1.0之后最重要的發(fā)布!

0.3開始,SALVIA正式支持了Pixel Shader。

自2008年中開始的Shader設(shè)計與實現(xiàn)工作基本完成。

未來一年內(nèi),SALVIA的工作將集中以下幾點(diǎn):

  1. 在Shader編譯器的完善上,比如友善的語法和語義錯誤提示。
  2. 提升與管線的集成度,進(jìn)而充分提升性能。
  3. 編譯器和編譯器生成代碼的優(yōu)化,提高Shader的編譯速度和運(yùn)行速度。
  4. 新的圖形特性,如各向異性過濾等。

隨著SALVIA整體的逐漸成熟,我們也希望有其他的朋友能來參與和支持這個項目,一同進(jìn)步。

如果您希望參與到這個項目中,請mail聯(lián)系我:wuye9036 __at__ gmail dota com.

 

tex2D

posted @ 2012-03-06 17:41 空明流轉(zhuǎn) 閱讀(1947) | 評論 (0)編輯 收藏

2012年2月24日 #

SALVIA 0.2.5 發(fā)布!

項目主頁: http://code.google.com/p/softart/

更新列表如下:


0.2.2 - 0.2.5 (Feb 24, 2012)

  • 版本名稱發(fā)生變化,從原先的Milestone X fix Y的命名方式正式更新為與主版本相同的版本號序列。
  • 取消了對DirectX的強(qiáng)制依賴。
  • 添加了對Visual C++ Express的支持
  • Pixel Shader 進(jìn)一步增強(qiáng):
          1. 提供了對分支語句 if 的支持  
          2. 支持 for, while, do-while 循環(huán)
          3. 添加了新的內(nèi)建函數(shù):ddx ddy dot cross sqrt
          4. 添加了紋理取樣函數(shù)tex2D的原型
  • 對Rasterizer進(jìn)行了進(jìn)一步的優(yōu)化
  • 修正了以下問題:
          1. 在x86上執(zhí)行vertex shader時可能會Crash的問題
          2. 不能再build配置文件中指定CMake路徑的問題
          3. 一些表達(dá)式調(diào)用時報告函數(shù)重載錯誤的問題
posted @ 2012-02-24 16:56 空明流轉(zhuǎn) 閱讀(2586) | 評論 (1)編輯 收藏

2011年12月26日 #

SALVIA在Milestone 1.2 Fix 2中,正式提供了一站式編譯腳本的支持。

項目主頁:http://code.google.com/p/softart/

新的編譯步驟如下:

1. 下載最新的CMake并安裝。

2. 下載Python 2.7并安裝。

3. 下載boost 1.44或更新的版本,解壓到某個目錄下。

4. Clone或下載SALVIA代碼包,執(zhí)行根目錄下的build_all.py文件。第一次運(yùn)行的時候會生成一個project.py,編輯project.py設(shè)置相應(yīng)屬性,包括boost代碼目錄,編譯器,configuration等。

5. 再次運(yùn)行build_all.py,編譯程序。

posted @ 2011-12-26 21:09 空明流轉(zhuǎn) 閱讀(2643) | 評論 (5)編輯 收藏

2011年11月22日 #

1. LLVM在x86和x64下都和Microsft C++ ABI的吻合程度不夠。目前已知在以下情況下會出錯:
  • 參數(shù)為結(jié)構(gòu)體的
  • 返回值為結(jié)構(gòu)體
以下情況我沒有完整測試過:
  • 返回值為單個浮點(diǎn)
  • 返回值為向量(_m128 / <4 x float>)
  • 參數(shù)為向量(_m128 / <4xfloat>)
所以建議大家統(tǒng)一將是結(jié)構(gòu)體的返回值和參數(shù)以引用/指針的形式傳遞。
對于大小為4個或者8個字節(jié)的結(jié)構(gòu)體如果希望按值傳遞,那么需要在LLVM函數(shù)的簽名上使用i32/i64作為參數(shù)類型,并使用bit cast在函數(shù)體內(nèi)強(qiáng)制轉(zhuǎn)換成結(jié)構(gòu)體。

2. LLVM提供了很多的Intrinsics,例如SSE指令集。它在Module上提供了一個getOrCreateTargetIntrinsic,但實際上這個函數(shù)是坑爹的。有兩個方法可以正確的創(chuàng)建并獲取指令集:
  • 使用Module::getOrInsertFunction( intrinsic_name, intrinsic_function_type )。它會自動識別intrinsic的名稱并創(chuàng)建function或者是intrinsic。指令需要使用全名。例如 llvm.x86.sse.sqrt.ps.
  • 或者使用Ilvm::Intrinsic::getDeclaration( id ) 來創(chuàng)建。這個id可以在intrinsics.gen中找到。
因為LLVM生成的Intrinsic是全平臺的,所以可以在x86上指定ARM匯編的生成,反之亦然。

3. 默認(rèn)情況下,LLVM的JIT是不會啟用InliningPass的,Optimization Level指定為Aggressive也不會。這意味著inlinehint和alwaysinline都是失效的。如果需要inlining得自己修改JIT的源代碼。

4. UndefValue是個好東西。這個常量可以使生成的匯編少一條初始化指令。比方說用0初始化,可能對應(yīng)的匯編就是 xor reg, reg。如果用了Undef,那這條指令就沒了。

5.
TypeBuilder很好用,只是不能生成struct等復(fù)雜的類型。不過你可以對它做一些修改以讓它支持struct和vector。這個時候Boost.MPL就能派上用場了。不過要當(dāng)心MPL帶來漫長的編譯時間。
posted @ 2011-11-22 21:04 空明流轉(zhuǎn) 閱讀(2939) | 評論 (0)編輯 收藏

2011年8月17日 #

在設(shè)計一門語言與其他語言交互的API與ABI(Application Binary Interface,二進(jìn)制接口)時,調(diào)用協(xié)議和內(nèi)存對齊是兩個無從回避的問題。

本文將討論如何在LLVM上生成正確的內(nèi)存對齊和調(diào)用協(xié)議的代碼。

在這里為了方便和標(biāo)準(zhǔn)起見,假定應(yīng)用LLVM的語言的Extending和Embedding的對象都是C。

調(diào)用協(xié)議

先來討論調(diào)用協(xié)議。調(diào)用協(xié)議用于保證調(diào)用方和被調(diào)用方在二進(jìn)制/匯編一級上是相容的。合適的調(diào)用協(xié)議可以幫助構(gòu)造出以下代碼:

// Callee Signature of LLVM code
void __cdecl foo( int a, float b, float4 c);

// C caller
typedef void (__cdecl* fn_ptr)(int, float, float4)
fn_ptr p = static_cast<fn_ptr>( get_jit_function("foo") );
p(1, 1.0, vec);

一般來說調(diào)用協(xié)議包括參數(shù)傳遞和返回值傳遞和堆棧平衡三個部分。在x86平臺上的C/C++編譯器中常見的調(diào)用協(xié)議有cdecl, fastcall和stdcall。具體的協(xié)議內(nèi)容請參見MSDN。

在C++中還有一類特殊的調(diào)用協(xié)議thiscall,用于調(diào)用對象的成員函數(shù)。但是這一類調(diào)用協(xié)議不同的平臺,不同的編譯器實現(xiàn)皆有不同,既無書面標(biāo)準(zhǔn),也無事實標(biāo)準(zhǔn),再加上virtual call等復(fù)雜的情況存在,并不適合用于做跨語言的調(diào)用。

對于x64平臺而言,在windows下和linux下分別有兩種調(diào)用協(xié)議。

先來看x86。由于x86在cdecl和fastcall上是有著跨平臺的標(biāo)準(zhǔn)的,因此LLVM對它的支持是比較完整的。程序只要在創(chuàng)建Function的時候指定Call Convention即可。

但是對于x64,LLVM的支持便不是那么完善。以windows為例,windows的x64調(diào)用協(xié)議要求以rcx,rdx,r8,r9寄存器傳遞前四個不大于64bit的參數(shù),其余參數(shù)放在棧上。如果參數(shù)大于64bit,則要求傳遞它的指針。浮點(diǎn)使用xmm0-3來傳遞。但是對于LLVM而言,一旦參數(shù)大于64bit,它便會將整個對象而不是指針壓到棧上傳遞。因此在遇到x64時,需要小心處理API部分的調(diào)用協(xié)議。

在這里,我們需要將所有超過64bit的結(jié)構(gòu)體處理成指針(或者拷貝后處理成指針)傳遞。

同時,LLVM提供了readonly和byval兩個參數(shù)屬性(Attribute)來確保參數(shù)的值語義。前者意味著傳入的指針?biāo)赶虻闹凳遣槐恍薷牡模愃朴赥 const*),而后者會對傳入的指針做一份內(nèi)存拷貝,確保寫值不被傳遞出函數(shù)(類似于值拷貝)。這樣,LLVM生成的函數(shù)便可以MSVC生成的x64代碼正確調(diào)用了。

內(nèi)存對齊

與移動平臺的體系結(jié)構(gòu)相比,x86對內(nèi)存對齊的條件算是相當(dāng)寬松的了。大部分的指令對內(nèi)存對齊基本上是沒有特殊要求的。只有一些SIMD的指令會對內(nèi)存對齊有所限定,例如movaps。

為了方便后端生成SIMD代碼,LLVM提供了vector類型,例如vector<float, 1>。在代碼生成的時候,vector會編譯成最有可能的SIMD類型。因此在x86平臺上,vector<float, 1-4>都被處理成類似于__m128的類型,更長的vector則被拆分成多個__m128類型。

這實際上意味著,所有的vector都應(yīng)該遵循16Bytes對齊的原則。

考慮到我們的需求,類似于struct{ float[3]; }這樣的結(jié)構(gòu),如果能表示為vector<float, 3>顯然適合一些數(shù)學(xué)運(yùn)算,例如shuffle,逐元素的add,sub,mul,同時LLVM指令的選擇也更加靈活。但是顯然,這個結(jié)構(gòu)體有兩個條件是不滿足的:16字節(jié)對齊和16字節(jié)的大小(movups和movaps都是一次取16字節(jié))。這會造成邊界下讀寫的內(nèi)存越界。因此非常可惜,這些數(shù)據(jù)必須表示為struct{ float ,float, float }。在讀取的時候,也會生成正確的指令:movss。

那么,對于一般的非對齊的vec4應(yīng)用vector<float,4>行不行呢?

答案是,很困難。對于LLVM而言,他們在設(shè)計的時候就沒有過多的考慮vector在非對齊時候的應(yīng)用。盡管load和store都能夠指定alignment以生成非對齊的內(nèi)存操作(例如movups)并且確實會起效,但是由于代碼優(yōu)化、臨時存取等特性的存在,導(dǎo)致一些非load和store的內(nèi)存操作仍然是要求對齊的(例如生成了addaps xmm, [addr])。此時仍然有可能為非對齊的數(shù)據(jù)生成了內(nèi)存對齊的指令。

因此綜合權(quán)衡,SASL在API界面上使用了struct{float x,y,z,w;} 這樣的ABI來表示數(shù)據(jù),在代碼生成時,會首先將struct的數(shù)據(jù)轉(zhuǎn)換成vector,然后再執(zhí)行其它的操作,兼顧ABI與SIMD;同時對于Intrinsic,由于并不暴露給Host,所以它們?nèi)匀槐M可能使用Vector,便于LLVM進(jìn)行優(yōu)化。

posted @ 2011-08-17 13:58 空明流轉(zhuǎn) 閱讀(3485) | 評論 (3)編輯 收藏

2011年7月17日 #

項目主頁:

源碼下載地址:

版本:
  • Milestone 1.1 Fix 1
更新記錄:
  • 添加了了新的Demo:Sponza
  • Wavefront Obj添加了32位索引的支持。
  • 修復(fù)了 Wavefront Obj 錯誤的頂點(diǎn)共享的問題。
  • 修復(fù)了 Mip-map 計算錯誤的問題。
  • 修復(fù)了對多邊形錯誤剔除的問題。
Demo下載:

Demo截圖

image

image

image

posted @ 2011-07-17 17:46 空明流轉(zhuǎn) 閱讀(3116) | 評論 (0)編輯 收藏

僅列出標(biāo)題  下一頁
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产午夜精品理论片a级探花 | 亚洲欧美经典视频| 亚洲国产精品va在看黑人| 久久久久久久久久看片| 有坂深雪在线一区| 亚洲国产精品123| 欧美日韩国产色综合一二三四 | 韩日欧美一区| 亚洲国产精品尤物yw在线观看 | 久久精品国产亚洲5555| 国户精品久久久久久久久久久不卡| 久久久av毛片精品| 免费观看日韩av| 免费不卡欧美自拍视频| 夜夜嗨av一区二区三区网站四季av| 9久草视频在线视频精品| 国产精品青草久久久久福利99| 久久久久久夜| 欧美日韩成人网| 久久久午夜电影| 欧美日韩欧美一区二区| 欧美在线视频不卡| 欧美不卡三区| 午夜精品久久久久久久99热浪潮| 欧美在线精品免播放器视频| 亚洲精品综合| 欧美在线播放视频| 一区二区三区免费在线观看| 欧美在线播放一区| 亚洲一区二区在线免费观看| 久久综合影音| 欧美一区二区三区在线视频 | 久久久另类综合| 在线亚洲观看| 久久一日本道色综合久久| 一区二区三区色| 久久婷婷激情| 久久精品国内一区二区三区| 欧美日韩免费观看一区| 欧美超级免费视 在线| 国产噜噜噜噜噜久久久久久久久 | 媚黑女一区二区| 国产精品v亚洲精品v日韩精品| 免费成人性网站| 国产精品视屏| 99re国产精品| 亚洲精品资源美女情侣酒店| 久久精品视频在线播放| 欧美一区二区视频在线观看2020| 欧美高清在线播放| 欧美高清免费| 一区精品久久| 久久精品国产视频| 久久久91精品国产一区二区精品| 欧美三级网址| 一区二区三区日韩在线观看| 日韩小视频在线观看专区| 六月丁香综合| 欧美成年人视频网站| 黑丝一区二区三区| 欧美在线亚洲在线| 久久男人资源视频| 激情欧美一区二区三区| 欧美专区在线| 久久综合伊人| 在线视频成人| 免费观看久久久4p| 亚洲国产精品电影| 亚洲免费电影在线观看| 欧美精品久久天天躁 | 午夜精品在线观看| 国产精品一区毛片| 欧美亚洲自偷自偷| 亚洲人成亚洲人成在线观看| 欧美wwwwww| 亚洲免费福利视频| 亚洲欧美日韩直播| 国产女主播视频一区二区| 性欧美8khd高清极品| 久久久久看片| 亚洲黄色一区| 欧美日韩精品二区第二页| 亚洲午夜免费福利视频| 久久精品国产亚洲aⅴ| 在线日韩成人| 欧美日韩成人综合| 亚洲线精品一区二区三区八戒| 欧美在线播放| 亚洲黄色成人| 国产精品久久久久一区二区| 亚洲欧美一区二区在线观看| 免费日韩视频| 一区二区精品在线观看| 国产欧美精品xxxx另类| 久久综合久久久久88| 日韩亚洲欧美成人一区| 欧美主播一区二区三区| 亚洲国产第一页| 国产精品成人一区二区三区吃奶| 午夜精品久久久久久| 欧美激情亚洲另类| 欧美一区二区三区视频| 亚洲国产成人高清精品| 欧美婷婷久久| 美女黄毛**国产精品啪啪| 亚洲婷婷免费| 亚洲国产欧美久久| 久久精品夜色噜噜亚洲aⅴ| 亚洲九九精品| 在线观看精品视频| 国产精品一区二区久久| 欧美激情第4页| 久久精品国产视频| 亚洲在线观看视频| 亚洲人成亚洲人成在线观看图片| 欧美在线中文字幕| 一本色道精品久久一区二区三区| 韩国v欧美v日本v亚洲v| 国产精品h在线观看| 欧美成ee人免费视频| 久久电影一区| 欧美一二三区在线观看| 99精品国产高清一区二区| 欧美激情一区二区三区在线| 久久婷婷麻豆| 久久精品观看| 欧美在线播放| 欧美亚洲一区三区| 亚洲一区在线播放| 一本一本a久久| 亚洲美女啪啪| 亚洲人成亚洲人成在线观看图片 | 欧美视频二区36p| 欧美激情一区二区三区蜜桃视频| 久久综合图片| 久久资源在线| 老牛嫩草一区二区三区日本| 久久精品99无色码中文字幕| 性欧美1819sex性高清| 午夜久久资源| 亚洲欧美国产视频| 亚洲欧美日韩综合一区| 先锋亚洲精品| 亚洲欧洲av一区二区| 亚洲欧美日韩国产一区二区| 亚洲午夜精品福利| 亚洲欧美日韩精品久久亚洲区| 亚洲桃花岛网站| aa级大片欧美| 亚洲美女视频网| 国产精品成人观看视频免费 | 欧美中文字幕不卡| 欧美在线不卡| 久久全球大尺度高清视频| 久久久久久69| 欧美成人一区二区三区| 欧美激情精品久久久六区热门| 欧美国产日韩免费| 国产精品a久久久久久| 国产精品毛片在线看| 国产亚洲一本大道中文在线| 黄色成人av网站| 亚洲精品乱码久久久久久蜜桃麻豆 | 国产热re99久久6国产精品| 国产一区二区福利| 亚洲国产精品第一区二区| 亚洲精品影院| 亚洲欧美在线aaa| 久久男人资源视频| 亚洲国产日韩欧美一区二区三区| 亚洲久色影视| 欧美在线观看网址综合| 欧美成人精品一区二区| 国产精品久久久久久影视| 国内精品免费在线观看| 亚洲理论电影网| 性8sex亚洲区入口| 欧美韩日一区| 亚洲一区二区三区四区视频 | 91久久黄色| 午夜精品在线看| 欧美精品亚洲| 国产综合久久| 亚洲五月婷婷| 免费成人高清视频| 亚洲午夜精品一区二区| 蜜臀av性久久久久蜜臀aⅴ四虎| 国产精品海角社区在线观看| 亚洲福利视频网站| 性8sex亚洲区入口| 日韩视频不卡| 乱码第一页成人| 国产日韩亚洲欧美精品| 在线天堂一区av电影| 久久久久久97三级| 一区二区日韩| 欧美日韩国产综合一区二区| 亚洲国产精品久久久久| 久久久久久久波多野高潮日日 | 久久久久久伊人|