圖形管線與Shader的交互
入口函數(shù)與非入口函數(shù)
入口函數(shù)是Shader的主函數(shù)。來看這樣一段程序
float4x4 wvpMat; struct VS_INPUT{ float4 pos: SV_Position; float4 tex: SV_Texcoord0; }; struct VS_OUTPUT{ float4 pos: SV_Position; float4 tex: SV_Texcoord0; }; float4 world_pos( float4 p ){ return mul(p, wvpMat); } VS_OUTPUT vs_main(VS_INPUT in){ VS_OUTPUT o; o.pos = world_pos(in.pos); o.tex = in.tex; return o; }
很顯然,vs_main是一個合法的VS程序的主函數(shù),那么我們稱vs_main為入口函數(shù),稱world_pos為非入口函數(shù)。Shading language的入口函數(shù),其實和C語言的主在概念上沒有什么區(qū)別。但是在SASL中,我們要求一個入口函數(shù)它所有的輸入和輸出都要正確的關聯(lián)到語義上。SM4中這一條件被放寬了,入口函數(shù)也可以提供無語義的uniform參數(shù)。
語義分類
對于Shading Language而言,最重要的兩個操作是從圖形管線中獲取數(shù)據(jù)并將數(shù)據(jù)寫回到管線中。流水線中的數(shù)據(jù)是附帶了語義信息的,用于表達這個數(shù)據(jù)的用途。例如SV_Position就指明了這樣一個數(shù)據(jù)是表示位置的。用戶輸入的數(shù)據(jù)、SL輸出的數(shù)據(jù),都是依靠語義信息來確保讀取和寫入的正確性。例如SV_Position只能從某個頂點流的特定偏移量獲取,SV_Color的數(shù)據(jù)才能被寫到color buffer中。
SASL支持的語義集合是HLSL Shader Model 4.0的子集。目前參考的HLSL版本為4.0。
在Shader Model 4.0的所有輸入語義中,一些語義的值直接來自于外部存儲,例如SV_Position的數(shù)據(jù)來自頂點流,一些語義的值則是來自于管線執(zhí)行中間計算的結(jié)果。輸出語義也是如此。
Shader從設計之初便需要應對每秒百萬到數(shù)億的調(diào)用,因此一些平常不可見的開銷問題在這里也變得尤為顯著,例如函數(shù)參數(shù)壓棧的開銷。所以將所有輸入數(shù)據(jù)均按值或者按地址傳遞到入口函數(shù)中是不妥的。為了盡可能的減少內(nèi)存讀寫的次數(shù),從外部存儲讀入(例如Vertex Buffer)或者寫入的外部存儲(例如Stream Output或者Frame Buffer)的數(shù)據(jù),我們一律以指針+偏移的形式將數(shù)據(jù)傳遞到Shader中,稱之為Stream類型,而臨時的語義變量,如SV_IsFrontFace,我們則暫存到一個臨時的buffer中,稱之為buffer類型。
在SASL中我們將shader的全部語義分為四類,Stream_in,stream_out,buffer_in,buffer_out。
Shader還有一種特有的存儲類型,uniform。這一類型在編譯期的時候是一個變量,在代碼生成期/優(yōu)化期是一個常量。如果將這一類型的量按照編譯期常量來處理,那么便能獲得更高的運行時性能,比方說一些條件展開可以通過優(yōu)化而被消除。但是,這也意味著一旦uniform量發(fā)生變化后,shader便最少需要重新執(zhí)行代碼生成乃至于重新編譯。這將會帶來巨大的性能開銷。由于SASL主要執(zhí)行在CPU上,CPU對于動態(tài)代碼的執(zhí)行優(yōu)化要遠遠優(yōu)于GPU,例如間接地址讀取指令和分支預測。因此我們將uniform作為一個普通的變量經(jīng)由buffer_in來執(zhí)行輸入,以平衡代碼調(diào)用和編譯之間的開銷。
數(shù)據(jù)結(jié)構(gòu)與入口簽名
SASL最終將生成如下的簽名:
struct stream_in{ float4* pos; float4* tex; }; struct buffer_in{ float4x4 wvpMat; }; struct stream_out{}; // empty. struct buffer_out{ float4 pos; float4 tex; }; float4 world_pos( float4 pos, buffer_in* bi ); void vs_main( stream_in* si, buffer_in* bi, stream_out* so, buffer_out* bo );
通過對語義和常量進行重整,SASL減少了不必要的拷貝開銷。
結(jié)構(gòu)體的語義布局與常規(guī)布局
我們注意到,VS_OUTPUT對于返回值和堆棧變量的類型時的意義是不同的。在返回值時,它匹配了語義輸出,而在堆棧變量時,它只是一個普通結(jié)構(gòu)體的內(nèi)存布局。這就要求,VS_OUTPUT在分析時必須同時產(chǎn)生并保存兩套內(nèi)存布局信息。
但是實際上由于布局差異僅僅在入口函數(shù)才存在,并且只有當結(jié)構(gòu)體作為入口函數(shù)參數(shù)或返回值的時候才會使用語義布局,其他函數(shù)內(nèi)無論是參數(shù)還是變量都是使用普通布局,因此我們運用一個臨時對象,將語義布局的值拷貝成一個普通布局的對象。也就是說,入口函數(shù)內(nèi)的代碼中所有對這個參數(shù)值的讀取實際上都是對臨時對象的讀取。其代碼類似于下段:
void vs_main( stream_in* si, buffer_in* bi, stream_out* so, buffer_out* bo ){ // initialization VS_INPUT __tmp_in = {*si->pos, *si->tex}; VS_OUTPUT __tmp_out; // end initialization VS_OUTPUT o; o.pos = world_pos( __tmp_in.pos, bi ); o.tex = __tmp_in.tex; __tmp_out = o; // return bo->pos = __tmp_out.pos; bo->tex = __tmp_out.tex; return; // end return }
那么通過臨時對象的構(gòu)造,便可以將其余部分的代碼通過常規(guī)布局生成,避免了在普通布局和語義布局之間復雜的判斷和邏輯。盡管臨時變量的使用導致了代碼在外觀上看起來很低效,但是實際上這種極為簡單的冗余代碼,是非常適合LLVM這種基于SSA的優(yōu)化方案的。