圖形管線與Shader的交互
入口函數與非入口函數
入口函數是Shader的主函數。來看這樣一段程序
float4x4 wvpMat;
struct VS_INPUT{
float4 pos: SV_Position;
float4 tex: SV_Texcoord0;
};
struct VS_OUTPUT{
float4 pos: SV_Position;
float4 tex: SV_Texcoord0;
};
float4 world_pos( float4 p ){
return mul(p, wvpMat);
}
VS_OUTPUT vs_main(VS_INPUT in){
VS_OUTPUT o;
o.pos = world_pos(in.pos);
o.tex = in.tex;
return o;
}
很顯然,vs_main是一個合法的VS程序的主函數,那么我們稱vs_main為入口函數,稱world_pos為非入口函數。Shading language的入口函數,其實和C語言的主在概念上沒有什么區別。但是在SASL中,我們要求一個入口函數它所有的輸入和輸出都要正確的關聯到語義上。SM4中這一條件被放寬了,入口函數也可以提供無語義的uniform參數。
語義分類
對于Shading Language而言,最重要的兩個操作是從圖形管線中獲取數據并將數據寫回到管線中。流水線中的數據是附帶了語義信息的,用于表達這個數據的用途。例如SV_Position就指明了這樣一個數據是表示位置的。用戶輸入的數據、SL輸出的數據,都是依靠語義信息來確保讀取和寫入的正確性。例如SV_Position只能從某個頂點流的特定偏移量獲取,SV_Color的數據才能被寫到color buffer中。
SASL支持的語義集合是HLSL Shader Model 4.0的子集。目前參考的HLSL版本為4.0。
在Shader Model 4.0的所有輸入語義中,一些語義的值直接來自于外部存儲,例如SV_Position的數據來自頂點流,一些語義的值則是來自于管線執行中間計算的結果。輸出語義也是如此。
Shader從設計之初便需要應對每秒百萬到數億的調用,因此一些平常不可見的開銷問題在這里也變得尤為顯著,例如函數參數壓棧的開銷。所以將所有輸入數據均按值或者按地址傳遞到入口函數中是不妥的。為了盡可能的減少內存讀寫的次數,從外部存儲讀入(例如Vertex Buffer)或者寫入的外部存儲(例如Stream Output或者Frame Buffer)的數據,我們一律以指針+偏移的形式將數據傳遞到Shader中,稱之為Stream類型,而臨時的語義變量,如SV_IsFrontFace,我們則暫存到一個臨時的buffer中,稱之為buffer類型。
在SASL中我們將shader的全部語義分為四類,Stream_in,stream_out,buffer_in,buffer_out。
Shader還有一種特有的存儲類型,uniform。這一類型在編譯期的時候是一個變量,在代碼生成期/優化期是一個常量。如果將這一類型的量按照編譯期常量來處理,那么便能獲得更高的運行時性能,比方說一些條件展開可以通過優化而被消除。但是,這也意味著一旦uniform量發生變化后,shader便最少需要重新執行代碼生成乃至于重新編譯。這將會帶來巨大的性能開銷。由于SASL主要執行在CPU上,CPU對于動態代碼的執行優化要遠遠優于GPU,例如間接地址讀取指令和分支預測。因此我們將uniform作為一個普通的變量經由buffer_in來執行輸入,以平衡代碼調用和編譯之間的開銷。
數據結構與入口簽名
SASL最終將生成如下的簽名:
struct stream_in{
float4* pos;
float4* tex;
};
struct buffer_in{ float4x4 wvpMat; };
struct stream_out{}; // empty.
struct buffer_out{
float4 pos;
float4 tex;
};
float4 world_pos( float4 pos, buffer_in* bi );
void vs_main( stream_in* si, buffer_in* bi, stream_out* so, buffer_out* bo );
通過對語義和常量進行重整,SASL減少了不必要的拷貝開銷。
結構體的語義布局與常規布局
我們注意到,VS_OUTPUT對于返回值和堆棧變量的類型時的意義是不同的。在返回值時,它匹配了語義輸出,而在堆棧變量時,它只是一個普通結構體的內存布局。這就要求,VS_OUTPUT在分析時必須同時產生并保存兩套內存布局信息。
但是實際上由于布局差異僅僅在入口函數才存在,并且只有當結構體作為入口函數參數或返回值的時候才會使用語義布局,其他函數內無論是參數還是變量都是使用普通布局,因此我們運用一個臨時對象,將語義布局的值拷貝成一個普通布局的對象。也就是說,入口函數內的代碼中所有對這個參數值的讀取實際上都是對臨時對象的讀取。其代碼類似于下段:
void vs_main( stream_in* si, buffer_in* bi, stream_out* so, buffer_out* bo ){
// initialization
VS_INPUT __tmp_in = {*si->pos, *si->tex};
VS_OUTPUT __tmp_out;
// end initialization
VS_OUTPUT o;
o.pos = world_pos( __tmp_in.pos, bi );
o.tex = __tmp_in.tex;
__tmp_out = o;
// return
bo->pos = __tmp_out.pos;
bo->tex = __tmp_out.tex;
return;
// end return
}
那么通過臨時對象的構造,便可以將其余部分的代碼通過常規布局生成,避免了在普通布局和語義布局之間復雜的判斷和邏輯。盡管臨時變量的使用導致了代碼在外觀上看起來很低效,但是實際上這種極為簡單的冗余代碼,是非常適合LLVM這種基于SSA的優化方案的。