麒麟子

導(dǎo)航

<

2010年1月

>

日

一

二

三

四

五

六

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

統(tǒng)計

隨筆 - 188
文章 - 0
評論 - 308
引用 - 0

常用鏈接

留言簿(12)

隨筆分類

隨筆檔案

Friends

honeycat
maval

WebSites

DevMaster
GameDev

積分與排名

積分 - 316356
排名 - 81

閱讀排行榜

評論排行榜

優(yōu)化3D圖形流水線

轉(zhuǎn)自：http://hi.baidu.com/freedomknightduzhi/blog/item/7e401a9b2521eeb3c9eaf4f1.html
在使用NVIDIA PerfHUD 5 Launcher的時候，明顯發(fā)現(xiàn)現(xiàn)在的CPU時間和GPU時間不均衡，于是考慮優(yōu)化。
下面是參考NVIDIA的OGP開始總結(jié)。
優(yōu)化代碼通常是找出瓶頸，對瓶頸進行優(yōu)化，這里暫不考慮CPU內(nèi)部的優(yōu)化方法，主要記錄CPU->GPU的3D渲染流水線的瓶頸查出方法以及優(yōu)化手段。
若僅希望進行CPU方面的優(yōu)化，可使用一些輔助工具，如Inter的Intel(R) VTune(TM) Performance Analyzer，Intel(R) Thread Profiler 3.1，AMD的CodeAnalyst等。
進行優(yōu)化的步驟如上面所說：1：找出瓶頸，2：對其優(yōu)化。
最通用也最有效的找出瓶頸的方法當(dāng)然是找到核心函數(shù)，降低它的時鐘周期和負(fù)荷，看是否對程序性能有大的影響。優(yōu)化的手段多是拆東補西而已，即，將影響性能的瓶頸中的任務(wù)分配給其他較空閑的部分進行處理，來平衡整體所消耗的時間。
那么來看一下圖形渲染流水線大致過程。
1：系統(tǒng)CPU從內(nèi)存中讀取幾何頂點 -> 輸送到GPU顯存 -> 輸送到GPU高速頂點緩沖區(qū) -> GPU頂點著色 -> GPU建立三角型 -> GPU矩陣變換 -> GPU光柵化 -> 3
2：系統(tǒng)CPU從內(nèi)存中讀取紋理信息 -> 輸送到GPU顯存 -> 輸送到GPU高速紋理緩沖區(qū)( DX10.0以后可與頂點緩沖共同，不再強制區(qū)分 ) -> 3
3：片段著色光柵化 -> 輸出GPU后臺緩沖進行渲染。
那么，很簡單的有幾大模塊在其中可能存在著瓶頸的限制。

1：CPU本身邏輯計算能力的限制。

2：CPU到GPU顯存AGP傳輸能力的限制
（1）頂點
（2）紋理
3：GPU顯存到高速緩沖區(qū)的傳輸帶寬限制
（1）紋理傳輸帶寬限制（顯存->高速緩沖區(qū)）
（2）光柵化完畢后的楨傳輸帶寬限制（高速緩沖區(qū)->顯存）
注：這里不考慮頂點傳輸?shù)膸捪拗疲驗檫@個限制極小
4：GPU高速緩沖區(qū)內(nèi)部處理能力的限制。
（1）頂點變換著色處理能力限制。
（2）頂點最大數(shù)量支持限制。
（3）三角型建立限制。
（4）光柵化限制。
（5）象素著色限制。
5：內(nèi)存過小限制。
6：顯卡顯存過小，以及其他硬件Caps限制。

上述就是常見3D圖形渲染流水線中的瓶頸限制，那么我們下一步去一一確定，可能是哪方面的瓶頸。簡單的方法是檢測FPS。
注意1：許多瓶頸可能由于硬件更變而更變。
注意2：Debug模式和Release模式的瓶頸表現(xiàn)未必相同。
注意3：查看FPS時候一定關(guān)閉垂直同步。
1：改變色深，16bit,32bit，這個是直接影響楨渲染緩沖的大小的，若修改了此項之后，F(xiàn)PS有較大變化，則是由于3.2 楨傳輸帶寬限制。
注：這里需要改變所有渲染對象的色深。
2：改變紋理大小尺寸，改變紋理過濾方式，若修改了此項之后，F(xiàn)PS有較大變化，則是由于3.1 紋理傳輸帶寬的限制或 2.2 紋理AGP傳輸能力限制。
注：紋理過濾方式中，點過濾速度 > 線性過濾速度 > 三角面過濾速度 > 各向異性過濾速度若改變紋理過濾方式就將FPS提高了，則是3.1 紋理傳輸帶寬的限制。這步是將紋理數(shù)據(jù)從顯存運輸?shù)紾PU高速紋理緩沖區(qū)的過程。
3：改變桌面分辨率，若修改了此項之后，F(xiàn)PS有較大變化，則是由于 4.4 光柵化限制或是 4.5 象素著色Shader限制。
此時減少 PixelShader指令數(shù)量，若修改了此項之后，F(xiàn)PS有較大變化，則是由于 4.5 象素著色Shader限制，若沒有較大變化，則是由于 4.4 光柵化限制。
4：減少 VertexShader 指令數(shù)量，若修改了此項之后，F(xiàn)PS有較大變化，則是由于 4.1 頂點變換著色處理能力限制。
5：減少頂點數(shù)量和AGP傳輸速率，若修改了此項之后，F(xiàn)PS有較大變化，則是由于 4.2 頂點最大數(shù)量支持限制或 2.1 頂點AGP傳輸能力限制。
6：若以上都不是，則是 1.0 CPU邏輯計算能力限制。
注：該項也可根據(jù)NVIDIA PerfHUD來檢測CPU和GPU的空閑時間來判定，若GPU空閑時間過多，則說明是由于CPU計算能力或AGP傳輸能力導(dǎo)致。
該項也可用簡單的更換CPU，而不更換GPU的方式來檢測判定。
7：看資源管理器，CPU占用率，內(nèi)存占用率，可以知道是否是由于1.0 CPU本身邏輯計算能力的限制或是 5.0內(nèi)存過小限制。
8：看DX SDK自帶的CapsViewer可以知道顯卡的支持性，以獲得更多更準(zhǔn)確的判定。
9：在BIOS中更變APGP為1X模式，若修改了此項之后，F(xiàn)PS有較大變化，則是由于2.1 或 2.2 AGP傳輸能力限制。
10：降低GPU配置進行檢測判定，此時要注意兩項，一是降低GPU的運行頻率，一是降低GPU顯存性能和大小，可以確定GPU方面的問題大致所在。
11：刪除一些游戲中涉及的物理，AI，邏輯等占用大量CPU效率的代碼以獲得更強的針對性。
12：對角色，地形，靜態(tài)模型，陰影等設(shè)置渲染開關(guān)，以更明確的確定問題所在。

優(yōu)化方法：
一：整體優(yōu)化。
1：減少小批量作業(yè)
（1）讓一個頂點緩沖中更多頂點。（1024點以上較適合）
（2）少Draw。（盡量一次性多渲染些三角形，減少渲染次數(shù)）
（3）盡量將多個尺寸小的紋理文件合并為一個尺寸大的紋理文件，減少零碎的小紋理文件數(shù)量。
（4）使用VertexShader將一些關(guān)系緊密的幾何體打包在一起。（VS2.0就已經(jīng)存在256個4D向量常數(shù)）
2：邏輯排序優(yōu)化
（1）盡量在邏輯層將頂點進行一定的排序以減少在GPU高速緩沖區(qū)中的重新排布。
（2）盡量將渲染對象在邏輯層按照深度由屏幕->內(nèi)部排序，減少不必要的深度揀選。
（3）盡量使用索引條帶或索引列表
（4）根據(jù)渲染狀態(tài)和渲染對象對紋理進行基本排序
3：減少不必要的渲染（CPU層的基本二分四叉八叉這里不再強調(diào)）
（1）在多Pass渲染時，在第一個渲染Pass上對每個渲染對象加以咨詢，當(dāng)?shù)谝粋€Pass中該渲染對象渲染象素量達不到指定標(biāo)準(zhǔn)，則后續(xù)Pass不再對其進行渲染。
（2）對一些重復(fù)渲染（如太陽眩光特效）需要進行計數(shù)，達到指定數(shù)量即停止渲染或進行分布式渲染。
（3）對一些復(fù)雜的模型設(shè)置基本的包圍盒判定其渲染必要性。
4：減少線程鎖定導(dǎo)致的不必要等待
（1）CPU Lock了一個資源，等待GPU進行渲染，此時常見做法有等待GPU渲染，中間期間CPU經(jīng)常處于Idle空閑狀態(tài)，建議此時給CPU其他的事情做，如為下一個資源做好基本準(zhǔn)備或進行邏輯處理。
5：減少或平均分布CPU壓力（實際上，大部分程序是CPU邏輯計算限制的）
（1）CPU壓力重點在以下方面可能存在： AI，IO，網(wǎng)絡(luò)，復(fù)雜邏輯，這些部分可進行CPU瓶頸測試以確定優(yōu)化方向。
（2）優(yōu)化方針：寧可GPU忙碌也要CPU減壓。
（3）使用文章開始時我提到的一些工具去查找CPU中不必要的匯編空循環(huán)以及不必要的CPU空閑。
二：局部優(yōu)化。
6：AGP傳輸瓶頸
（1）當(dāng)過多數(shù)據(jù)通過AGP8X從CPU內(nèi)存?zhèn)鬟f到GPU顯存時，我們可以選擇以下方式優(yōu)化。
   [1]減小頂點個數(shù)
   [2]減少動態(tài)頂點個數(shù)，使用VertexShader動畫替代。
   [3]正確使用API，設(shè)置正確參數(shù)，避免動態(tài)頂點和紋理緩沖區(qū)的創(chuàng)建管理。
   [4]根據(jù)硬件配置屬性確定適合的楨緩沖，紋理緩沖，靜態(tài)頂點緩沖的大小。
（2）避免使用無序或不規(guī)則數(shù)據(jù)傳輸。
   [1]頂點數(shù)量尺寸應(yīng)當(dāng)是32的整數(shù)倍。（可使用頂點壓縮，再在VertexShader中對頂點數(shù)據(jù)進行解壓縮）
   [2]確保頂點的有序性。（在CPU邏輯層對其進行排序后傳輸，NVTriStrip這個工具可以幫我們生成優(yōu)化的高效的有序的Mesh頂點數(shù)據(jù)）
（3）具體到API層面的幾何Mesh傳輸
   [1]對于靜態(tài)幾何體，創(chuàng)建只寫的頂點緩沖，且，僅寫入一次。
   [2]對于動態(tài)幾何體，在程序初始創(chuàng)建一個動態(tài)頂點緩沖，之后每楨初始鎖定DISCARD，進行NOOVEWRITE而不要進行DISCARD，DISCARD的耗時不是NOOVEWRITE可比的。
   [3]基本原則，少創(chuàng)建緩沖區(qū)，多對其進行重復(fù)使用，減少鎖定次數(shù)。
7：頂點變換傳輸處理瓶頸（由于GPU有強大的頂點處理能力，一般在頂點變換方面不會有瓶頸出現(xiàn)，但假若出現(xiàn)了。。）
（1）頂點太多
   [1]使用細(xì)節(jié)Lod，一般起用2-3級Lod就足夠了。
（2）頂點處理過于復(fù)雜
   [1]減少燈光數(shù)量，降低燈光復(fù)雜度（方向平行光效率 > 點光源效率 > 聚光燈效率）
   [2]減少頂點著色器指令數(shù)量，避免128條以上指令，避免大量的分支指令
   [3]對頂點進行CPU層邏輯排序
   [4]能在CPU中進行計算的在CPU中進行計算，傳遞常量給GPU
   [5]減少和避免CG/HLSL之中的 mov 指令。即使使用了，也要重點注意。
8：大部分情況下 4.3 三角形建立限制以及 4.4 光柵化限制是不會成為瓶頸的，但，當(dāng)三角形數(shù)量過多或者光柵化時每個三角形頂點數(shù)據(jù)過于復(fù)雜時可能會出現(xiàn)這種瓶頸，此時減少三角形總數(shù)，使用VS或減少Z-cull三角都是有效的方法。
9：象素著色器的瓶頸（在DX7之前，全是固定渲染管道，一般來說傳輸量和著色器之間的計算是均衡的，但是DX8開始可編程流水管道開始，PixelShader的計算量開始增幅，數(shù)據(jù)傳輸量通常相對來說比較小了。）
（1）需處理的紋理片段過多過大
   [1]在CPU層按照屏幕->向內(nèi) Z-Buffer的順序排序傳入，并按照這個順序進行渲染。
   [2]多Pass渲染時，考慮在第一個渲染Pass中關(guān)閉特效并讓第一個Pass負(fù)責(zé)Z-buffer的處理。這樣的話，后續(xù)Pass中可以避免渲染不要的紋理片段。
（2）每個紋理片段的處理過于復(fù)雜
   [1]大段的長著色器指令將會很大降低效率，嘗試減少著色器指令長度
   [2]使用向量操作，并行co-issuing來減少指令數(shù)量。
   [3]混合使用配對的簡單的texture和combiner組合指令。
   [4]使用Alpha混合器提高性能。
   [5]考慮對陰影也進行Lod計算。
   [6]在DX10開始，考慮將頂點緩沖移做象素緩沖進行使用。
（3）額外的優(yōu)化方法
   [1]使用fx_12精度
   [2]使用fp16指令
   [3]使用Pixel_Shader2.0的時候開啟ps_2_a描述開關(guān)
   [4]減少寄存器的臨時存取
   [5]減少不必要的精度要求
   [6]盡量使用低版本的Shader（但避免使用VS1.0，已經(jīng)被VS3.0拋棄了）
10：紋理貼圖導(dǎo)致的瓶頸
（1）優(yōu)化方法。
   [1]紋理過濾時避免使用三角面性過濾和各相異性過濾，特殊需求除外，一般線性過濾已經(jīng)可以做的很好。
   [2]即使使用各相異性過濾，也要降低相異性比率。使用了各相異性過濾的話，則可以盡量減少三角面性過濾。
   [3]降低紋理分辨率，避免使用不必要的高分辨率紋理。
   [4]降低紋理色深，例如環(huán)境紋理，陰影紋理這些，盡量使用16位。
   [5]建議進行紋理壓縮，例如DXT格式就可以有效壓縮紋理，并且GPU對DXT格式支持很好。
   [6]避免使用非二次方的紋理資源。
   [7]在進行紋理銳化的時候，避免使用負(fù)值的Lod進行銳化，會導(dǎo)致遠(yuǎn)處失真，盡量使用各相異性過濾進行銳化
   [8]對于動態(tài)紋理，一般建議用 D3DUSAGE_DYNAMIC D3DPOOL_DEAFAULT 進行創(chuàng)建緩沖，使用 D3DLOCK_DISCARD 進行鎖定，盡量做到一次鎖定多次使用，不要頻繁解鎖，另外，永遠(yuǎn)不要讀這樣的紋理。
11：楨緩沖導(dǎo)致的瓶頸
（1）優(yōu)化方法
   [1]盡量關(guān)閉Z-write，一般來說，在一個渲染Pass中就可以進行完整的Z-buffer處理，在后續(xù)的Pass中就應(yīng)當(dāng)關(guān)閉Z-write，不用擔(dān)心，即使需要Alpha混合的對象也不再需要開啟Z-write了。
   [2]盡量開始AlphaTest，實際上這個操作會提高效率，而非降低。
   [3]避免使用浮點楨緩存。
   [4]若沒有啟用模版深度緩沖的話，使用16位的Zbuffer就可以了。
   [5]避免使用RendToTexture，或者可能的去減少Rend的尺寸。
對于現(xiàn)在可編程流水管線來說，這意味著我們有更大的自由度實現(xiàn)更多的特效，但也有了更多的瓶頸和更多的復(fù)雜度，我們遇到問題要正確的獲取瓶頸所在，開動腦筋進行優(yōu)化，平衡各環(huán)節(jié)間的負(fù)載。讓各環(huán)節(jié)不過載不空閑。

更多信息希望您查看Nvidia的《GPU_Programming_Guide》，翻譯成中文則是《GPU編程精粹》。以上。

posted on 2010-01-29 13:48 麒麟子閱讀(1990) 評論(2) 編輯收藏引用所屬分類: GPU and Graphic

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 鏡面反射矩陣推導(dǎo) Deferred Shading 2D Skinned Mesh（3D的完全翻版帶旋轉(zhuǎn)） Reflect & Refract (以水渲染為例) CubeMap視線反射方向計算詳解使用投影紋理進行模型貼花(Mesh Decals) 兩篇講述Skinned Mesh原理的文章 HLSL中的MUL指令深層剖析程序中的四元數(shù)表示法 Computing Tangent Space Basis Vectors for an Arbitrary Mesh

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 優(yōu)化3D圖形流水線 2010-01-29 14:31 空明流轉(zhuǎn)

# re: 優(yōu)化3D圖形流水線 2010-01-29 15:51 Leaf

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

麒麟子