歲月流轉(zhuǎn)，往昔空明

C++博客

首頁

新隨筆

聯(lián)系

聚合

管理

118 Posts :: 3 Stories :: 413 Comments :: 0 Trackbacks

希望自己寫SIMD優(yōu)化的朋友注意了。

昨天在寫MatrixMultiply SIMD優(yōu)化的時候，由于SSE的資料較多，我想都沒想就寫了一組SSE加速的程序。結(jié)果晚上做Profiler的時候，發(fā)現(xiàn)SSE算法的速度太慢，結(jié)果見下。

進程/線程優(yōu)先級最高
D3DX為D3DX9.LIB鏈接
vc71-Release默認(rèn)優(yōu)化。
SSE的測試數(shù)據(jù)是128bit對齊，使用movaps指令讀取。
預(yù)先預(yù)熱了緩存
Athlon XP 1800+， 512M， WD800JB

前面的數(shù)字是RDTSC測試出來的。

8255127     MatrixMultiply   D3DX
8079411     MatrixMultiply   3DNow
101563037  MatrixMultiply   SSE
250227542  MatrixMultiply   C

423771291  Normalize        SSE
31882680    Normalize        3DNow
51605359    Normalize        D3DX

從以上數(shù)據(jù)我們可以看出，Matrix的乘法運算中，C的速度是最慢的，sse次之。
但是兩者與3DNow相差了一個數(shù)量級的性能。接下來的Normalize測試也可以看出這一點。

ps，不要懷疑代碼的質(zhì)量，因為這三段代碼的相關(guān)代碼都經(jīng)過類比的測試，大致可以認(rèn)為這里面所有的代碼質(zhì)量是類似的。（最關(guān)鍵的是，不是我寫的，哈哈！）

所以結(jié)論很簡單，就是，如果你要針對不同CPU做優(yōu)化，最好送佛送到西，每一種指令集都進行優(yōu)化，還有就是不要想當(dāng)然的認(rèn)為優(yōu)化的結(jié)果一定就很好，因為CPU對常規(guī)指令的執(zhí)行進行了充分的優(yōu)化，再加上亂序執(zhí)行的方式，對于小函數(shù)來說，SIMD的額外成本太高了，最明顯的就是DotProduct。

所以希望大家測試以后再決定優(yōu)化的啟用。

posted on 2005-11-28 21:03 空明流轉(zhuǎn) 閱讀(1711) 評論(1) 編輯收藏引用所屬分類: Tips，Tricks

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

歲月流轉(zhuǎn)，往昔空明

常用鏈接

留言簿(15)

隨筆檔案(118)

文章分類(3)

文章檔案(3)

收藏夾(1)

青青子衿

友情鏈接

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

評論

只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理