免费日韩av,国产精品视频一二三,国产欧美日韩亚洲

SSE Assembler vs Optimizied C++

打破匯編的神話?

匯編語言對于軟件工程人員來說，是高速精簡的代稱，但同時也是晦澀難懂的代名詞。學校的老師，各種各樣的書籍寶典，總是舉出各種各樣的例子來向我們灌輸著這樣一個定律：C++編譯后產生的代碼在執行效率上不如匯編編譯成機器代碼。但是匯編代碼在編寫的時候晦澀難懂，使得開發效率大為降低。但是在那個CPU寄存器非常珍貴，內存異樣稀少的時代，匯編相對C有著獨特的優勢，可以極其精確的為每一個變量分配寄存器和內存，但是同時也使得開發過程緩慢無比，因為一不留神就會造成寄存器分配沖突。同時由于那個時代的C++的編譯器的編譯效率不高，造成了編譯的時候產生的代碼無論在算法和體積上都無法和匯編相比。

最近在編寫引擎的時候，一直在匯編的執行效率和C++的編寫效率上猶豫不覺。一開始試著編寫了2個不同版本的Vector類，叉積分別使用SSE匯編和C++優化。然后我試著編譯了這兩個不同的版本，編譯的時候將所有優化選項全部打開，并最大化速度優先。測試程序對于每個版本調用1億次叉積運算，總共進行了10次，最后的出的結果令人瞠目結舌。SSE匯編10次測試全部敗于C++，C++所用的時間只相當于SSE的三分之一。

今天新編了一個四元數類，同樣在從四元數向矩陣的轉換中，使用了Intel網站上的Id Software的匯編代碼，和C++代碼。同樣進行速度最大化優化，1億次轉換測試，結果在預測之內，差別雖然沒有向量測試的那么驚人，但C++仍然比匯編高效。

新一代編譯器都支持在編譯時打開SSE增強指令集，這意味著，包括Visual Studio在內的C++編譯器，能夠在從C/C++到匯編代碼的過程中，自動盡可能的使用SSE增強指令集來提高匯編代碼效率。手寫SSE匯編，由于人員之間的水平差異，不可能將匯編代碼優化到最高水準，而編譯器使用了高效的算法來優化產生的匯編代碼，這使得，一個資質普通的程序員寫出的SSE代碼，會比由C++編譯器編譯出的匯編代碼要慢的多。當然這個世界上總是有著驚人天賦的天才，一定能夠在同等條件下寫出比編譯器快得多的匯編代碼，但是這不具有普遍性，在軟件業高速發展的今天，通用性，易用性，費效比，以及重用性才是軟件工程中最重要的，而花大錢雇一個匯編高手來寫核心意味著這個代碼具有最差的移植性，最差的可讀性，以及最差的重用性，這是不可取的。

我們應該相信現代編譯器能夠在最短時間內編譯出最優代碼，而事實上，這個也已經成為了既定的現實。拋棄手動的SSE匯編，讓編譯器來完成這項工作，是最明智的做法。當然我們應該在編寫C++代碼時稍微考慮一下數據流的生成順序，以便讓編譯器發揮出最大效能，至于如何優化數據流，將在下一篇中介紹。

ps: 在Visual Studio.NET 2003下，將“啟用增強指令集”設置為SSE/SSE2即可。

posted on 2007-01-05 11:35 如展閱讀(1770) 評論(6) 編輯收藏引用所屬分類: C++ Programming

我當然做過MAT乘法。問題的關鍵在于設計正確地處理數據生成流程。大多數人使用SSE匯編產生的代碼長度會比編譯器自動產生的長的多。

MAT，VEC之類最簡單的運算，因為太多人優化過，所以那些匯編的精簡程度很高，但是除了這些基礎運算有現成的算法，那些其他的算法恐怕就沒多少現成高效的SSE可以使用了。再說現在3D的MAT，VEC的計算，主流是推送到ShaderLanguage來完成的，基本不用自己編程計算。

VS的instrinct才會產生真正的垃圾代碼，具體去看Intel的文章，那上面很詳細的講了如何優化C++數據流程。回復更多評論

# re: SSE Assembler vs Optimized C++ 2007-01-07 14:29 空明流轉

那就期待你的下一篇文章了。

你說的文章沒找到。也許是關鍵字的問題。可以發給我么。謝謝。

我的QQ 14735407
mail wuye9036 _at_ gmail dot com 回復更多評論

# re: SSE Assembler vs Optimized C++ 2007-01-26 23:54 學習

如果C++代碼的速度快過匯編，那是因為匯編的代碼不夠優化；
如果匯編的效率高于C++，那是因為寫的是小程序。回復更多評論

# re: SSE Assembler vs Optimized C++ 2010-04-16 16:15 mincomp

不知道你有沒有測試過vc08的SSE速度？我使用SEE intrinsic的速度比不使用要快40%，所有優化都打開，并且打開SSE編譯開關
運行10億次下面的代碼

__m128 result = _mm_mul_ps(*m1, *m2);
r = _mm_add_ps(r, result);

float result[4];
for (int j = 0; j < 4; j++)
{
result[j] = data1[j] * data2[j];
fr[j] += result[j];
} 回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

We build the dream world digital.

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

評論