SSE Assembler vs Optimizied C++
打破匯編的神話?
匯編語言對于軟件工程人員來說,是高速精簡的代稱,但同時也是晦澀難懂的代名詞。學校的老師,各種各樣的書籍寶典,總是舉出各種各樣的例子來向我們灌輸著這樣一個定律:C++編譯后產生的代碼在執行效率上不如匯編編譯成機器代碼。但是匯編代碼在編寫的時候晦澀難懂,使得開發效率大為降低。但是在那個CPU寄存器非常珍貴,內存異樣稀少的時代,匯編相對C有著獨特的優勢,可以極其精確的為每一個變量分配寄存器和內存,但是同時也使得開發過程緩慢無比,因為一不留神就會造成寄存器分配沖突。同時由于那個時代的C++的編譯器的編譯效率不高,造成了編譯的時候產生的代碼無論在算法和體積上都無法和匯編相比。
最近在編寫引擎的時候,一直在匯編的執行效率和C++的編寫效率上猶豫不覺。一開始試著編寫了2個不同版本的Vector類,叉積分別使用SSE匯編和C++優化。然后我試著編譯了這兩個不同的版本,編譯的時候將所有優化選項全部打開,并最大化速度優先。測試程序對于每個版本調用1億次叉積運算,總共進行了10次,最后的出的結果令人瞠目結舌。SSE匯編10次測試全部敗于C++,C++所用的時間只相當于SSE的三分之一。
今天新編了一個四元數類,同樣在從四元數向矩陣的轉換中,使用了Intel網站上的Id Software的匯編代碼,和C++代碼。同樣進行速度最大化優化,1億次轉換測試,結果在預測之內,差別雖然沒有向量測試的那么驚人,但C++仍然比匯編高效。
新一代編譯器都支持在編譯時打開SSE增強指令集,這意味著,包括Visual Studio在內的C++編譯器,能夠在從C/C++到匯編代碼的過程中,自動盡可能的使用SSE增強指令集來提高匯編代碼效率。手寫SSE匯編,由于人員之間的水平差異,不可能將匯編代碼優化到最高水準,而編譯器使用了高效的算法來優化產生的匯編代碼,這使得,一個資質普通的程序員寫出的SSE代碼,會比由C++編譯器編譯出的匯編代碼要慢的多。當然這個世界上總是有著驚人天賦的天才,一定能夠在同等條件下寫出比編譯器快得多的匯編代碼,但是這不具有普遍性,在軟件業高速發展的今天,通用性,易用性,費效比,以及重用性才是軟件工程中最重要的,而花大錢雇一個匯編高手來寫核心意味著這個代碼具有最差的移植性,最差的可讀性,以及最差的重用性,這是不可取的。
我們應該相信現代編譯器能夠在最短時間內編譯出最優代碼,而事實上,這個也已經成為了既定的現實。拋棄手動的SSE匯編,讓編譯器來完成這項工作,是最明智的做法。當然我們應該在編寫C++代碼時稍微考慮一下數據流的生成順序,以便讓編譯器發揮出最大效能,至于如何優化數據流,將在下一篇中介紹。
ps: 在Visual Studio.NET 2003下,將“啟用增強指令集”設置為SSE/SSE2即可。