#include? <mmsystem.h>
#pragma comment(lib,"winmm.lib")
timegettime的標稱是毫秒級別
但是實際上只能精確到50毫秒
使用CPU時間戳進行高精度計時
|
2003-3-27 13:14:11?? GAMERES?? zhangyan_qd?? 閱讀次數(shù):?6609 |
對關(guān)注性能的程序開發(fā)人員而言,一個好的計時部件既是益友,也是良師。計時器既可以作為程序組件幫助程序員精確的控制程序進程,又是一件有力的調(diào)試武器,在有經(jīng)驗的程序員手里可以盡快的確定程序的性能瓶頸,或者對不同的算法作出有說服力的性能比較。
在Windows平臺下,常用的計時器有兩種,一種是timeGetTime多媒體計時器,它可以提供毫秒級的計時。但這個精度對很多應(yīng)用場合而言還是太粗糙了。另一種是QueryPerformanceCount計數(shù)器,隨系統(tǒng)的不同可以提供微秒級的計數(shù)。對于實時圖形處理、多媒體數(shù)據(jù)流處理、或者實時系統(tǒng)構(gòu)造的程序員,善用QueryPerformanceCount/QueryPerformanceFrequency是一項基本功。
本文要介紹的,是另一種直接利用Pentium?CPU內(nèi)部時間戳進行計時的高精度計時手段。以下討論主要得益于《Windows圖形編程》一書,第 15頁-17頁,有興趣的讀者可以直接參考該書。關(guān)于RDTSC指令的詳細討論,可以參考Intel產(chǎn)品手冊。本文僅僅作拋磚之用。 在 Intel?Pentium以上級別的CPU中,有一個稱為“時間戳(Time?Stamp)”的部件,它以64位無符號整型數(shù)的格式,記錄了自CPU上電以來所經(jīng)過的時鐘周期數(shù)。由于目前的CPU主頻都非常高,因此這個部件可以達到納秒級的計時精度。這個精確性是上述兩種方法所無法比擬的。
在Pentium以上的CPU中,提供了一條機器指令RDTSC(Read?Time?Stamp?Counter)來讀取這個時間戳的數(shù)字,并將其保存在EDX:EAX寄存器對中。由于EDX:EAX寄存器對恰好是Win32平臺下C++語言保存函數(shù)返回值的寄存器,所以我們可以把這條指令看成是一個普通的函數(shù)調(diào)用。像這樣:
inline?unsigned?__int64?GetCycleCount() { ?__asm?RDTSC }
但是不行,因為RDTSC不被C++的內(nèi)嵌匯編器直接支持,所以我們要用_emit偽指令直接嵌入該指令的機器碼形式0X0F、0X31,如下:
inline?unsigned?__int64?GetCycleCount() { ?__asm?_emit?0x0F ?__asm?_emit?0x31 }
以后在需要計數(shù)器的場合,可以像使用普通的Win32?API一樣,調(diào)用兩次GetCycleCount函數(shù),比較兩個返回值的差,像這樣:
unsigned?long?t; t?=?(unsigned?long)GetCycleCount(); //Do?Something?time-intensive?... t?-=?(unsigned?long)GetCycleCount();
《Windows圖形編程》第15頁編寫了一個類,把這個計數(shù)器封裝起來。有興趣的讀者可以去參考那個類的代碼。作者為了更精確的定時,做了一點小小的改進,把執(zhí)行RDTSC指令的時間,通過連續(xù)兩次調(diào)用GetCycleCount函數(shù)計算出來并保存了起來,以后每次計時結(jié)束后,都從實際得到的計數(shù)中減掉這一小段時間,以得到更準確的計時數(shù)字。但我個人覺得這一點點改進意義不大。在我的機器上實測,這條指令大概花掉了幾十到100多個周期,在 Celeron?800MHz的機器上,這不過是十分之一微秒的時間。對大多數(shù)應(yīng)用來說,這點時間完全可以忽略不計;而對那些確實要精確到納秒數(shù)量級的應(yīng)用來說,這個補償也過于粗糙了。
這個方法的優(yōu)點是:
1.高精度。可以直接達到納秒級的計時精度(在1GHz的CPU上每個時鐘周期就是一納秒),這是其他計時方法所難以企及的。
2. 成本低。timeGetTime?函數(shù)需要鏈接多媒體庫winmm.lib,QueryPerformance*?函數(shù)根據(jù)MSDN的說明,需要硬件的支持(雖然我還沒有見過不支持的機器)和KERNEL庫的支持,所以二者都只能在Windows平臺下使用(關(guān)于DOS平臺下的高精度計時問題,可以參考《圖形程序開發(fā)人員指南》,里面有關(guān)于控制定時器8253的詳細說明)。但RDTSC指令是一條CPU指令,凡是i386平臺下Pentium以上的機器均支持,甚至沒有平臺的限制(我相信i386版本UNIX和Linux下這個方法同樣適用,但沒有條件試驗),而且函數(shù)調(diào)用的開銷是最小的。
3. 具有和CPU主頻直接對應(yīng)的速率關(guān)系。一個計數(shù)相當于1/(CPU主頻Hz數(shù))秒,這樣只要知道了CPU的主頻,可以直接計算出時間。這和 QueryPerformanceCount不同,后者需要通過QueryPerformanceFrequency獲取當前計數(shù)器每秒的計數(shù)次數(shù)才能換算成時間。
這個方法的缺點是:
1.現(xiàn)有的C/C++編譯器多數(shù)不直接支持使用RDTSC指令,需要用直接嵌入機器碼的方式編程,比較麻煩。
2.數(shù)據(jù)抖動比較厲害。其實對任何計量手段而言,精度和穩(wěn)定性永遠是一對矛盾。如果用低精度的timeGetTime來計時,基本上每次計時的結(jié)果都是相同的;而RDTSC指令每次結(jié)果都不一樣,經(jīng)常有幾百甚至上千的差距。這是這種方法高精度本身固有的矛盾。
關(guān)于這個方法計時的最大長度,我們可以簡單的用下列公式計算:
自CPU上電以來的秒數(shù)?=?RDTSC讀出的周期數(shù)?/?CPU主頻速率(Hz)
64位無符號整數(shù)所能表達的最大數(shù)字是1.8×10^19,在我的Celeron?800上可以計時大約700年(書中說可以在200MHz的Pentium上計時117年,這個數(shù)字不知道是怎么得出來的,與我的計算有出入)。無論如何,我們大可不必關(guān)心溢出的問題。
下面是幾個小例子,簡要比較了三種計時方法的用法與精度
//Timer1.cpp?使用了RDTSC指令的Timer類//KTimer類的定義可以參見《Windows圖形編程》P15 //編譯行:CL?Timer1.cpp?/link?USER32.lib #include?<stdio.h> #include?"KTimer.h" main() { ?unsigned?t; ?KTimer?timer; ?timer.Start(); ?Sleep(1000); ?t?=?timer.Stop(); ?printf("Lasting?Time:?%d\n",t); }
//Timer2.cpp?使用了timeGetTime函數(shù) //需包含<mmsys.h>,但由于Windows頭文件錯綜復(fù)雜的關(guān)系 //簡單包含<windows.h>比較偷懶:) //編譯行:CL?timer2.cpp?/link?winmm.lib? #include?<windows.h> #include?<stdio.h>
main() { ?DWORD?t1,?t2; ?t1?=?timeGetTime(); ?Sleep(1000); ?t2?=?timeGetTime(); ?printf("Begin?Time:?%u\n",?t1); ?printf("End?Time:?%u\n",?t2); ?printf("Lasting?Time:?%u\n",(t2-t1)); }
//Timer3.cpp?使用了QueryPerformanceCounter函數(shù) //編譯行:CL?timer3.cpp?/link?KERNEl32.lib #include?<windows.h> #include?<stdio.h>
main() { ?LARGE_INTEGER?t1,?t2,?tc; ?QueryPerformanceFrequency(&tc); ?printf("Frequency:?%u\n",?tc.QuadPart); ?QueryPerformanceCounter(&t1); ?Sleep(1000); ?QueryPerformanceCounter(&t2); ?printf("Begin?Time:?%u\n",?t1.QuadPart); ?printf("End?Time:?%u\n",?t2.QuadPart); ?printf("Lasting?Time:?%u\n",(?t2.QuadPart-?t1.QuadPart)); }
//////////////////////////////////////////////// //以上三個示例程序都是測試1秒鐘休眠所耗費的時間 file://測/試環(huán)境:Celeron?800MHz?/?256M?SDRAM?? //??????????Windows?2000?Professional?SP2 //??????????Microsoft?Visual?C++?6.0?SP5 ////////////////////////////////////////////////
以下是Timer1的運行結(jié)果,使用的是高精度的RDTSC指令 Lasting?Time:?804586872
以下是Timer2的運行結(jié)果,使用的是最粗糙的timeGetTime?API Begin?Time:?20254254 End?Time:?20255255 Lasting?Time:?1001
以下是Timer3的運行結(jié)果,使用的是QueryPerformanceCount?API Frequency:?3579545 Begin?Time:?3804729124 End?Time:?3808298836 Lasting?Time:?3569712
參考資料: [YUAN?2002]Feng?Yuan?著,英宇工作室?譯,Windows圖形編程,機械工業(yè)出版社,2002.4.,P15-17 |