最近項(xiàng)目開始集中測(cè)試了,服務(wù)器程序經(jīng)常crash,由于服務(wù)器一般情況下都是關(guān)閉了core的,所以好幾次都只能通過雜亂的日志來定位問題。
當(dāng)然,我們可以通過ulimit來打開core開關(guān),不過這可能帶來新的問題:我們的服務(wù)器程序每個(gè)core文件大概有1G多,測(cè)試期間如果頻繁crash,沒有注意及時(shí)清理,一不小心就會(huì)把磁盤寫滿,
而且core文件畢竟是和進(jìn)程程序相關(guān)的,有時(shí)候找相應(yīng)版本也是個(gè)麻煩事。
能否在程序crash的時(shí)候,將callStack以及參數(shù)和局部變量都記錄到日志里?
這個(gè)技術(shù)其實(shí)在游戲客戶端已經(jīng)用了很多年了,一般游戲客戶端crash后,都會(huì)彈出一個(gè)是否發(fā)送錯(cuò)誤的選擇框,其實(shí)就是發(fā)送的CallStack的日志和MiniDUmp文件。
要想記錄CallStack就必然涉及到Stack的遍歷,linux下的Stack遍歷使用很簡(jiǎn)單,簡(jiǎn)單的backtrace就可以搞定,man backtrace就有現(xiàn)成的例子,
這比windows下復(fù)雜的頭疼的StackWalk好用的多。
解決了Stack遍歷問題后,還剩下一個(gè)問題:如何在程序crash的時(shí)候得到通知執(zhí)行我們自己的dump代碼?
在Windwos下有SEH異常來實(shí)現(xiàn)這個(gè)功能,而linux下可以通過使用信號(hào)在進(jìn)程crash的時(shí)候執(zhí)行自己的處理代碼。
好了,開始寫個(gè)簡(jiǎn)單代碼測(cè)試下:
首先設(shè)置幾個(gè)主要crash信號(hào)的處理函數(shù)
signal(SIGSEGV, &DumpHelper::OnCrash);
signal(SIGABRT, &DumpHelper::OnCrash);
signal(SIGFPE, &DumpHelper::OnCrash);
在OnCrash里我們用前面提到的backtrace系列函數(shù),來記錄堆棧:
void* szStackFrame[100];
int nFrameCount = backtrace(szStackFrame, 100);
char** strFrameInfo = backtrace_symbols(szStackFrame, nFrameCount);
char szDumpFileName[1024] = {0};
snprintf(szDumpFileName, sizeof(szDumpFileName), "dump_%u.log", (unsigned int)time(NULL) );
FILE* pFile = fopen(szDumpFileName, "wb");
if(!pFile) return;
for(int i = 0; i < nFrameCount; i++)
{
fprintf(pFile, "%s\n", strFrameInfo[i]);
}
fclose(pFile);
free(strFrameInfo);
接著,設(shè)置幾個(gè)嵌套調(diào)用的函數(shù):
void fun()
{
//assert(0);
int* p = NULL;
*p =3;
}
void fun1()
{
fun();
}
void fun2()
{
fun1();
}
void fun3()
{
fun2();
}
最后,我們?cè)趍ain函數(shù)里執(zhí)行fun3,注意編譯的時(shí)候帶上-rdynamic 選項(xiàng)。
運(yùn)行下,果然可以打印基本的堆棧,不過馬上,發(fā)現(xiàn)了新的問題:這個(gè)堆棧信息也太簡(jiǎn)陋了,只有調(diào)用函數(shù)的名字,其余的參數(shù)、局部變量完全沒有,
這個(gè)和gdb能看到的callStack差距也太大了。
解決這個(gè)問題最簡(jiǎn)單的辦法就是用gdb來打印堆棧,在這里,gdb和其他程序有區(qū)別,如果你試圖通過 echo "bt"|gdb -p XXX>a.txt來獲得堆棧,那將會(huì)非常失望,
根本不起作用,google了下,基本沒什么解決辦法。
不過gdb 可以從文件讀入指令,例如 gdb XXX<cmddata,這給了我們機(jī)會(huì),
system("echo \"bt full|gcore\">testcmd");
char dbx[160]={0};
sprintf(dbx, "gdb -p %d ./main<testcmd >gdbdump_%d.log", getpid(), getpid() );
system(dbx);
測(cè)試運(yùn)行,發(fā)現(xiàn)可以打印詳細(xì)的堆棧,不過,要求機(jī)器上有g(shù)db.
上面的命令還dump了一個(gè)core文件,不過這個(gè)core文件的堆棧信息是錯(cuò)誤的,我不知道為什么。。。。
多線程環(huán)境下使用上述辦法,只能輸出一個(gè)線程的堆棧,需要先獲取線程數(shù)目,然后逐個(gè)線程打印堆棧。
最后,為了避免影響正常的coredump,要在OnCrash的處理函數(shù)里將信號(hào)的處理函數(shù)設(shè)置為默認(rèn)。
如果我一定要有core呢,setrlimit吧,去掉core限制即可。
posted on 2011-04-10 14:47
feixuwu 閱讀(1032)
評(píng)論(0) 編輯 收藏 引用 所屬分類:
游戲開發(fā)