標(biāo)簽:Linux,段錯(cuò)誤,調(diào)試
Linux下的
段錯(cuò)誤產(chǎn)生的原因及調(diào)試方法這篇文章比較全面,講的也不錯(cuò),推薦
簡(jiǎn)而言之,產(chǎn)生段錯(cuò)誤就是訪問(wèn)了錯(cuò)誤的內(nèi)存段,一般是你沒(méi)有權(quán)限,或者根本就不存在對(duì)應(yīng)的物理內(nèi)存,尤其常見(jiàn)的是訪問(wèn)0地址.
一般來(lái)說(shuō),段錯(cuò)誤就是指訪問(wèn)的內(nèi)存超出了系統(tǒng)所給這個(gè)程序的內(nèi)存空間,通常這個(gè)值是由
gdtr 來(lái)保存的,他是一個(gè)48位的寄存器,其中的32位是保存由它指向的
gdt表,后13位保存相應(yīng)于
gdt的下標(biāo),最后3位包括了程序是否在內(nèi)存中以及程序的在cpu中的運(yùn)行級(jí)別,指向的gdt是由以64位為一個(gè)單位的表,在這張表中就保存著程序運(yùn)行的代碼段以及數(shù)據(jù)段的起始地址以及與此相應(yīng)的段限和頁(yè)面交換還有程序運(yùn)行級(jí)別還有內(nèi)存粒度等等的信息。
一旦一個(gè)程序發(fā)生了越界訪問(wèn),cpu就會(huì)產(chǎn)生相應(yīng)的異常保護(hù),于是segmentation fault就出現(xiàn)了.
在編程中以下幾類做法容易導(dǎo)致段錯(cuò)誤,基本是是錯(cuò)誤地使用指針引起的
1)訪問(wèn)系統(tǒng)數(shù)據(jù)區(qū),尤其是往 系統(tǒng)保護(hù)的內(nèi)存地址寫(xiě)數(shù)據(jù)
最常見(jiàn)就是給一個(gè)指針以0地址
2)內(nèi)存越界(數(shù)組越界,變量類型不一致等) 訪問(wèn)到不屬于你的內(nèi)存區(qū)域
解決方法
我們?cè)谟肅/C++語(yǔ)言寫(xiě)程序的時(shí)侯,內(nèi)存管理的絕大部分工作都是需要我們來(lái)做的。實(shí)際上,內(nèi)存管理是一個(gè)比較繁瑣的工作,無(wú)論你多高明,經(jīng)驗(yàn)多豐富,難免會(huì)在此處犯些小錯(cuò)誤,而通常這些錯(cuò)誤又是那么的淺顯而易于消除。
但是手工“除蟲(chóng)”(debug),往往是效率低下且讓人厭煩的,本文將就"段錯(cuò)誤"這個(gè)內(nèi)存訪問(wèn)越界的錯(cuò)誤談?wù)勅绾慰焖俣ㄎ贿@些"段錯(cuò)誤"的語(yǔ)句。
下面將就以下的一個(gè)存在段錯(cuò)誤的程序介紹幾種調(diào)試方法:
dummy_function (void)
{
unsigned char *ptr = 0x00;
*ptr = 0x00;
}
int main (void)
{
dummy_function ();
return 0;
}
作為一個(gè)熟練的C/C++程序員,以上代碼的bug應(yīng)該是很清楚的,因?yàn)樗鼑L試操作地址為0的內(nèi)存區(qū)域,而這個(gè)內(nèi)存區(qū)域通常是不可訪問(wèn)的禁區(qū),當(dāng)然就會(huì)出錯(cuò)了。
我們嘗試編譯運(yùn)行它:
$ ./a.out
段錯(cuò)誤
果然不出所料,它出錯(cuò)并退出了。
1.利用gdb逐步查找段錯(cuò)誤:
這種方法也是被大眾所熟知并廣泛采用的方法.
首先我們需要一個(gè)帶有調(diào)試信息的可執(zhí)行程序,所以我們加上“-g -rdynamic"的參數(shù)進(jìn)行編譯,然后用gdb調(diào)試運(yùn)行這個(gè)新編譯的程序,具體步驟如下:
$
gcc -g -rdynamic d.c
$
gdb ./a.out
GNU gdb 6.5
Copyright (C) 2006 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB.
Type "show warranty" for details.
This GDB was configured as "i686-pc-linux-gnu"...
Using host libthread_db library "/lib/libthread_db.so.1".
(gdb)
r
Starting program: ./a.out
Program received signal SIGSEGV, Segmentation fault.
0x08048524 in dummy_function () at d.c:4
4 *ptr = 0x00;
(gdb)
哦?!好像不用一步步調(diào)試我們就找到了出錯(cuò)位置d.c文件的第4行,其實(shí)就是如此的簡(jiǎn)單。
從這里我們還發(fā)現(xiàn)進(jìn)程是由于收到了SIGSEGV信號(hào)而結(jié)束的。
通過(guò)進(jìn)一步的查閱文檔(man 7 signal),我們知道SIGSEGV默認(rèn)handler的動(dòng)作是打印”段錯(cuò)誤"的出錯(cuò)信息,并產(chǎn)生Core文件,由此我們又產(chǎn)生了方法二。
2.分析Core文件:
Core文件是什么呢?
/The default action of certain signals is to cause a process to terminate and produce a core dump file, a disk file containing an image of the process's memory at the time of termination. A list of the signals which cause a process to dump core can be found in signal(7).
以 上資料摘自man page(man 5 core)。
不過(guò)奇怪了,我的系統(tǒng)上并沒(méi)有找到core文件。后來(lái),想起為了減少系統(tǒng)上的拉圾文件的數(shù)量,禁止了core文件的生成,查看了一下果真如此,將系統(tǒng)的core文件的大小限制在512K大小,
再試:
$
ulimit -c
0
$
ulimit -c 1000$
ulimit -c
1000
$
./a.out
段錯(cuò)誤 (core dumped)
$
ls
a.out core d.c f.c g.c pango.c test_iconv.c test_regex.c
core文件終于產(chǎn)生了,用gdb調(diào)試一下看看吧:
$
gdb ./a.out core
GNU gdb 6.5
Copyright (C) 2006 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB.
Type "show warranty" for details.
This GDB was configured as "i686-pc-linux-gnu"...
Using host libthread_db library "/lib/libthread_db.so.1".
warning: Can't read pathname for load map: 輸入/輸出錯(cuò)誤.
Reading symbols from /lib/libc.so.6...done.
Loaded symbols for /lib/libc.so.6
Reading symbols from /lib/ld-linux.so.2...done.
Loaded symbols for /lib/ld-linux.so.2
Core was generated by `./a.out'.
Program terminated with signal 11, Segmentation fault.
#0
0x08048524 in dummy_function () at d.c:4
4 *ptr = 0x00;
哇,好歷害,還是一步就定位到了錯(cuò)誤所在地,佩服一下Linux/Unix系統(tǒng)的此類設(shè)計(jì)。
接著考慮下去,以前用windows系統(tǒng)下的ie的時(shí)侯,有時(shí)打開(kāi)某些網(wǎng)頁(yè),會(huì)出現(xiàn)“運(yùn)行時(shí)錯(cuò)誤”,這個(gè)時(shí)侯如果恰好你的機(jī)器上又裝有windows的編譯器的話,他會(huì)彈出來(lái)一個(gè)對(duì)話框,問(wèn)你是否進(jìn)行調(diào)試,如果你選擇是,編譯器將被打開(kāi),并進(jìn)入調(diào)試狀態(tài),開(kāi)始調(diào)試。
Linux下如何做到這些呢?
我的大腦飛速地旋轉(zhuǎn)著,有了,讓它在SIGSEGV的handler中調(diào)用gdb,于是第三個(gè)方法又誕生了:
3.段錯(cuò)誤時(shí)啟動(dòng)調(diào)試:
#include
#include
#include
#include
void dump(int signo)
{
char buf[1024];
char cmd[1024];
FILE *fh;
snprintf(buf, sizeof(buf),
"/proc/%d/cmdline",
getpid());
if(!(fh = fopen(buf, "r")))
exit(0);
if(!fgets(buf, sizeof(buf), fh))
exit(0);
fclose(fh);
if(buf[strlen(buf) - 1] == '\n')
buf[strlen(buf) - 1] = '\0';
snprintf(cmd, sizeof(cmd), "gdb %s %d", buf, getpid());
system(cmd);
exit(0);
}
void dummy_function (void)
{
unsigned char *ptr = 0x00;
*ptr = 0x00; } int main (void){
signal(SIGSEGV, &dump);
dummy_function (); return 0;
}
}
編譯運(yùn)行效果如下:
$ gcc -g-rdynamicf.c
$ ./a.out
GNU gdb 6.5
Copyright (C) 2006 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB.
Type "show warranty" for details.
This GDB was configured as "i686-pc-linux-gnu"...
Using host libthread_db library "/lib/libthread_db.so.1".
Attaching to program: /home/xiaosuo/test/a.out, process 9563
Reading symbols from/lib/libc.so.6...done.
Loaded symbols for /lib/libc.so.6
Reading symbols from /lib/ld-linux.so.2...done.
Loaded symbols for /lib/ld-linux.so.2
0xffffe410 in __kernel_vsyscall ()
/(gdb) bt
#0 0xffffe410 in __kernel_vsyscall ()
#1 0xb7ee4b53 in waitpid () from /lib/libc.so.6
#2 0xb7e925c9 in strtold_l () from /lib/libc.so.6
#3 0x08048830 in dump (signo=11) at f.c:22
#4
#5 0x0804884c in dummy_function () at f.c:31
#6 0x08048886 in main () at f.c:38
怎么樣?是不是依舊很酷?
以上方法都是在系統(tǒng)上有g(shù)db的前提下進(jìn)行的,如果沒(méi)有呢?其實(shí)glibc為我們提供了此類能夠dump棧內(nèi)容的函數(shù)簇,詳見(jiàn)/usr/include/execinfo.h(這些函數(shù)都沒(méi)有提供man page,難怪我們找不到),另外你也可以通過(guò)gnu的手冊(cè)進(jìn)行學(xué)習(xí)。
4.利用backtrace和objdump進(jìn)行分析:
重寫(xiě)的代碼如下:
#include
#include
#include
#include /* A dummy function to make the backtrace more interesting. */
void dummy_function (void)
{
unsigned char *ptr = 0x00;
*ptr = 0x00;
}
void dump(int signo)
{
void *array[10];
size_t size;
char **strings;
size_t i;
size = backtrace (array, 10);
strings = backtrace_symbols (array, size);
printf ("Obtained %zd stack frames.\n", size);
for (i = 0; i < size; i++)
printf ("%s\n", strings[i]);
free (strings); exit(0);
}
int main (void)
{
signal(SIGSEGV, &dump);
dummy_function ();
return 0;
}
編譯運(yùn)行結(jié)果如下:
$ gcc -g -rdynamic g.c
$ ./a.out
Obtained 5 stack frames.
./a.out(dump+0x19) [0x80486c2]
[0xffffe420]
./a.out(main+0x35) [0x804876f]
/lib/libc.so.6(__libc_start_main+0xe6) [0xb7e02866]
./a.out [0x8048601]
這次你可能有些失望,似乎沒(méi)能給出足夠的信息來(lái)標(biāo)示錯(cuò)誤,不急,先看看能分析出來(lái)什么吧,
用objdump反匯編程序,找到地址0x804876f對(duì)應(yīng)的代碼位置:
$ objdump -d a.out
8048765: e8 02 fe ff ff call
804856c
804876a: e8 25 ff ff ff call
8048694
804876f: b8 00 00 00 00 mov $0x0,%eax
8048774: c9 leave
我們還是找到了在哪個(gè)函數(shù)(dummy_function)中出錯(cuò)的,信息已然不是很完整,不過(guò)有總比沒(méi)有好的啊!
后記:
本文給出了分析"段錯(cuò)誤"的幾種方法,不要認(rèn)為這是與孔乙己先生的"回"字四種寫(xiě)法一樣的哦,因?yàn)槊糠N方法都有其自身的適用范圍和適用環(huán)境,請(qǐng)酌情使用,或遵醫(yī)囑。
文章引用自:
http://www.upsdn.net/html/2006-11/775.html