上一篇文章講到了如何檢查內存泄露。其實只要肯用C++的STL里面的高級功能的話,內存泄露是很容易避免的。我在開發Vczh Library++ 3.0的時候,所有的測試用例都保證跑完了沒有內存泄露。但是很可惜有些C++團隊不能使用異常,更甚者不允許寫構造函數析構函數之類,前一個還好,后一個簡直就是在用C。當然有這些變態規定的地方STL都是用不了的,所以我們更加需要扎實的基礎來開發C++程序。
今天這一篇主要還是講指針的問題。因為上一篇文章一筆帶過,今天就來詳細講內存泄漏或者野指針發生的各種情況。當然我不可能一下子舉出全部的例子,只能說一些常見的。
一、錯誤覆蓋內存。
之前提到的不能隨便亂memset其實就是為了避免這個問題的。其實memcpy也不能亂用,我們來看一個例子,最簡單的:
1 #define MAX_STRING 20;
2
3 struct Student
4 {
5 char name[MAX_STRING];
6 char id[MAX_STRING];
7 int chinese;
8 int math;
9 int english;
10 };
2
3 struct Student
4 {
5 char name[MAX_STRING];
6 char id[MAX_STRING];
7 int chinese;
8 int math;
9 int english;
10 };
大家對這種結構肯定十分熟悉,畢竟是大學時候經常要寫的作業題……好了,大家很容易看得出來這其實是C語言的經典寫法。我們拿到手之后,一般會先初始化一下,然后賦值。
1 Student vczh;
2 memset(&vczh, 0, sizeof(vczh));
3 strcpy(vczh.name, "vczh");
4 strcpy(vczh.id, "VCZH'S ID");
5 vczh.chinese=70;
6 vczh.math=90;
7 vczh.english=80;
2 memset(&vczh, 0, sizeof(vczh));
3 strcpy(vczh.name, "vczh");
4 strcpy(vczh.id, "VCZH'S ID");
5 vczh.chinese=70;
6 vczh.math=90;
7 vczh.english=80;
為什么要在這里使用memset呢?memset的用處是將一段內存的每一個字節都設置成同一個數字。這里是0,因此兩個字符串成員的所有字節都會變成0。因此在memset了Student之后,我們通過正常方法來訪問name和id的時候都會得到空串。而且如果Student里面有指針的話,0指針代表的是沒有指向任何有效對象,因此這個時候對指針指向的對象進行讀寫就會立刻崩潰。對于其他數值,0一般作為初始值也不會有什么問題(double什么的要小心)。這就是我們寫程序的時候使用memset的原因。
好了,如今社會進步,人民當家做主了,死程們再也不需要受到可惡的C語言剝削了,我們可以使用C++!因此我們借助STL的力量把Student改寫成下面這種帶有C++味道的形式:
1 struct Student
2 {
3 std::string name;
4 std::string id;
5 int chinese;
6 int math;
7 int english;
8 };
2 {
3 std::string name;
4 std::string id;
5 int chinese;
6 int math;
7 int english;
8 };
我們仍然需要對Student進行初始化,不然三個分數還是隨機值。但是我們又不想每一次創建的時候都對他們分別進行賦值初始化城0。這個時候你心里可能還是想著memset,這就錯了!在memset的時候,你會把std::string內部的不知道什么東西也給memset掉。假如一個空的std::string里面存放的指針指向的是一個空的字符串而不是用0來代表空的時候,一下子內部的指針就被你刷成0,等下std::string的析構函數就沒辦法delete掉指針了,于是內存泄露就出現了。有些朋友可能不知道上面那句話說的是什么意思,我們現在來模擬一下不能memset的std::string要怎么實現。
為了讓memset一定出現內存泄露,那么std::string里面的指針必須永遠都指向一個有效的東西。當然我們還需要在字符串進行復制的時候復制指針。我們這里不考慮各種優化技術,用最簡單的方法做一個字符串出來:
1 class String
2 {
3 private:
4 char* buffer;
5
6 public:
7 String()
8 {
9 buffer=new char[1];
10 buffer[0]=0;
11 }
12
13 String(const char* s)
14 {
15 buffer=new char[strlen(s)+1];
16 strcpy(buffer, s);
17 }
18
19 String(const String& s)
20 {
21 buffer=new char[strlen(s.buffer)+1];
22 strcpy(buffer, s.buffer);
23 }
24
25 ~String()
26 {
27 delete[] buffer;
28 }
29
30 String& operator=(const String& s)
31 {
32 delete[] buffer;
33 buffer=new char[strlen(s.buffer)+1];
34 strcpy(buffer, s.buffer);
35 }
36 };
2 {
3 private:
4 char* buffer;
5
6 public:
7 String()
8 {
9 buffer=new char[1];
10 buffer[0]=0;
11 }
12
13 String(const char* s)
14 {
15 buffer=new char[strlen(s)+1];
16 strcpy(buffer, s);
17 }
18
19 String(const String& s)
20 {
21 buffer=new char[strlen(s.buffer)+1];
22 strcpy(buffer, s.buffer);
23 }
24
25 ~String()
26 {
27 delete[] buffer;
28 }
29
30 String& operator=(const String& s)
31 {
32 delete[] buffer;
33 buffer=new char[strlen(s.buffer)+1];
34 strcpy(buffer, s.buffer);
35 }
36 };
于是我們來做一下memset。首先定義一個字符串變量,其次memset掉,讓我們看看會發生什么事情:
1 string s;
2 memset(&s, 0, sizeof(s));
2 memset(&s, 0, sizeof(s));
第一行我們構造了一個字符串s。這個時候字符串的構造函數就會開始運行,因此strcmp(s.buffer, "")==0。第二行我們把那個字符串給memset掉了。這個時候s.buffer==0。于是函數結束了,字符串的析構函數嘗試delete這個指針。我們知道delete一個0是不會有問題的,因此程序不會發生錯誤。我們活生生把構造函數賦值給buffer的new char[1]給丟了!鐵定發生內存泄露!
好了,提出問題總要解決問題,我們不使用memset的話,怎么初始化Student呢?這個十分好做,我們只需要為Student加上構造函數即可:
1 struct Student
2 {
3
.//不重復那些聲明
4
5 Student():chinese(0),math(0),english(0)
6 {
7 }
8 };
2 {
3

4
5 Student():chinese(0),math(0),english(0)
6 {
7 }
8 };
這樣就容易多了。每當我們定義一個Student變量的時候,所有的成員都初始化好了。name和id因為string的構造函數也自己初始化了,因此所有的成員也都初始化了。加入Student用了一半我們想再初始化一下怎么辦呢?也很容易:
1 Student vczh;
2
.//各種使用
3 vczh=Student();
2

3 vczh=Student();
經過一個等號操作符的調用,舊Student的所有成員就被一個新的初始化過的Student給覆蓋了,就如同我們對一個int變量重新賦值一樣常見。當然因為各種復制經常會出現,因此我們也要跟上面貼出來的string的例子一樣,實現好那4個函數。至此我十分不理解為什么某些團隊不允許使用構造函數,我猜就是為了可以memset,其實是很沒道理的。
二、異常。
咋一看內存泄露跟異常好像沒什么關系,但實際上這種情況更容易發生。我們來看一個例子:
1 char* strA=new char[MAX_PATH];
2 if(GetXXX(strA, MAX_PATH)==ERROR) goto RELEASE_STRA;
3 char* strB=new char[MAX_PATH];
4 if(GetXXX(strB, MAX_PATH)==ERROR) goto RELEASE_STRB;
5
6 DoSomething(strA, strB);
7
8 RELEASE_STRB:
9 delete[] strB;
10 RELEASE_STRA:
11 delete[] strA;
2 if(GetXXX(strA, MAX_PATH)==ERROR) goto RELEASE_STRA;
3 char* strB=new char[MAX_PATH];
4 if(GetXXX(strB, MAX_PATH)==ERROR) goto RELEASE_STRB;
5
6 DoSomething(strA, strB);
7
8 RELEASE_STRB:
9 delete[] strB;
10 RELEASE_STRA:
11 delete[] strA;
相信這肯定是大家的常用模式。我在這里也不是教唆大家使用goto,不過對于這種例子來說,用goto是最優美的解決辦法了。但是大家可以看出來,我們用的是C++,因為這里有new。如果DoSomething發生了異常怎么辦呢?如果GetXXX發生了異常怎么辦呢?我們這里沒有任何的try-catch,一有異常,函數里克結束,兩行可憐的delete就不會被執行到了,于是內存泄漏發生了!
那我們如何避免這種情況下的內存泄露呢?一些可愛的小盆友可能會想到,既然是因為沒有catch異常才發生的內存泄露,那我們來catch吧:
1 char* strA=new char[MAX_PATH];
2 try
3 {
4 if(GetXXX(strA, MAX_PATH)==ERROR) goto RELEASE_STRA;
5 char* strB=new char[MAX_PATH];
6 try
7 {
8 if(GetXXX(strB, MAX_PATH)==ERROR) goto RELEASE_STRB;
9 DoSomething(strA, strB);
10 }
11 catch(
)
12 {
13 delete[] strB;
14 throw;
15 }
16 }
17 catch(
)
18 {
19 delete[] strA;
20 throw;
21 }
22
23 RELEASE_STRB:
24 delete[] strB;
25 RELEASE_STRA:
26 delete[] strA;
2 try
3 {
4 if(GetXXX(strA, MAX_PATH)==ERROR) goto RELEASE_STRA;
5 char* strB=new char[MAX_PATH];
6 try
7 {
8 if(GetXXX(strB, MAX_PATH)==ERROR) goto RELEASE_STRB;
9 DoSomething(strA, strB);
10 }
11 catch(

12 {
13 delete[] strB;
14 throw;
15 }
16 }
17 catch(

18 {
19 delete[] strA;
20 throw;
21 }
22
23 RELEASE_STRB:
24 delete[] strB;
25 RELEASE_STRA:
26 delete[] strA;
你能接受嗎?當然是不能的。問題出在哪里呢?因為C++沒有try-finally。你看這些代碼到處都是雷同的東西,顯然我們需要編譯器幫我們把這些問題搞定。最好的解決方法是什么呢?顯然還是構造函數和析構函數。總之記住,如果想要事情成對發生,那么使用構造函數和析構函數。
第一步,GetXXX顯然只能支持C模式的東西,因此我們要寫一個支持C++的:
1 bool GetXXX2(string& s)
2 {
3 char* str=new char[MAX_PATH];
4 bool result;
5 try
6 {
7 result=GetXXX(str, MAX_PATH);
8 if(result)s=str;
9 }
10 catch(
)
11 {
12 delete[] str;
13 throw;
14 }
15 delete[] str;
16 return result;
17 }
2 {
3 char* str=new char[MAX_PATH];
4 bool result;
5 try
6 {
7 result=GetXXX(str, MAX_PATH);
8 if(result)s=str;
9 }
10 catch(

11 {
12 delete[] str;
13 throw;
14 }
15 delete[] str;
16 return result;
17 }
借助這個函數我們可以看到,因為有了GetXXX這種C的東西,導致我們多了多少麻煩。不過這總是一勞永逸的,有了GetXXX2和修改之后的DoSomething2之后,我們就可以用更簡單的方法來做了:
1 string a,b;
2 if(GetXXX2(a) && GetXXX2(b))
3 {
4 DoSomething2(a, b);
5 }
2 if(GetXXX2(a) && GetXXX2(b))
3 {
4 DoSomething2(a, b);
5 }
多么簡單易懂。這個代碼在任何地方發生了異常,所有new的東西都會被delete。這就是析構函數的一個好處。一個變量的析構函數在這個變量超出了作用域的時候一定會被調用,無論代碼是怎么走出去的。
今天就說到這里了。說了這么多還是想讓大家不要小看構造函數和析構函數。那種微不足道的因為一小部分不是瓶頸的性能問題而放棄構造函數和析構函數的做法,終究是要為了修bug而加班的。只要明白并用好了構造函數、析構函數和異常,那么C++的特性也可以跟C一樣清楚明白便于理解,而且寫出來的代碼更好看的。大家期待第三篇哈。