引用:http://www.shnenglu.com/stdyh/archive/2007/01/08/17442.html
C++對象內存布局
寫這個文章完全是因為想要搞清楚 vc 怎么布局每個 c++ 對象,以及怎樣完成指針的轉換的過程.
先問一個問題,兩個不同類型的指針相互轉換以后,他們在數值上是一樣的嗎?比如:
int nValue = 10;
int *pInt = &nValue;
void *pVoid = pInt;
char *pChar = (char*)pInt;
這些指針的值(不是說指針指向的內存的內容)是一樣的嗎? 如果你的回答是 yes,那如果是一個類的繼承體系呢?在繼承類向基類轉換的過程中,指針的數值還是不變化的么?如果你的回答是"不一定會變化,要看類的體系是怎么設計的 "的話,那恭喜你,不用看下去了.如果你還不確定究竟變還是不變,究竟哪些變,哪些不變,究竟為什么要變為什么不變的話,接著看下來.
c++ 標準不規定 c++ 實現的時候的對象的具體的內存布局,除了在某些方面有小的限制以外,c++ 對象在內存里面的布局完全是由編譯器自行決定,這里我也只是討論 vc++ .net 2003 build 7.1.3091 的實現方式,我并沒有在 vc5 vc6 vc.net 2002 以及其他的 2003 build 上面做過測試,結論也許不適合那些編譯平臺.這些屬于編譯器具體實現,ms 保留有在不通知你我的情況下作出更改的權利.廢話這么多,馬上開始.
對于 c 的內建指針的轉換,結果是不用多討論的,我們只是討論 c++ 的對象.從最簡單的開始.
class CBase
{
public:
int m_nBaseValue;
};
這樣的一個類在內存里放置是非常簡單的,他占有4個 bytes 的空間,不用多說,我們從他派生一個類出來.
class CDerive1 : public CBase
{
public:
int m_nDerive1Value;
};
CDerive1 的對象在內存里面是怎么放的呢? 也很簡單,占有8個 bytes 的空間,前4個 bytes 屬于 CBase 類,后四個 bytes 屬于自己.一個CDerive1 的指針轉換成一個 CBase 的指針,結果是一樣的.下面我們加上多重繼承看看.
class CFinal : public CDerive,public CBase // 這里的 CDerive 是一個和 CBase 差不多的基類
{
public:
int m_nFinalValue;
};
CFinal 的對象在內存里面的布局稍微復雜一點,但是也很容易想象,他占有 12 個 bytes 的空間,前4個屬于 CDerive,中間4個屬于 CBase,后面4個才是自己的.那一個 CFinal 的指針轉換成一個 CDerive 指針,數值會變么? 轉換成一個 CBase 指針呢?又會變化么?答案是,前一個不變,后一個要變化,道理非常的明顯,CFinal 對象的開頭剛好是一個 CDerive 對象,而 CBase 對象卻在 CFinal 對象的中間,自然是要變化的了,具體怎么變化呢? 加 4 就 ok(自然要檢查是否是空指針).
CBase *pBase = pFinal ? (CBase*)((char*)pFinal + sizeof(CDerive)) : 0;// 當你寫下 pBase = pFinal 的時候,其實是這樣的
這種不帶 virtual 的繼承就這么簡單,只是加上一個 offset 而已.下面我們看看如果加上 virtual function 的時候是什么樣子的呢?
還是從簡單類開始.
class CBase
{
public:
virtual void VirtualBaseFunction(){}
int m_nBaseValue;
};
這里刻意沒有使用 virtual destructor,因為這個函數稍微有些不同.還是同樣的問題,CBase 類在內存上占多大的空間?還是 4 bytes 么? 答案是 no, 在我的編譯器上面是 8 bytes,多出來的 4 bytes 是 __vfptr(watch 窗口看見的名字),他是一個指針,指向了類的 vtable,那什么是 vtable 呢,他是用來干什么的呢? vtable 是用來支援 virtual function 機制的,他其實是一個函數指針數組(并不等同于c/c++語言里面的指針數組,因為他們的類型并不一定是一樣的.)他的每一個元素都指向了一個你定義的 virtual function,這樣通過一個中間層來到達動態連編的效果,這些指針是在程序運行的時候準備妥當的,而不是在編譯的時候準備妥當的,這個就是動態聯編的 目的,具體是由誰來設置這些指針的呢?constructor/destructor/copy constructor/assignment operator他們完成的,不用奇怪,編譯器會在你寫的這些函數里面安插些必要的代碼用來設置 vtable 的值,如果你沒有寫這些函數,編譯器會在適當的時候幫你生成這些函數.明白一點, vtable 是用來支持 virtual function 機制的,而需要 virtual 機制的類基本上都會由一個 __vfptr 指向他自己的 vtable.在調用 virtual function的時候,編譯器這樣完成:
pBase->VirtualBaseFunction(); => pBase->__vfptr[0]();// 0 是你的virtual function 在 vtable 中的 slot number,編譯器決定
現在應該很想象 CBase 的大小了吧,那這個 __vfptr 是放到什么位置的呢? 在 m_nBaseValue 之前還是之后呢? 在我的編譯器上看來,是在之前,為什么要放到之前,是因為在通過 指向類成員函數的指針調用 virtual function 的時候能少些代碼(指匯編代碼),這個原因這里就不深入討論了,有興趣的同學可以看看 inside the c++ object model 一書.
接下來,我們加上繼承來看看.
class CDerive1 : public CBase
{
public:
virtual void VirtualDerive1Function();
};
這個時候你也許要說,內存布局跟沒有 virtual 是一樣的,只不過每個類多了一個 __vfptr 而已,呃...這個是不對的,在我的編譯器上面 兩個類共享同一個 __vfptr, vtable 里面放有兩個指針,一個是兩個類共享的,一個只屬于 CDerive1 類,調用的時候如何呢?
pDerive1->VirtualDerive1Function() => pDerive1->__vfptr[1]();
pDerive1->VirtualBaseFunction() => pDerive1->__vfptr[0]();
至于指針的相互轉換,數值還是沒有變化的(也正是追求這種效果,所以把 __vfptr 放到類的開頭,因為調整 this 指針也是要占有運行時的時間的).
現在加上多重繼承瞧瞧,代碼我不寫上來了,就跟上面的 CFinal, CDerive, CBase 體系一樣,只是每個類多一個VirtualxxxFunction出來,這個時候的指針調整還是沒有什么變化,所以我們只是看看 vtable 的情況,你會說 CDerive 和 CFinal 共享一個 __vfptr,而 CBase 有一個自己的 __vfptr,而 CFinal 的 __vfptr 有 2 個slot,這個結論是正確的. 同時你也會說 通過 CFinal 類調用 CBase 的函數是要進行指針調整的,yes you'r right,不僅僅是 this 指針調整(呃,this 指針會成為 function 的一個參數),還要調整 vtable 的值:
pFinal->VirtualBaseFunction() => (CBase*)((char*)pFinal + sizeof(CDerive))->__vfptr[0]();
轉換成 asm 的代碼大約是這樣的:
mov eax,[pFinal] ; pFinal is a local object,pFinal will be epb - xx
add eax,8 ; 8 = sizeof(CDerive)
mov ecx,eax ; ecx is this pointer
mov edx,[eax] ; edx = vtable address
call [edx] ; call vtable[0]
寫到這里也就明白this指針是怎么調整的.帶 virtual function 的繼承也不復雜,this指針調整也是很簡單的,下面看最復雜的部分 virtual inheritance.
我的編譯器支持虛擬繼承的方式和虛函數的方式差不多,都是通過一個 table 完成,只是這個就看不到 vc 賦予的名字了,我們叫他 vbtable 吧,編譯器同樣在類里面加入一個指向 vbtable 的指針,我們叫他 __vbptr 吧,這個指針指向了 vbtable ,而 vbtable 里面的每一項對應了一個基類,vbtable 記錄了每個基類的某一個偏移量,通過這個偏移量就能計算出具體類的指針的位置.看個簡單的例子:
class CBase
{
public:
virtual ~CBase(){}
};
class CMid1 : public virtual CBase
{
public:
virtual ~CMid1(){}
int m_nMid1;
};
class CMid2 : public virtual CBase
{
public:
virtual ~CMid2(){}
int m_nMid2;
};
class CFinal : public CMid1,public CMid2
{
public:
virtual ~CFinal(){}
int m_nFinal;
};
CFinal final;
CFinal *pFinal = &final;??? // pFinal = 0x0012feb4;
CBase *pBase = pFinal; // pBase = 0x0012fec8 = pFinal + 0x14;
CMid1 *pMid1 = pFinal; // pMid1 = 0x0012feb4 = pFinal;
CMid2 *pMid2 = pFinal; // pMid2 = 0x004210b4 = pFinal;
結果讓你吃驚嗎? 最奇怪的地方居然是 CMid2 和 CMid1 的地址居然是一樣的,這個是因為 vc 把 vbtable 放到了 CFinal 類的開頭的原因,而CMid1 和 CMid2 也同樣要使用這個 vbtable, 所以 這個三個的地址也就必須相同了.那 CBase 的地址是怎么出來的呢? 呃...剛剛我們說了 vbtable 放到了CFinal 的開頭(vc 一定會放在開頭嗎?答案是不一定,這個稍后解釋).在我的機器上面 final 對應內存的第一個 dword 是 0x00426030,查看這個地址,第一個dword 是 0 ,第二個就是 0x14,剛好和 pBase 的偏移相同,這個只是巧合,也許你換個類的繼承體系就完全不同了,但是我只是想說明一點,基類的偏移計算是和 vbtable 的值相關聯的.下面我們就來看看 vc 是怎么計算這些偏移的.
vc 在分析我們的代碼的時候,生成了一份類的繼承體系信息,其中有一個叫 thisDisplacement 的_PMD結構:
struct _PMD // total undocumented
{
int mdisp; // i think the meaning is Multiinheritance DISPlacement
int pdisp; // Pointer to vbtable DISPlacement
int vdisp; // Vbtable DISPlacement
};
結構的名字和成員變量的名字確確實實是 vc 的名字(在 watch 窗口輸入 (_PMD*)0 就能看到這個結構的詳細信息),每個字段的含義卻是我自己猜測出來的.mdisp 大概用來表示多重繼承(包括單一繼承)的時候的偏移量,pdisp 表示 vbtable 的偏移量,而 vdisp 表示類在 vbtable 里面的下標.那么有了這個結構怎樣才能完成指針的轉換呢?假如我們有一個派生類指針 pFinal,要轉換成一個特定的基礎類,我們首先要知道和這個基類對應的 _PMD 結構的信息(這個信息的獲取,我暫時沒有找到一個非常方便的方法,現在我使用的方法下面會有描述),有了這個信息以后,轉換就方便了.首先找到 vbtabel 的地址 *(pFinal + pdisp),然后找到基類的偏移 *(*(pFinal + pdisp) + vdisp) 這個偏移值是相對vbtable的,所以還要加上 vbtable的偏移,最后加上 mdisp的偏移,如下:
char *pFinal = xxx; // need a init value
char *pBase; // we must calc
pBase = pFinal + mdisp + *(int *)(*(int *)(pFinal + pdisp) + vdisp) + pdisp;
注意: 當 pdisp < 0 的時候就表示這個類沒有 vbtable 直接使用 pFinal + mdisp 就得到結果了.
所以這個結構是一個通用的結構,專門用作類型轉換,不管是有無虛繼承都能使用這個結構進行類型轉換.
通過這個結構,我們也能看到 vc 是怎樣布局這個 object 的.
看到這里,也許你要大呼一口氣,媽媽呀,一個類型轉換要這么的麻煩嗎?我直接寫 pBase = pFinal 不就可以了嗎? 恭喜你還沒有被我忽悠得暈頭轉向,哈哈.其實你寫下那行語句的時候,編譯器在幫你做這個轉換,大約生成下面的代碼
mov eax,[pFinal] ;final address
mov ecx,[eax] ; vbtable address *(int *)(pFinal + pdisp)
mov edx,eax ; save to edx
add edx,[ecx + 4] ; ecx + 4 is (*(int *)(pFinal + pdisp) + vdisp)
mov [pBase],edx ; edx = pFinal + mdisp + *(int *)(*(int *)(pFinal + pdisp) + vdisp) + pdisp;
; here mdisp = 0, pdisp = 0, vdisp = 4
也許你要說了,我要這些東西來干什么?要轉換的時候直接轉換就好了,編譯器會幫做,的確,大多數的時候確實是這樣,但是,在某些時候卻并不如此,現在你 要實現一個功能,輸入一個指針,輸入一個 _PMD 結構,你要實現一個AdjustPointer 的函數來生成另一個指針.這個時候你也只能這樣完成了,因為我沒有給你兩個指針的名字,就算給了你字符串形式的名字也沒有用,呃....你也許會說,辦法 是有的,的確是有,模板就能實現這種功能,呵..這個我們暫時不討論具體的實現細節.也許你要問了,究竟什么時候會去實現這種聽都沒有聽過的功能,其實這 個函數是真正存在的,只不過不是由你來實現的,而是 ms 的人實現的,你只用寫一個 帶有 c++ 異常的程序,使用 ida 反匯編,然后查找函數,就能找到這個函數了,他用來在異常處理時創建 catch 所需要的 object.至于這個詳細的信息,請期待.我會最快速度寫出關于 vc 是怎樣實現 c++ 異常的文章來.
最后了,說說那個 _PMD 結構的獲取方式.看的時候不要吃驚,方法比較的麻煩,比如我想知道和 CFinal 類相關的 _PMD 信息,先新建工作,寫下 throw pFinal 這樣的語句,編譯,在這個語句的地方設置斷點,運行,轉到反匯編,進入 __CxxThrowException@8 函數,這個時候不出意外你能看到一個叫 pThrowInfo 的東西(如果看不到,請打開"顯示符號名"選項),在 watch 窗口里面輸入pThrowInfo,展開他,看到一個pCatchableTypeArray,記錄下他的 nCacthableTypes的值,然后在 watch 里面輸入
pThrowInfo->pCatchableTypeArray->arrayOfCatchableTypes[0] 到 pThrowInfo->pCatchableTypeArray->arrayOfCatchableTypes[n], n 就是你剛剛記錄的值減1,再展開他們,你就能看到一個 thisDisplacement 的數據,繼續展開就是 mdisp 等等了,很是麻煩吧.哈..你已經猜到了,這個是和異常有關系的.
后記: 這段時間,我一直在讀些反匯編之后的代碼,也頗有些心得,所以才有想法寫一些文章,探討 vc 編譯器鮮為人知(太過狂妄了)的秘密,這個方面的文章也有人寫過,那些文章也給我不少的啟發,我不認為自己是第一個發現這些秘密的人,但是至少我自己知道 的,我是第一個把這些東西寫出來的人.文章里面作墨多的部分都是自己發現的.就這個文章里面的內容來說,inside the c++ object model 是有比較詳細的描寫,但是他并不是轉換針對 vc 這個編譯器的實現,而 _PMD 這個結構我也沒有在什么地方見有人描述過,只是在 windows develop network 的2002年12月的雜志上看有人提到過這個結構,可惜他卻沒有了解(至少他在他發表文章的時候是如是說的)這個結構的用處(正是因為這個原因,我才有寫 這個文章以及后續文章的沖動).所以,這個文章也算是我自己的原創吧.這個文件雖然和游戲制造沒有太大的關系,但是小 T 自視清高,不愿意自己的文章被一幫不懂的人評價來評價去的,所以也沒有發到那些著名的 xxx 網站,只發 goldpoint.轉載請注明出處(小 T 對自己的第一個原創文章比較珍惜,比較重視,謝謝).