From: http://freeman.cnblogs.com/
1、什么是sizeof

??? 首先看一下sizeof在msdn上的定義:

??? The sizeof keyword gives the amount of storage, in bytes, associated with a variable or a type (including aggregate types). This keyword returns a value of type size_t.

??? 看到return這個(gè)字眼,是不是想到了函數(shù)?錯(cuò)了,sizeof不是一個(gè)函數(shù),你見過給一個(gè)函數(shù)傳參數(shù),而不加括號的嗎?sizeof可以,所以sizeof不是函數(shù)。網(wǎng)上有人說sizeof是一元操作符,但是我并不這么認(rèn)為,因?yàn)閟izeof更像一個(gè)特殊的宏,它是在編譯階段求值的。舉個(gè)例子:
?
?cout<<sizeof(int)<<endl;?// 32位機(jī)上int長度為4
?cout<<sizeof(1==2)<<endl;?// == 操作符返回bool類型,相當(dāng)于 cout<<sizeof(bool)<<endl;

??? 在編譯階段已經(jīng)被翻譯為:

?cout<<4<<endl;
?cout<<1<<endl;

??? 這里有個(gè)陷阱,看下面的程序:

?int a = 0;
?cout<<sizeof(a=3)<<endl;
?cout<<a<<endl;

??? 輸出為什么是4,0而不是期望中的4,3???就在于sizeof在編譯階段處理的特性。由于sizeof不能被編譯成機(jī)器碼,所以sizeof作用范圍內(nèi),也就是()里面的內(nèi)容也不能被編譯,而是被替換成類型。=操作符返回左操作數(shù)的類型,所以a=3相當(dāng)于int,而代碼也被替換為:

?int a = 0;
?cout<<4<<endl;
?cout<<a<<endl;

??? 所以,sizeof是不可能支持鏈?zhǔn)奖磉_(dá)式的,這也是和一元操作符不一樣的地方。

??? 結(jié)論:不要把sizeof當(dāng)成函數(shù),也不要看作一元操作符,把他當(dāng)成一個(gè)特殊的編譯預(yù)處理。

2、sizeof的用法

??? sizeof有兩種用法:
?
??? (1)sizeof(object)
??? 也就是對對象使用sizeof,也可以寫成sizeof object 的形式。例如:

??? (2)sizeof(typename)
??? 也就是對類型使用sizeof,注意這種情況下寫成sizeof typename是非法的。下面舉幾個(gè)例子說明一下:


?int i = 2;
?cout<<sizeof(i)<<endl;?// sizeof(object)的用法,合理
?cout<<sizeof i<<endl;?// sizeof object的用法,合理
?cout<<sizeof 2<<endl;?// 2被解析成int類型的object, sizeof object的用法,合理
?cout<<sizeof(2)<<endl;?// 2被解析成int類型的object, sizeof(object)的用法,合理
?cout<<sizeof(int)<<endl;// sizeof(typename)的用法,合理
?cout<<sizeof int<<endl;?// 錯(cuò)誤!對于操作符,一定要加()

??? 可以看出,加()是永遠(yuǎn)正確的選擇。

??? 結(jié)論:不論sizeof要對誰取值,最好都加上()。


3、數(shù)據(jù)類型的sizeof

(1)C++固有數(shù)據(jù)類型

??? 32位C++中的基本數(shù)據(jù)類型,也就char,short int(short),int,long int(long),float,double, long double
大小分別是:1,2,4,4,4,8, 10。

??? 考慮下面的代碼:

?cout<<sizeof(unsigned int) == sizeof(int)<<endl;?// 相等,輸出 1

??? unsigned影響的只是最高位bit的意義,數(shù)據(jù)長度不會被改變的。

??? 結(jié)論:unsigned不能影響sizeof的取值。

(2)自定義數(shù)據(jù)類型

??? typedef可以用來定義C++自定義類型。考慮下面的問題:

?typedef short WORD;
?typedef long DWORD;
?cout<<(sizeof(short) == sizeof(WORD))<<endl;?// 相等,輸出1
?cout<<(sizeof(long) == sizeof(DWORD))<<endl;?// 相等,輸出1

??? 結(jié)論:自定義類型的sizeof取值等同于它的類型原形。

(3)函數(shù)類型

??? 考慮下面的問題:

?int f1(){return 0;};
?double f2(){return 0.0;}
?void f3(){}

?cout<<sizeof(f1())<<endl;?// f1()返回值為int,因此被認(rèn)為是int
?cout<<sizeof(f2())<<endl;?// f2()返回值為double,因此被認(rèn)為是double
?cout<<sizeof(f3())<<endl;?// 錯(cuò)誤!無法對void類型使用sizeof
?cout<<sizeof(f1)<<endl;??// 錯(cuò)誤!無法對函數(shù)指針使用sizeof???
?cout<<sizeof*f2<<endl;??// *f2,和f2()等價(jià),因?yàn)榭梢钥醋鱫bject,所以括號不是必要的。被認(rèn)為是double

??? 結(jié)論:對函數(shù)使用sizeof,在編譯階段會被函數(shù)返回值的類型取代,

4、指針問題

??? 考慮下面問題:
?
?cout<<sizeof(string*)<<endl;?// 4
?cout<<sizeof(int*)<<endl;?// 4
?cout<<sizof(char****)<<endl;?// 4

??? 可以看到,不管是什么類型的指針,大小都是4的,因?yàn)橹羔樉褪?2位的物理地址。

??? 結(jié)論:只要是指針,大小就是4。(64位機(jī)上要變成8也不一定)。

??? 順便唧唧歪歪幾句,C++中的指針表示實(shí)際內(nèi)存的地址。和C不一樣的是,C++中取消了模式之分,也就是不再有small,middle,big,取而代之的是統(tǒng)一的flat。flat模式采用32位實(shí)地址尋址,而不再是c中的 segment:offset模式。舉個(gè)例子,假如有一個(gè)指向地址 f000:8888的指針,如果是C類型則是8888(16位, 只存儲位移,省略段),far類型的C指針是f0008888(32位,高位保留段地址,地位保留位移),C++類型的指針是f8888(32位,相當(dāng)于段地址*16 + 位移,但尋址范圍要更大)。

5、數(shù)組問題

??? 考慮下面問題:

?char a[] = "abcdef";
?int b[20] = {3, 4};
?char c[2][3] = {"aa", "bb"};
?

?cout<<sizeof(a)<<endl;?// 7
?cout<<sizeof(b)<<endl;?// 20*4
?cout<<sizeof(c)<<endl;?// 6
?

??? 數(shù)組a的大小在定義時(shí)未指定,編譯時(shí)給它分配的空間是按照初始化的值確定的,也就是7。c是多維數(shù)組,占用的空間大小是各維數(shù)的乘積,也就是6。可以看出,數(shù)組的大小就是他在編譯時(shí)被分配的空間,也就是各維數(shù)的乘積*數(shù)組元素的大小。

??? 結(jié)論:數(shù)組的大小是各維數(shù)的乘積*數(shù)組元素的大小。

??? 這里有一個(gè)陷阱:

?int *d = new int[10];

?cout<<sizeof(d)<<endl;?// 4

??? d是我們常說的動(dòng)態(tài)數(shù)組,但是他實(shí)質(zhì)上還是一個(gè)指針,所以sizeof(d)的值是4。

??? 再考慮下面的問題:

?double* (*a)[3][6];
?
?cout<<sizeof(a)<<endl;??// 4
?cout<<sizeof(*a)<<endl;??// 72
?cout<<sizeof(**a)<<endl;?// 24
?cout<<sizeof(***a)<<endl;?// 4
?cout<<sizeof(****a)<<endl;?// 8

??? a是一個(gè)很奇怪的定義,他表示一個(gè)指向 double*[3][6]類型數(shù)組的指針。既然是指針,所以sizeof(a)就是4。

??? 既然a是執(zhí)行double*[3][6]類型的指針,*a就表示一個(gè)double*[3][6]的多維數(shù)組類型,因此sizeof(*a)=3*6*sizeof(double*)=72。同樣的,**a表示一個(gè)double*[6]類型的數(shù)組,所以sizeof(**a)=6*sizeof(double*)=24。***a就表示其中的一個(gè)元素,也就是double*了,所以sizeof(***a)=4。至于****a,就是一個(gè)double了,所以sizeof(****a)=sizeof(double)=8。


6、向函數(shù)傳遞數(shù)組的問題。

??? 考慮下面的問題:
#include <iostream>
using namespace std;

int Sum(int i[])
{
?int sumofi = 0;
?for (int j = 0; j < sizeof(i)/sizeof(int); j++) //實(shí)際上,sizeof(i) = 4
?{
??sumofi += i[j];
?}
?return sumofi;
}

int main()
{
?int allAges[6] = {21, 22, 22, 19, 34, 12};
?cout<<Sum(allAges)<<endl;
?system("pause");
?return 0;
}

??? Sum的本意是用sizeof得到數(shù)組的大小,然后求和。但是實(shí)際上,傳入自函數(shù)Sum的,只是一個(gè)int 類型的指針,所以sizeof(i)=4,而不是24,所以會產(chǎn)生錯(cuò)誤的結(jié)果。解決這個(gè)問題的方法使是用指針或者引用。

??? 使用指針的情況:
int Sum(int (*i)[6])
{
?int sumofi = 0;
?for (int j = 0; j < sizeof(*i)/sizeof(int); j++) //sizeof(*i) = 24
?{
??sumofi += (*i)[j];
?}
?return sumofi;
}

int main()
{
?int allAges[] = {21, 22, 22, 19, 34, 12};
?cout<<Sum(&allAges)<<endl;
?system("pause");
?return 0;
}
??? 在這個(gè)Sum里,i是一個(gè)指向i[6]類型的指針,注意,這里不能用int Sum(int (*i)[])聲明函數(shù),而是必須指明要傳入的數(shù)組的大小,不然sizeof(*i)無法計(jì)算。但是在這種情況下,再通過sizeof來計(jì)算數(shù)組大小已經(jīng)沒有意義了,因?yàn)榇藭r(shí)大小是指定為6的。
使用引用的情況和指針相似:

int Sum(int (&i)[6])
{
?int sumofi = 0;
?for (int j = 0; j < sizeof(i)/sizeof(int); j++)
?{
??sumofi += i[j];
?}
?return sumofi;
}

int main()
{
?int allAges[] = {21, 22, 22, 19, 34, 12};
?cout<<Sum(allAges)<<endl;
?system("pause");
?return 0;
}
??? 這種情況下sizeof的計(jì)算同樣無意義,所以用數(shù)組做參數(shù),而且需要遍歷的時(shí)候,函數(shù)應(yīng)該有一個(gè)參數(shù)來說明數(shù)組的大小,而數(shù)組的大小在數(shù)組定義的作用域內(nèi)通過sizeof求值。因此上面的函數(shù)正確形式應(yīng)該是:
#include <iostream>
using namespace std;

int Sum(int *i, unsigned int n)
{
?int sumofi = 0;
?for (int j = 0; j < n; j++)
?{
??sumofi += i[j];
?}
?return sumofi;
}

int main()
{
?int allAges[] = {21, 22, 22, 19, 34, 12};
?cout<<Sum(i, sizeof(allAges)/sizeof(int))<<endl;
?system("pause");
?return 0;
}

7、字符串的sizeof和strlen

??? 考慮下面的問題:

?char a[] = "abcdef";
?char b[20] = "abcdef";
?string s = "abcdef";

?cout<<strlen(a)<<endl;??// 6,字符串長度
?cout<<sizeof(a)<<endl;??// 7,字符串容量
?cout<<strlen(b)<<endl;??// 6,字符串長度
?cout<<strlen(b)<<endl;??// 20,字符串容量
?cout<<sizeof(s)<<endl;??// 12, 這里不代表字符串的長度,而是string類的大小
?cout<<strlen(s)<<endl;??// 錯(cuò)誤!s不是一個(gè)字符指針。

?a[1] = '\0';
?cout<<strlen(a)<<endl;??// 1
?cout<<sizeof(a)<<endl;??// 7,sizeof是恒定的


??? strlen是尋找從指定地址開始,到出現(xiàn)的第一個(gè)0之間的字符個(gè)數(shù),他是在運(yùn)行階段執(zhí)行的,而sizeof是得到數(shù)據(jù)的大小,在這里是得到字符串的容量。所以對同一個(gè)對象而言,sizeof的值是恒定的。string是C++類型的字符串,他是一個(gè)類,所以sizeof(s)表示的并不是字符串的長度,而是類string的大小。strlen(s)根本就是錯(cuò)誤的,因?yàn)閟trlen的參數(shù)是一個(gè)字符指針,如果想用strlen得到s字符串的長度,應(yīng)該使用sizeof(s.c_str()),因?yàn)閟tring的成員函數(shù)c_str()返回的是字符串的首地址。實(shí)際上,string類提供了自己的成員函數(shù)來得到字符串的容量和長度,分別是Capacity()和Length()。string封裝了常用了字符串操作,所以在C++開發(fā)過程中,最好使用string代替C類型的字符串。


8、從union的sizeof問題看cpu的對界

??? 考慮下面問題:(默認(rèn)對齊方式)

?union u
?{
??double a;
??int b;
?};

?union u2
?{
??char a[13];
??int b;
?};

?union u3
?{
??char a[13];
??char b;
?};

?cout<<sizeof(u)<<endl;??// 8
?cout<<sizeof(u2)<<endl;??// 16
?cout<<sizeof(u3)<<endl;??// 13

??? 都知道union的大小取決于它所有的成員中,占用空間最大的一個(gè)成員的大小。所以對于u來說,大小就是最大的double類型成員a了,所以sizeof(u)=sizeof(double)=8。但是對于u2和u3,最大的空間都是char[13]類型的數(shù)組,為什么u3的大小是13,而u2是16呢?關(guān)鍵在于u2中的成員int b。由于int類型成員的存在,使u2的對齊方式變成4,也就是說,u2的大小必須在4的對界上,所以占用的空間變成了16(最接近13的對界)。

??? 結(jié)論:復(fù)合數(shù)據(jù)類型,如union,struct,class的對齊方式為成員中對齊方式最大的成員的對齊方式。

??? 順便提一下CPU對界問題,32的C++采用8位對界來提高運(yùn)行速度,所以編譯器會盡量把數(shù)據(jù)放在它的對界上以提高內(nèi)存命中率。對界是可以更改的,使用#pragma pack(x)宏可以改變編譯器的對界方式,默認(rèn)是8。C++固有類型的對界取編譯器對界方式與自身大小中較小的一個(gè)。例如,指定編譯器按2對界,int類型的大小是4,則int的對界為2和4中較小的2。在默認(rèn)的對界方式下,因?yàn)閹缀跛械臄?shù)據(jù)類型都不大于默認(rèn)的對界方式8(除了long double),所以所有的固有類型的對界方式可以認(rèn)為就是類型自身的大小。更改一下上面的程序:

?#pragma pack(2)
?union u2
?{
??char a[13];
??int b;
?};

?union u3
?{
??char a[13];
??char b;
?};
?#pragma pack(8)

?cout<<sizeof(u2)<<endl;??// 14
?cout<<sizeof(u3)<<endl;??// 13

??? 由于手動(dòng)更改對界方式為2,所以int的對界也變成了2,u2的對界取成員中最大的對界,也是2了,所以此時(shí)sizeof(u2)=14。

??? 結(jié)論:C++固有類型的對界取編譯器對界方式與自身大小中較小的一個(gè)。


9、struct的sizeof問題

??? 因?yàn)閷R問題使結(jié)構(gòu)體的sizeof變得比較復(fù)雜,看下面的例子:(默認(rèn)對齊方式下)

?struct s1
?{
??char a;
??double b;
??int c;
??char d;?
?};

?struct s2
?{
??char a;
??char b;
??int c;
??double d;
?};

?cout<<sizeof(s1)<<endl;?// 24
?cout<<sizeof(s2)<<endl;?// 16

??? 同樣是兩個(gè)char類型,一個(gè)int類型,一個(gè)double類型,但是因?yàn)閷鐔栴},導(dǎo)致他們的大小不同。計(jì)算結(jié)構(gòu)體大小可以采用元素?cái)[放法,我舉例子說明一下:首先,CPU判斷結(jié)構(gòu)體的對界,根據(jù)上一節(jié)的結(jié)論,s1和s2的對界都取最大的元素類型,也就是double類型的對界8。然后開始擺放每個(gè)元素。
??? 對于s1,首先把a(bǔ)放到8的對界,假定是0,此時(shí)下一個(gè)空閑的地址是1,但是下一個(gè)元素d是double類型,要放到8的對界上,離1最接近的地址是8了,所以d被放在了8,此時(shí)下一個(gè)空閑地址變成了16,下一個(gè)元素c的對界是4,16可以滿足,所以c放在了16,此時(shí)下一個(gè)空閑地址變成了20,下一個(gè)元素d需要對界1,也正好落在對界上,所以d放在了20,結(jié)構(gòu)體在地址21處結(jié)束。由于s1的大小需要是8的倍數(shù),所以21-23的空間被保留,s1的大小變成了24。
??? 對于s2,首先把a(bǔ)放到8的對界,假定是0,此時(shí)下一個(gè)空閑地址是1,下一個(gè)元素的對界也是1,所以b擺放在1,下一個(gè)空閑地址變成了2;下一個(gè)元素c的對界是4,所以取離2最近的地址4擺放c,下一個(gè)空閑地址變成了8,下一個(gè)元素d的對界是8,所以d擺放在8,所有元素?cái)[放完畢,結(jié)構(gòu)體在15處結(jié)束,占用總空間為16,正好是8的倍數(shù)。

??? 這里有個(gè)陷阱,對于結(jié)構(gòu)體中的結(jié)構(gòu)體成員,不要認(rèn)為它的對齊方式就是他的大小,看下面的例子:

?struct s1
?{
??char a[8];
?};

?struct s2
?{
??double d;
?};

?struct s3
?{
??s1 s;
??char a;
?};

?struct s4
?{
??s2 s;
??char a;?
?};

?cout<<sizeof(s1)<<endl;?// 8
?cout<<sizeof(s2)<<endl; // 8
?cout<<sizeof(s3)<<endl; // 9
?cout<<sizeof(s4)<<endl; // 16;

??? s1和s2大小雖然都是8,但是s1的對齊方式是1,s2是8(double),所以在s3和s4中才有這樣的差異。

??? 所以,在自己定義結(jié)構(gòu)體的時(shí)候,如果空間緊張的話,最好考慮對齊因素來排列結(jié)構(gòu)體里的元素。

10、不要讓double干擾你的位域

??? 在結(jié)構(gòu)體和類中,可以使用位域來規(guī)定某個(gè)成員所能占用的空間,所以使用位域能在一定程度上節(jié)省結(jié)構(gòu)體占用的空間。不過考慮下面的代碼:

?struct s1
?{
??int i: 8;
??int j: 4;
??double b;
??int a:3;
?};

?struct s2
?{
??int i;
??int j;
??double b;
??int a;
?};

?struct s3
?{
??int i;
??int j;
??int a;
??double b;
?};

?struct s4
?{
??int i: 8;
??int j: 4;
??int a:3;
??double b;
?};

?cout<<sizeof(s1)<<endl;??// 24
?cout<<sizeof(s2)<<endl;??// 24
?cout<<sizeof(s3)<<endl;??// 24
?cout<<sizeof(s4)<<endl;??// 16

??? 可以看到,有double存在會干涉到位域(sizeof的算法參考上一節(jié)),所以使用位域的的時(shí)候,最好把float類型和double類型放在程序的開始或者最后。

??? 第一次寫東西,發(fā)現(xiàn)自己的表達(dá)能力太差了,知道的東西講不出來,講出來的東西別人也看不懂,呵呵。另外,C99標(biāo)準(zhǔn)的sizeof已經(jīng)可以工作在運(yùn)行時(shí)了,打算最近找個(gè)支持C99的編譯器研究一下。