摘要:
Sizeof的作用非常簡單:求對象或者類型的大小。然而sizeof又非常復雜,它涉及到很多特殊情況,本篇把這些情況分門別類,總結出了sizeof的10個特性:
(0)sizeof是運算符,不是函數;
(1)sizeof不能求得void類型的長度;
(2)sizeof能求得void類型的指針的長度;
(3)sizeof能求得靜態分配內存的數組的長度!
(4)sizeof不能求得動態分配的內存的大小!
(5)sizeof不能對不完整的數組求長度;
(6)當表達式作為sizeof的操作數時,它返回表達式的計算結果的類型大小,但是它不對表達式求值!
(7)sizeof可以對函數調用求大小,并且求得的大小等于返回類型的大小,但是不執行函數體!
(8)sizeof求得的結構體(及其對象)的大小并不等于各個數據成員對象的大小之和!
(9)sizeof不能用于求結構體的位域成員的大小,但是可以求得包含位域成員的結構體的大??!
概述:
Sizeof是C/C++中的關鍵字,它是一個運算符,其作用是取得一個對象(數據類型或者數據對象)的長度(即占用內存的大小,以byte為單位)。其中類型包含基本數據類型(不包括void)、用戶自定義類型(結構體、類)、函數類型。數據對象是指用前面提到的類型定義的普通變量和指針變量(包含void指針)。不同類型的數據的大小在不同的平臺下有所區別,但是c標準規定所有編譯平臺都應該保證sizeof(char)等于1。關于sizeof的更多概述你可以在msdn總輸入sizeof進行查詢。
看了上面這些,或許你看了沒有多少感覺。沒關系,下面我將詳細列出sizeof的諸多特性,這些特性是造成sizeof是一個較刁鉆的關鍵字的原因:
十大特性:
特性0:sizeof是運算符,不是函數
這個特性是sizeof的最基本特性,后面的很多特性都是受到這個特性的影響,正因為sizeof不是函數,因此我們不把它所要求得長度的對象叫做參數,我本人習慣上叫做操作數(這不嚴謹,但是有助于我記住sizeof是個操作符)。
特性1:sizeof不能求得void類型的長度
是的,你不能用sizeof(void),這將導致編譯錯誤:illegal
sizeof operand。事實上你根本就無法聲明void類型的變量,不信你就試試void a;這樣的語句,編譯器同樣會報錯:illegal use of type 'void'。或許你要問為什么,很好,學東西不能只知其然,還要知其所以然。我們知道聲明變量的一個重要作用就是告訴編譯器該變量需要多少存儲空間。然而,void是“空類型”,什么是空類型呢,你可以理解成不知道存儲空間大小的類型。既然編譯器無法確定void類型的變量的存儲大小,那么它自然不讓你聲明這樣的變量。當然了,聲明void類型的指針是可以的!這就是特性2的內容。
特性2:sizeof能求得void類型的指針的長度
在特性1中說過,可以申明void類型的指針,也就是說編譯器可以確定void類型的指針所占用的存儲空間。事實上確實如此,目前,幾乎所有平臺上的所有版本的編譯器都把指針的大小看做4byte,不信你試試sizeof(int*);sizeof(void*);sizeof(double*);sizeof(Person*);等等,它們都等于4!為什么呢?問得好,我將盡全力對此作出解釋:其實指針也是變量,只不過這個變量很特殊,它是存放其他變量的地址的變量。又由于目前32位計算機平臺上的程序段的尋址范圍都是4GB,尋址的最小單元是byte,4GB等于232Byte,這么多的內存其地址如果編碼呢,只需要用32個bit就行了,而32bit = 32/8 = 4byte,也就是說只需要4byte就能存儲這些內存的地址了。因此對任何類型的指針變量進行sizeof運算其結果就是4!
特性3:sizeof能求得靜態分配內存的數組的長度!
Int a[10];int n = sizeof(a);假設sizeof(int)等于4,則n= 10*4=40;特別要注意:char
ch[]=”abc”;sizeof(ch);結果為4,注意字符串數組末尾有’\0’!通常我們可以利用sizeof來計算數組中包含的元素個數,其做法是:int n = sizeof(a)/sizeof(a[0]);
非常需要注意的是對函數的形參數組使用sizeof的情況。舉例來說,假設有如下的函數:
void fun(int array[10])
{
int n = sizeof(array);
}
你會覺得在fun內,n的值為多少呢?如果你回答40的話,那么我很遺憾的告訴你,你又錯了。這里n等于4,事實上,不管形參是int的型數組,還是float型數組,或者其他任何用戶自定義類型的數組,也不管數組包含多少個元素,這里的n都是4!為什么呢?原因是在函數參數傳遞時,數組被轉化成指針了,或許你要問為什么要轉化成指針,原因可以在很多書上找到,我簡單說一下:假如直接傳遞整個數組的話,那么必然涉及到數組元素的拷貝(實參到形參的拷貝),當數組非常大時,這會導致函數執行效率極低!而只傳遞數組的地址(即指針)那么只需要拷貝4byte。
特性4:sizeof不能求得動態分配的內存的大小!
假如有如下語句:int*
a = new int[10];int n = sizeof(a);那么n的值是多少呢?是40嗎?答案是否定的!其實n等于4,因為a是指針,在特性2中講過:在32位平臺下,所有指針的大小都是4byte!切記,這里的a與特性3中的a并不一樣!很多人(甚至一些老師)都認為數組名就是指針,其實不然,二者有很多區別的,要知詳情,請看《c專家編程》。通過特性3和特性4,我們看到了數組和指針有著千絲萬縷的關系,這些關系也是導致程序潛在錯誤的一大因素,關于指針與數組的關系問題我將在《C/C++刁鉆問題各個擊破之指針與數組的秘密》一文中進行詳細介紹。
特性3指出sizeof能求靜態分配的數組的大小,而特性4說明sizeof不能求的動態分配的內存的大小。于是有人認為sizeof是編譯時進行求值的,并給出理由:語句int array[sizeof(int)*10];能編譯通過,而很多書上都說過數組大小是編譯時就確定下來的,既然前面的語句能編譯通過,所以認為sizeof是編譯時進行求值的。經過進一步測試我發現這個結論有些武斷!至少是有些不嚴謹!因為在實現了c99標準的編譯器(如DEV C++)中可以定義動態數組,即:語句:int num;cin>>num; int arrary[num];是對的(注意在vc6.0中是錯的)。因此我就在DEV C++中對剛才的array利用語句int n
=sizeof(array);cout<<n<<endl來求大小,結果編譯通過,運行時輸入num的值10之后,輸出n等于40!在這里很明顯num的值是運行時才輸入的,因此sizeof不可能在編譯時就求得array的大??!這樣一來sizeof又變成是運行時求值的了。
那么到底sizeof是編譯時求值還是運行時求值呢?最開初c標準規定sizeof只能編譯時求值,后來c99又補充規定sizeof可以運行時求值。但值得注意的是,即便是在實現了c99標準的DEV C++中仍然不能用sizeof求得動態分配的內存的大?。?/p>
特性5:sizeof不能對不完整的數組求長度!
在闡述該特性之前,我們假設有兩個源文件:file1.cpp和file2.cpp,其中file1.cpp中有如下的定義:
int arrayA[10] = {1,2,3,4,5,6,7,8,9,10};
int arrayB[10] = {11,12,13,14,15,16,17,18,19,20};
file2.cpp包含如下幾個語句:
extern
arrayA[];
extern
arrayB[10];
cout<<sizeof(arrayA)<<endl; //編譯出錯!!
cout<<sizeof(arrayB)<<endl;
在file2.cpp中第三條語句編譯出錯,而第條語句正確,并且能輸出40!為什么呢?原因就是sizeof(arrayA)試圖求不完整數組的大小。這里的不完整的數組是指數組大小沒有確定的數組!sizeof運算符的功能就是求某種對象的大小,然而聲明:extern int arrayA[]只是告訴編譯器arrayA是一個整型數組,但是并沒告訴編譯器它包含多少個元素,因此對file2.cpp中的sizeof來說它無法求出arrayA的大小,所以編譯器干脆不讓你通過編譯。
那為什么sizeof(arrayB)又可以得到arraryB的大小呢?關鍵就在于在file2.cpp中其聲明時使用extern
int arrayB[10]明確地告訴編譯器arrayB是一個包含10個元素的整型數組,因此大小是確定的。
到此本特性講解差不多要結束了。其實本問題還能引申出連接和編譯等知識點,但是目前我暫時還沒自信對這兩個知識點進行詳細的,徹底的講解,因此不便在此班門弄斧,不久的將來我會在本系列中加上相關問題的闡述。
特性6:當表達式作為sizeof的操作數時,它返回表達式的計算結果的類型大小,但是它不對表達式求值!
為了說明這個問題,我們來看如下的程序語句:
char ch = 1;
int num=1;
int n1 =
sizeof(ch+num);
int n2 = sizeof(ch =
ch+num);
假設char占用1byte,int占用4byte,那么執行上面的程序之后,n1,n2,ch的值是多少呢?我相信有不少人會認為n1與n2相等,也有不少人認為ch等于2,事實這些人都錯了。事實上n1等于4,n2等于1,ch等于1,為什么呢?請看分析:
由于默認類型轉換的原因,表達式ch+num的計算結果的類型是int,因此n1的值為4!而表達式ch=ch+num;的結果的類型是char,記住雖然在計算ch+num時,結果為int,但是當把結果賦值給ch時又進行了類型轉換,因此表達式的最終類型還是char,所以n2等于1。n1,n2的值分別為4和1,其原因正是因為sizeof返回的是表達式計算結果的類型大小,而不是表達式中占用最大內存的變量的類型大小!
對于n2=sizeof(ch
=ch+num);乍一看該程序貌似實現了讓ch加上num并賦值給ch的功能,事實并非如此!由于sizeof只關心類型大小,所以它自然不應該對表達式求值,否則有畫蛇添足之嫌了。但是,在支持變長數組定義的(即實現了c99標準的)編譯器(dev C++)中執行了int len = 3;cout<<sizeof(int [++len])<<”,”<<len;輸出是多少呢?答案是16,4!這里的++len卻執行了!很不可理喻吧?這到底是為什么呢?我翻閱了《The New C Standard》一書,這主要是由于可變長度的數組的長度需要在其長度表達式求值之后才能確定大小,因此上述情況下,sizeof中的++len執行了。
正是因為sizeof的操作數中的某些表達式會被執行,而有些表達式不會被執行,這里告誡各位,盡量不要在sizeof中直接對表達式求大小,以免出現錯誤,你可以將sizeof(ch = ch+num);改寫成 ch = ch +num;sizeof(ch);雖然多了一條語句,看似冗余了,其實好處多多:首先更加清晰明了,其次不會出現ch等于1這樣的錯誤(假設程序的邏輯本身就是要執行ch = ch +num;)。
特性7:sizeof可以對函數調用求大小,并且求得的大小等于返回類型的大小,但是不執行函數體!
假設有如下函數(是一個寫得很不好的函數,但是能很好的說明需要闡述的問題):
int fun(int& num,const int& inc)
{
float div = 2.0;
double ret =0;
num = num+inc;
ret = num/div;
return ret;
}那么語句:
int a = 3;
int b = 5;
cout<<sizeof(fun(a,b))<<endl;
cout<<a<<endl;輸出多少呢?不同的人會給出不同的答案,我將對sizeof(fun(a,b))的值和a的值分別進行討論:
首先sizeof(fun(a,b))的值:其正確是4,因為用sizeof求函數調用的大小時,它得到的是函數返回類型的大小,而fun(a,b)的返回類型是int,sizeof(int)等于4。很多人把函數的返回類型和返回值的類型弄混淆了,認為sizeof(fun(a,b))的值是8,因為函數返回值是ret,而ret被定義成double,sizeof(doube)等于8。注意,雖然函數返回值類型是double,但是在函數返回時,將該值進行了類型轉換(這里的轉換不安全)。也有人錯誤的認為sizeof(fun(a,b))的值是12,它們的理由是:fun內部定義了兩個局部變量,一個是float一個是double,而sizeof(float)+sizeof(doube)= 4+8=12。這樣的答案看似很合理,其實他們是錯誤地認為這里的sizeof是在求函數內部的變量的大小了。這當然是錯誤的。
接下來看a的值:其正確答案是3!還記得特性6嗎?這里很類似,sizeof的操作對象是函數調用時,它不執行函數體!為此,建議大家不要把函數體放在sizeof后面的括號里,這樣容易讓人誤以為函數執行了,其實它根本沒執行。
既然對函數條用使用sizeof得到的是函數返回類型的大小,那么很自然能得出這樣的結論:不能對返回類型為void的函數使用sizeof求其大?。≡蛘垍⒖继匦?。同理,對返回類型是任何類型的指針的函數調用使用sizeof求得的大小都為4,原因請參考特性2。
最后我們來看看這樣的語句:cout<<sizeof(fun);其答案是多少呢?其實它得不到答案,原因是編譯就通不過!最開始,我以為能輸出答案4,因為我認為fun是函數名,而我知道函數名就是函數的地址,地址就是指針,于是我認為sizeof(fun)其實就是對一個指針求大小,根據特性2,任何指針的大小都是4。可是當我去驗證時,編譯器根本不讓我通過!這個是為什么呢?我一時半會想不到,所以還請朋友們補充!
特性8:sizeof求得的結構體(及其對象)的大小并不等于各個數據成員對象的大小之和!
結構體的大小跟結構體成員對齊有密切關系,而并非簡單地等于各個成員的大小之和!比如對如下結構體兩個結構體A、B使用sizeof的結果分別是:16,24??梢钥闯鰏izeof(B)并不等于sizeof(int)+sizeof(double)+sizeof(int)=16。
struct A{
int
num1;
int
num2;
double
num3;
};
|
struct B{
int
num1;
double
num3;
int
num2;
};
|
如果您不了解結構體的成員對齊,你會感到非常驚訝:結構體A和B中包含的成員都一樣,只不過順序不同而已,為什么其大小不一樣呢?要解釋這個問題,就要了解結構體成員對齊的規則,由于結構體成員對齊非常復雜,我將用專題——C/C++刁鉆問題各個擊破之位域和成員對齊——進行講解,這里我只簡單地介紹其規則:
1、 結構體的大小等于結構體內最大成員大小的整數倍
2、 結構體內的成員的首地址相對于結構體首地址的偏移量是其類型大小的整數倍,比如說double型成員相對于結構體的首地址的地址偏移量應該是8的倍數。
3、 為了滿足規則1和2編譯器會在結構體成員之后進行字節填充!
基于上面三個規則我們來看看為什么sizeof(B)等于24:首先假設結構體的首地址為0,第一個成員num1的首地址是0(滿足規則2,前面無須字節填充,事實上結構體絕對不會在第一個數據成員前面進行字節填充),它的類型是int,因此它占用地址空間0——3。第二個成員num3是double類型,它占用8個字節,由于之前的num1只占用了4個字節,為了滿足規則2,需要使用規則3在num1后面填充4個字節(4——7),使得num3的起始地址偏移量為8,因此num3占用的地址空間是:8——15。第三個成員num2是int型,其大小為4,由于num1和num3一共占用了16個字節,此時無須任何填充就能滿足規則2。因此num2占用的地址空間是16——19。那么是不是結構體的總大小就是0——19共20個字節呢?請注意,別忘了規則1!由于結構體內最大成員是double占用8個字節,因此最后還需要在num2后面填充4個字節,使得結構體總體大小為24。
按照上面的三個規則和分析過程,你可以很容易地知道為什么sizeof(A)等于16。特別需要說明的是,我這里給出了三個結論性的規則,而沒有闡述為什么要這樣。你或許有很多疑問:為什么要結構體成員對齊,為什么要定義規則1等。如果你有這樣的疑問,并嘗試去弄清楚的話,那么我敢斷言,不久的將來你必定會有大成就,至少在學習c++上是這樣。前面說過,我會再寫一篇專題:C/C++刁鉆問題各個擊破之位域和成員對齊來詳細回答這些問題,如果你急于要弄明白,那么你可以參考其他資料,比如說《高質量c++程序設計指南》。
最后再提醒一點,在進行設計時,最好仔細安排結構體中各個成員的順序,因為你已經看到了上面的結構體B與結構體A包含的成員相同,只不過順序略有差異,最終就導致了B比A多消耗了50%的空間,假如在工程中需要定義該結構體的數組,多消耗的空降將是巨大的。即使將來內存降價為白菜價格,你也不要忽視這個問題,勤儉節約是中國人民的優良傳統,我們應該繼承和保持!
特性9:sizeof不能用于求結構體的位域成員的大小,但是可以求得包含位域成員的結構體的大?。?/strong>
首先解釋一下什么是位域:類型的大小都是以字節(byte)為基本單位的,比如sizeof(char)為1byte,sizeof(int)為4byte等。我們知道某個類型的大小確定了該類型所能定義的變量的范圍,比如sizeof(char)為1byte,而1byte等于8bit,所以char類型的變量范圍是-128——127,或者0——255(unsigned char),總之它只能定義28=256個數!然而,要命的是bool類型只取值true和false,按理所只用1bit(即1/8byte)就夠了,但事實上sizeof(bool)等于1。因此我們可以認為bool變量浪費了87.5%的存儲空間!這在某些存儲空間有限的設備(比如嵌入式設備)上是不合適的,為此需要提供一種能對變量的存儲空間精打細算的機制,這就是位域。簡單來說,在結構體的成員變量后面跟上的一個冒號+一個整數,就代表位域,請看如下的結構體:
Struct A
{
Bool b:1;
char ch1:4;
char ch2:4;
}item; 其中b,ch1,ch2都是位域成員,而i是普通成員。該結構體的試圖讓bool類型的變量b只占用1個bit,讓ch1和ch2分別只占用4個bit,以此來達到對內存精打細算的功能(事實上使用位域對內存精打細算有時候能成功,有時候卻未必,我將《C/C++刁鉆問題各個擊破之位域和成員對齊》進行論述)。另外需要特別注意的是:c語言規定位域只能用于int,signed int或者unsigned int類型,C++又補充了char和long類型!你不能這樣使用位域:float
f:8;這是不能通過編譯的。并且位域變量不能在函數或者全局區定義,只能在結構體,自定義類,聯合(union)中使用!
基于上面的結構體,語句sizeof(item.b)和sizeof(item.ch1)等對位域成員求大小的語句均不能通過編譯。其原因能再本篇的概論中找到:sizeof以byte為單位返回操作數的大?。?/strong>
那么愛學好問的你可能要問,sizeof(A)能否通過編譯呢?如何能,其結果又是多少呢?這是兩給非常好的問題,事實上我之前沒有看到任何關于這方面的論述(可能是我看的資料不足),我正是在看到sizeof(item.b)不能通過編譯時想到了這兩個問題,然后通過驗證得出了后面的結論:對包含位域的結構體是可以使用sizeof求其大小的,但其求值規則比較復雜,不僅涉及到成員對齊,還與具體編譯環境有關!在這里你只需要知道可以對包含位域的結構體使用sizeof求其大小,對于sizeof是根據什么規則來求這個大小的問題,我將會在專題:《C/C++刁鉆問題各個擊破之位域和成員對齊》中進行詳細闡述。
后記:
至此,本專題差不多該結束了,需要說明的是,這里并沒有包含所有關于sizeof的知識點,但是也幾乎包含了所有的容易出錯的特性。為了完成該文,我花了斷斷續續3天半時間,想想效率實在是底下。由于是本系列的第一個專題,我格外慎重,深怕講錯了誤導大家。即便如此,也難免錯誤或不妥之處,還請各位朋友指正!
另外,我有幾句話要對大學生朋友們說:教科書通常只是教授很基礎的知識,要想深入學習,還需要翻閱其他資料,比如論文、網絡資料、論壇博文,最重要的一點是要在學習時經常總結、記錄、歸納,積少成多,這樣堅持下來一定受益匪淺。
@import url(http://www.shnenglu.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);