首先由一個程序引入話題:
1 //環(huán)境:vc6 + windows sp2
2 //程序1
3 #include <iostream>
4
5 using namespace std;
6
7 struct st1
8 {
9 char a ;
10 int b ;
11 short c ;
12 };
13
14 struct st2
15 {
16 short c ;
17 char a ;
18 int b ;
19 };
20
21 int main()
22 {
23 cout<<"sizeof(st1) is "<<sizeof(st1)<<endl;
24 cout<<"sizeof(st2) is "<<sizeof(st2)<<endl;
25 return 0 ;
26 }
27
程序的輸出結(jié)果為:
sizeof(st1) is 12
sizeof(st2) is 8
問題出來了,這兩個一樣的結(jié)構(gòu)體,為什么sizeof的時候大小不一樣呢?
本文的主要目的就是解釋明白這一問題。
內(nèi)存對齊,正是因為內(nèi)存對齊的影響,導(dǎo)致結(jié)果不同。
對于大多數(shù)的程序員來說,內(nèi)存對齊基本上是透明的,這是編譯器該干的活,編譯器為程序中的每個數(shù)據(jù)單元安排在合適的位置上,從而導(dǎo)致了相同的變量,不同聲明順序的結(jié)構(gòu)體大小的不同。
那么編譯器為什么要進(jìn)行內(nèi)存對齊呢?程序1中結(jié)構(gòu)體按常理來理解sizeof(st1)和sizeof(st2)結(jié)果都應(yīng)該是7,4(int) + 2(short) + 1(char) = 7 。經(jīng)過內(nèi)存對齊后,結(jié)構(gòu)體的空間反而增大了。
在解釋內(nèi)存對齊的作用前,先來看下內(nèi)存對齊的規(guī)則:
1、
對于結(jié)構(gòu)的各個成員,第一個成員位于偏移為0的位置,以后每個數(shù)據(jù)成員的偏移量必須是min(#pragma pack()指定的數(shù),這個數(shù)據(jù)成員的自身長度) 的倍數(shù)。
2、
在數(shù)據(jù)成員完成各自對齊之后,結(jié)構(gòu)(或聯(lián)合)本身也要進(jìn)行對齊,對齊將按照#pragma pack指定的數(shù)值和結(jié)構(gòu)(或聯(lián)合)最大數(shù)據(jù)成員長度中,比較小的那個進(jìn)行。
#pragma pack(n) 表示設(shè)置為n字節(jié)對齊。 VC6默認(rèn)8字節(jié)對齊
以程序1為例解釋對齊的規(guī)則 :
St1 :char占一個字節(jié),起始偏移為0 ,int 占4個字節(jié),min(#pragma
pack()指定的數(shù),這個數(shù)據(jù)成員的自身長度) = 4(VC6默認(rèn)8字節(jié)對齊),所以int按4字節(jié)對齊,起始偏移必須為4的倍數(shù),所以起始偏移為4,在char后編譯器會添加3個字節(jié)的額外字節(jié),不存放任意數(shù)據(jù)。short占2個字節(jié),按2字節(jié)對齊,起始偏移為8,正好是2的倍數(shù),無須添加額外字節(jié)。到此規(guī)則1的數(shù)據(jù)成員對齊結(jié)束,此時的內(nèi)存狀態(tài)為:
oxxx|oooo|oo
0123 4567 89 (地址)
(x表示額外添加的字節(jié))
共占10個字節(jié)。還要繼續(xù)進(jìn)行結(jié)構(gòu)本身的對齊,對齊將按照#pragma pack指定的數(shù)值和結(jié)構(gòu)(或聯(lián)合)最大數(shù)據(jù)成員長度中,比較小的那個進(jìn)行,st1結(jié)構(gòu)中最大數(shù)據(jù)成員長度為int,占4字節(jié),而默認(rèn)的#pragma pack 指定的值為8,所以結(jié)果本身按照4字節(jié)對齊,結(jié)構(gòu)總大小必須為4的倍數(shù),需添加2個額外字節(jié)使結(jié)構(gòu)的總大小為12 。此時的內(nèi)存狀態(tài)為:
oxxx|oooo|ooxx
0123 4567 89ab (地址)
到此內(nèi)存對齊結(jié)束。St1占用了12個字節(jié)而非7個字節(jié)。
St2 的對齊方法和st1相同,讀者可自己完成。
內(nèi)存對齊的主要作用是:
1、
平臺原因(移植原因):不是所有的硬件平臺都能訪問任意地址上的任意數(shù)據(jù)的;某些硬件平臺只能在某些地址處取某些特定類型的數(shù)據(jù),否則拋出硬件異常。
2、
性能原因:經(jīng)過內(nèi)存對齊后,CPU的內(nèi)存訪問速度大大提升。具體原因稍后解釋。
圖一:

這是普通程序員心目中的內(nèi)存印象,由一個個的字節(jié)組成,而CPU并不是這么看待的。
圖二:
CPU把內(nèi)存當(dāng)成是一塊一塊的,塊的大小可以是2,4,8,16字節(jié)大小,因此CPU在讀取內(nèi)存時是一塊一塊進(jìn)行讀取的。塊大小成為memory access
granularity(粒度) 本人把它翻譯為“內(nèi)存讀取粒度”
。
假設(shè)CPU要讀取一個int型4字節(jié)大小的數(shù)據(jù)到寄存器中,分兩種情況討論:
1、數(shù)據(jù)從0字節(jié)開始
2、數(shù)據(jù)從1字節(jié)開始
再次假設(shè)內(nèi)存讀取粒度為4。
圖三:

當(dāng)該數(shù)據(jù)是從0字節(jié)開始時,很CPU只需讀取內(nèi)存一次即可把這4字節(jié)的數(shù)據(jù)完全讀取到寄存器中。
當(dāng)該數(shù)據(jù)是從1字節(jié)開始時,問題變的有些復(fù)雜,此時該int型數(shù)據(jù)不是位于內(nèi)存讀取邊界上,這就是一類內(nèi)存未對齊的數(shù)據(jù)。
圖四:
此時CPU先訪問一次內(nèi)存,讀取0—3字節(jié)的數(shù)據(jù)進(jìn)寄存器,并再次讀取4—5字節(jié)的數(shù)據(jù)進(jìn)寄存器,接著把0字節(jié)和6,7,8字節(jié)的數(shù)據(jù)剔除,最后合并1,2,3,4字節(jié)的數(shù)據(jù)進(jìn)寄存器。對一個內(nèi)存未對齊的數(shù)據(jù)進(jìn)行了這么多額外的操作,大大降低了CPU性能。
這還屬于樂觀情況了,上文提到內(nèi)存對齊的作用之一為平臺的移植原因,因為以上操作只有有部分CPU肯干,其他一部分CPU遇到未對齊邊界就直接罷工了。
圖片來自:Data alignment: Straighten up and fly right
如大家對內(nèi)存對齊對性能的具體影響情況,可以參考上文。