從編譯器角度分析C語言中數組名和指針的區別
數組名和指針是兩個往往很容易讓人們混淆的概念,
很多人以為數組名就是一個指針,
也有很多人知道數組名不同于指針但是僅知道數組名的值不能像指針一樣改變
例如你可以寫出下面這樣的代碼:
int *p;
p++;
卻不能寫這樣的代碼:
int a[];
a++;
那么數組名跟指針之間到底有什么區別呢?
第一,在聲明上,只有作為函數參數的數組名編譯器總是轉化成指針,
其他情況下,數組名就是數組名,指針就是指針,二者不能混淆,
你不能在一個文件中定義一個數組,而在另一個文件中把它聲明成一個指針。
char a[]; //定義一個數組a
extern char* a; //在另一個文件中將a聲明成一個指針
在編譯器中,符號表用來存放C語言中有關標識符的屬性信息,這些信息集中反應了標識符的特征屬性。
等到詞法分析到代碼聲稱的各個階段的時候,編譯器需要根據源代碼提出的要求,從表中獲取不同標識符的不同屬性。
值得注意的是,數組標識符的屬性和指針是完全不同的。
因此,在一個文件中定義一個數組的時候,編譯器會把它記錄在符號表中,而在編譯器分析另一個文件中的聲明時,通過符號的語義檢查發現不一致。
也許這樣的聲明可以編譯通過(在gcc下通過了),但是把一個數組名當成一個指針來使用,別指望它能運行起來。
第二,指針是一個變量,而數組名不是。
數組名是數組的首地址,它本身就是一個地址,對應到匯編語言級別就是一個常量,一個固定的數(地址)。
因此數組名不能進行++,--等運算。
在大多數編譯器中,對數組的引用a[i]總是被編譯器改寫成*(a+i)的格式。
也就是說,編譯器每遇到a[i],都會把它當作*(a+i)來處理。
我們都知道,*addr表示內存中(addr)的位置存儲的值,
比如*0x8048000就表示地址為0x8048000的內存中所存儲的值。
所以a[i]就表示a的值加上i所得到的數作為一個內存地址里面所存儲的值。
那么a的值是什么呢 ???
編譯器在做詞法分析和語法分析的時候,遇到一個數組的定義,就會把數組的有關信息匯集在一個叫做“內情向量”或“信息向量”的表格中,其中的信息包括數組的類型,維數,各維的上、下邊界,以及數組的首地址,然后將這個“內情向量”相關信息存儲在符號表中。
數組定義后位置就是固定的,因此其首地址可以在編譯階段得到。
當編譯器到達代碼生成的各階段時,每次遇到數組名這個標識符,編譯器都會從符號表中取出這個數組的首地址,然后用這個地址來替代數組名,例如,假設數組a起始地址是0x8048000,則a[1]就會被編譯器轉化成*(0x8048000+1),
因此在生成的匯編代碼中,數組名已經完全被轉化成一個常量,一個固定的數(地址)。
但是
對于指針p,它是一個變量,其值存儲在地址&p中,這個值在編譯時是不能得到的。
因為是變量,所以指針可以作為表達式中的左值操作,
如++或--,而被認為是常量的數組名卻不可以,正如你可以騎走一輛自行車,但是不能騎走一棵樹。
另外,C語言把 數組下標 改寫成 指針偏移量 的 根本原因 是
指針偏移量是底層硬件所使用的基本模型。
第三,對數組的引用,如a[i],或*(a+1),需要訪存一次;而對指針的引用,如*(p+1),需要訪存兩次。
a被認為是常數,所以取*(a+1)的值只需將a所表示的常數加1,然后從得到的地址里訪存取一次即可。
對于指針,需要先從&p這個地址里把p的值取出來,然后加1,再從得到的地址里訪存取一次,一共需要兩次訪存。
第四,假設a是一個數組名,而p是一個指針,當你使用 a 和 &a 時,得到值是一樣的,都是數組的起始地址。
而使用 p 和 &p 時,得到的值是不一樣的, p 表示指針 p 所指向的地址,而 &p 表示 p 這個變量的地址。
再假設 p = a;
則 p 就表示數組a的起始地址,而&p是存儲數組a的起始地址的那個地址。
這是因為編譯器把a當成數組首地址,而&a當作數組第一個元素的地址,因此得到的值是一樣的。
另外,sizeof(a)得到的是a所表示的數組的大小,而sizeof(p)得到的是指針的大小。
轉自:
http://blog.chinaunix.net/uid-27004869-id-3301282.html