C/C++ 結構體的一個高級特性 ―― 指定成員的位數

?

在大多數情況下,我們一般這樣定義結構體:

struct student

{

????????????? ? unsigned int sex;

????????????? unsigned int age;

};

對于一般的應用,這已經能很充分地實現數據了的 封裝 。

但是,在實際工程中,往往碰到這樣的情況:那就是要用一個基本類型變量中的不同的位表示不同的含義。譬如一個 cpu 內部的標志寄存器,假設為 16 bit ,而每個 bit 都可以表達不同的含義,有的表示結果是否為 0 ,有的表示是否越界等等。這個時候我們用什么數據結構來表達這個寄存器呢?

答案還是結構體!

為達到此目的,我們要用到結構體的高級特性,那就是在基本成員變量的后面添加“ : 數據位數”組成新的結構體:

struct xxx

{

????????????? 成員 1 類型成員 1 : 成員 1 位數 ;

?????? ????? ? 成員 2 類型成員 2 : 成員 2 位數 ;

?????? ????? ? 成員 3 類型成員 3 : 成員 3 位數 ;

};

基本的成員變量就會被拆分!這個語法在初級編程中很少用到,但是在高級程序設計中不斷地被用到!例如:

struct student

{

????????????? ? unsigned int sex : 1;

????????????? unsigned int age : 15;

};

上述結構體中的兩個成員 sex age 加起來只占用了一個 unsigned int 的空間(假設 unsigned int 16 位)。

基本成員變量被拆分后,訪問的方法仍然和訪問沒有拆分的情況是一樣的,例如:

struct student sweek;

sweek.sex = MALE;// 這里的 MALE 只能是 0 1 ,值不能大于 1

sweek.age = 20;

雖然拆分基本成員變量在語法上是得到支持的,但是并不等于我們想怎么分就怎么分,例如下面的拆分顯然是不合理的:

struct student

{

????????????? ??? unsigned int sex : 1;

????????????? ? unsigned int age : 12;

};

這是因為 1+12 = 13 ,不能再組合成一個基本成員,不能組合成 char 、 int 或任何類型,這顯然是不能 自圓其說 的。

在拆分基本成員變量的情況下,我們要特別注意數據的存放順序,這還與 CPU Big endian 還是 Little endian 來決定。 Little endian Big endian CPU 存放數據的兩種不同順序。對于整型、長整型等數據類型, Big endian 認為第一個字節是最高位字節(按照從低地址到高地址的順序存放數據的高位字節到低位字節);而 Little endian 則相反,它認為第一個字節是最低位字節(按照從低地址到高地址的順序存放數據的低位字節到高位字節)。

我們定義 IP 包頭結構體為:

struct iphdr {

#if defined(__LITTLE_ENDIAN_BITFIELD)

?????? __u8?????? ihl:4,

?????? ?????? version:4;

#elif defined (__BIG_ENDIAN_BITFIELD)

?????? __u8?????? version:4,

???? ?????? ihl:4;

#else

#error?????? "Please fix <asm/byteorder.h>"

#endif

?????? __u8?????? tos;

?????? __u16?????? tot_len;

?????? __u16?????? id;

?????? __u16?????? frag_off;

?????? __u8?????? ttl;

?????? __u8?????? protocol;

?????? __u16?????? check;

?????? __u32?????? saddr;

?????? __u32?????? daddr;

?????? /*The options start here. */

};

Little endian 模式下, iphdr 中定義:

?????? __u8?????? ihl:4,

?????? ?????? version:4;

其存放方式為:

1 字節低 4 ?ihl

1 字節高 4 ?version IP 的版本號)

若在 Big endian 模式下還這樣定義,則存放方式為:

1 字節低 4 ?version IP 的版本號)

1 字節高 4 ?ihl

這與實際的 IP 協議是不匹配的,所以在 Linux 內核源代碼中, IP 包頭結構體的定義利用了宏:

#if defined(__LITTLE_ENDIAN_BITFIELD)

#elif defined (__BIG_ENDIAN_BITFIELD)

#endif

來區分兩種不同的情況。

由此我們總結全文的主要觀點:

1 ?????? C/C++ 語言的結構體支持對其中的基本成員變量按位拆分;

2 ?????? 拆分的位數應該是合乎邏輯的,應仍然可以組合為基本成員變量;

要特別注意拆分后的數據的存放順序,這一點要結合具體的 CPU 的結構。

?

?

?

?

該文是由宋寶華處轉載而來的,筆者以前從未知道結構體還可以這樣用法,筆者做過嘗試,再 VC 下用過的感受有兩點

1、????????????? 結構體按位拆分時,雖然宋兄提醒不能拆分如文中紅色背景顯示的情況,但是本人試過,并非是不可以的,而且如果 CPU 支持 32 的話,顯然文中的以 16 位來分配的話也是沒有達到要求的。

2、????????????? 按位拆分時字節數目問題,我們先看兩例

?????? struct student1

?????? {

????????????? unsigned char sex : 1;

????????????? unsigned int? no : 5;

????????????? char??????? ??age : 7;

????????????? int????????? grade : 10;

?????? };

?

????????????? struct student2

?????? {

????????????? unsigned char sex : 1;

????????????? char??????? ? ?age : 7;

????????????? unsigned int ?no : 5;???????????

????????????? int????????? grade : 10;

?????? };

以上兩例中雖然意思并不大,但是如果按 int 2 字節 16 char 1 字節 8 位來劃分內存的話,那么 student1 占用了 6 字節共 48 位,但是實際使用了 23 位,另外 25 位沒定義,而 student2 占用了 3 字節共 24 位,但是實際使用也是 23 位。這個過程,我把它總結為前后變量的類型不一致時,字節就重新分配。

3、????????????? 賦值過程中數據編碼問題。還看兩例

?????? student1 ss;

?????? ss.age = 255;

?????? student2 st;

?????? st.age= 191;

ss.age 的值為 -1 ,而 st.age 的值為 63 ,其實 255 11111111 ,因為是 7 位,所以采用截斷方式,變成 1111111 ,又因為 age 是有符號的變量,所以根據負數的編碼規則賦值 255 時得到的結果就是 -1 。在這里采用了截斷的方式,為止正確賦值時一定不能大于位數編碼值。

?使用位域的主要目的是壓縮存儲,其大致規則為:
1) 如果相鄰位域字段的類型相同,且其位寬之和小于類型的sizeof大小,則后面的字段將緊鄰前一個字段存儲,直到不能容納為止;
2) 如果相鄰位域字段的類型相同,但其位寬之和大于類型的sizeof大小,則后面的字段將從新的存儲單元開始,其偏移量為其類型大小的整數倍;
3) 如果相鄰的位域字段的類型不同,則各編譯器的具體實現有差異,VC6采取不壓縮方式,Dev-C++采取壓縮方式;
4) 如果位域字段之間穿插著非位域字段,則不進行壓縮;
5) 整個結構體的總大小為最寬基本類型成員大小的整數倍。