旅途

如果想飛得高，就該把地平線忘掉

Linux環(huán)境進(jìn)程間通信系列（五）：共享內(nèi)存

共享內(nèi)存可以說是最有用的進(jìn)程間通信方式，也是最快的 IPC 形式。兩個(gè)不同進(jìn)程 A 、 B 共享內(nèi)存的意思是，同一塊物理內(nèi)存被映射到進(jìn)程 A 、 B 各自的進(jìn)程地址空間。進(jìn)程 A 可以即時(shí)看到進(jìn)程 B 對(duì)共享內(nèi)存中數(shù)據(jù)的更新，反之亦然。由于多個(gè)進(jìn)程共享同一塊內(nèi)存區(qū)域，必然需要某種同步機(jī)制，互斥鎖和信號(hào)量都可以。

采用共享內(nèi)存通信的一個(gè)顯而易見的好處是效率高，因?yàn)檫M(jìn)程可以直接讀寫內(nèi)存，而不需要任何數(shù)據(jù)的拷貝。對(duì)于像管道和消息隊(duì)列等通信方式，則需要在內(nèi)核和用戶空間進(jìn)行四次的數(shù)據(jù)拷貝，而共享內(nèi)存則只拷貝兩次數(shù)據(jù) [1] ：一次從輸入文件到共享內(nèi)存區(qū)，另一次從共享內(nèi)存區(qū)到輸出文件。實(shí)際上，進(jìn)程之間在共享內(nèi)存時(shí)，并不總是讀寫少量數(shù)據(jù)后就解除映射，有新的通信時(shí)，再重新建立共享內(nèi)存區(qū)域。而是保持共享區(qū)域，直到通信完畢為止，這樣，數(shù)據(jù)內(nèi)容一直保存在共享內(nèi)存中，并沒有寫回文件。共享內(nèi)存中的內(nèi)容往往是在解除映射時(shí)才寫回文件的。因此，采用共享內(nèi)存的通信方式效率是非常高的。

Linux 的 2.2.x 內(nèi)核支持多種共享內(nèi)存方式，如 mmap() 系統(tǒng)調(diào)用， Posix 共享內(nèi)存，以及系統(tǒng) V 共享內(nèi)存。 linux 發(fā)行版本如 Redhat 8.0 支持 mmap() 系統(tǒng)調(diào)用及系統(tǒng) V 共享內(nèi)存，但還沒實(shí)現(xiàn) Posix 共享內(nèi)存，本文將主要介紹 mmap() 系統(tǒng)調(diào)用及系統(tǒng) V 共享內(nèi)存 API 的原理及應(yīng)用。

一、內(nèi)核怎樣保證各個(gè)進(jìn)程尋址到同一個(gè)共享內(nèi)存區(qū)域的內(nèi)存頁面

1 、 page cache 及 swap cache 中頁面的區(qū)分：一個(gè)被訪問文件的物理頁面都駐留在 page cache 或 swap cache 中，一個(gè)頁面的所有信息由 struct page 來描述。 struct page 中有一個(gè)域?yàn)橹羔?/span> mapping ，它指向一個(gè) struct address_space 類型結(jié)構(gòu)。 page cache 或 swap cache 中的所有頁面就是根據(jù) address_space 結(jié)構(gòu)以及一個(gè)偏移量來區(qū)分的。

2 、文件與 address_space 結(jié)構(gòu)的對(duì)應(yīng)：一個(gè)具體的文件在打開后，內(nèi)核會(huì)在內(nèi)存中為之建立一個(gè) struct inode 結(jié)構(gòu)，其中的 i_mapping 域指向一個(gè) address_space 結(jié)構(gòu)。這樣，一個(gè)文件就對(duì)應(yīng)一個(gè) address_space 結(jié)構(gòu)，一個(gè) address_space 與一個(gè)偏移量能夠確定一個(gè) page cache 或 swap cache 中的一個(gè)頁面。因此，當(dāng)要尋址某個(gè)數(shù)據(jù)時(shí)，很容易根據(jù)給定的文件及數(shù)據(jù)在文件內(nèi)的偏移量而找到相應(yīng)的頁面。

3 、進(jìn)程調(diào)用 mmap() 時(shí)，只是在進(jìn)程空間內(nèi)新增了一塊相應(yīng)大小的緩沖區(qū)，并設(shè)置了相應(yīng)的訪問標(biāo)識(shí)，但并沒有建立進(jìn)程空間到物理頁面的映射。因此，第一次訪問該空間時(shí)，會(huì)引發(fā)一個(gè)缺頁異常。

4 、對(duì)于共享內(nèi)存映射情況，缺頁異常處理程序首先在 swap cache 中尋找目標(biāo)頁（符合 address_space 以及偏移量的物理頁），如果找到，則直接返回地址；如果沒有找到，則判斷該頁是否在交換區(qū) (swap area) ，如果在，則執(zhí)行一個(gè)換入操作；如果上述兩種情況都不滿足，處理程序?qū)⒎峙湫碌奈锢眄撁妫阉迦氲?/span> page cache 中。進(jìn)程最終將更新進(jìn)程頁表。
注：對(duì)于映射普通文件情況（非共享映射），缺頁異常處理程序首先會(huì)在 page cache 中根據(jù) address_space 以及數(shù)據(jù)偏移量尋找相應(yīng)的頁面。如果沒有找到，則說明文件數(shù)據(jù)還沒有讀入內(nèi)存，處理程序會(huì)從磁盤讀入相應(yīng)的頁面，并返回相應(yīng)地址，同時(shí)，進(jìn)程頁表也會(huì)更新。

5 、所有進(jìn)程在映射同一個(gè)共享內(nèi)存區(qū)域時(shí)，情況都一樣，在建立線性地址與物理地址之間的映射之后，不論進(jìn)程各自的返回地址如何，實(shí)際訪問的必然是同一個(gè)共享內(nèi)存區(qū)域?qū)?yīng)的物理頁面。
注：一個(gè)共享內(nèi)存區(qū)域可以看作是特殊文件系統(tǒng) shm 中的一個(gè)文件， shm 的安裝點(diǎn)在交換區(qū)上。

上面涉及到了一些數(shù)據(jù)結(jié)構(gòu)，圍繞數(shù)據(jù)結(jié)構(gòu)理解問題會(huì)容易一些。

二、 mmap() 及其相關(guān)系統(tǒng)調(diào)用

mmap() 系統(tǒng)調(diào)用使得進(jìn)程之間通過映射同一個(gè)普通文件實(shí)現(xiàn)共享內(nèi)存。普通文件被映射到進(jìn)程地址空間后，進(jìn)程可以向訪問普通內(nèi)存一樣對(duì)文件進(jìn)行訪問，不必再調(diào)用 read() ， write （）等操作。

注：實(shí)際上， mmap() 系統(tǒng)調(diào)用并不是完全為了用于共享內(nèi)存而設(shè)計(jì)的。它本身提供了不同于一般對(duì)普通文件的訪問方式，進(jìn)程可以像讀寫內(nèi)存一樣對(duì)普通文件的操作。而 Posix 或系統(tǒng) V 的共享內(nèi)存 IPC 則純粹用于共享目的，當(dāng)然 mmap() 實(shí)現(xiàn)共享內(nèi)存也是其主要應(yīng)用之一。

1 、 mmap() 系統(tǒng)調(diào)用形式如下：

void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset )
參數(shù) fd 為即將映射到進(jìn)程空間的文件描述字，一般由 open() 返回，同時(shí)， fd 可以指定為 -1 ，此時(shí)須指定 flags 參數(shù)中的 MAP_ANON ，表明進(jìn)行的是匿名映射（不涉及具體的文件名，避免了文件的創(chuàng)建及打開，很顯然只能用于具有親緣關(guān)系的進(jìn)程間通信）。 len 是映射到調(diào)用進(jìn)程地址空間的字節(jié)數(shù)，它從被映射文件開頭 offset 個(gè)字節(jié)開始算起。 prot 參數(shù)指定共享內(nèi)存的訪問權(quán)限。可取如下幾個(gè)值的或： PROT_READ （可讀） , PROT_WRITE （可寫） , PROT_EXEC （可執(zhí)行） , PROT_NONE （不可訪問）。 flags 由以下幾個(gè)常值指定： MAP_SHARED , MAP_PRIVATE , MAP_FIXED ，其中， MAP_SHARED , MAP_PRIVATE 必選其一，而 MAP_FIXED 則不推薦使用。 offset 參數(shù)一般設(shè)為 0 ，表示從文件頭開始映射。參數(shù) addr 指定文件應(yīng)被映射到進(jìn)程空間的起始地址，一般被指定一個(gè)空指針，此時(shí)選擇起始地址的任務(wù)留給內(nèi)核來完成。函數(shù)的返回值為最后文件映射到進(jìn)程空間的地址，進(jìn)程可直接操作起始地址為該值的有效地址。這里不再詳細(xì)介紹 mmap() 的參數(shù)，讀者可參考 mmap() 手冊(cè)頁獲得進(jìn)一步的信息。

2 、系統(tǒng)調(diào)用 mmap() 用于共享內(nèi)存的兩種方式：

（ 1 ）使用普通文件提供的內(nèi)存映射：適用于任何進(jìn)程之間；此時(shí)，需要打開或創(chuàng)建一個(gè)文件，然后再調(diào)用 mmap() ；典型調(diào)用代碼如下：

?

????? fd=open(name, flag, mode);

if(fd<0)

????? ...

?????

ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 通過 mmap() 實(shí)現(xiàn)共享內(nèi)存的通信方式有許多特點(diǎn)和要注意的地方，我們將在范例中進(jìn)行具體說明。

（ 2 ）使用特殊文件提供匿名內(nèi)存映射：適用于具有親緣關(guān)系的進(jìn)程之間；由于父子進(jìn)程特殊的親緣關(guān)系，在父進(jìn)程中先調(diào)用 mmap() ，然后調(diào)用 fork() 。那么在調(diào)用 fork() 之后，子進(jìn)程繼承父進(jìn)程匿名映射后的地址空間，同樣也繼承 mmap() 返回的地址，這樣，父子進(jìn)程就可以通過映射區(qū)域進(jìn)行通信了。注意，這里不是一般的繼承關(guān)系。一般來說，子進(jìn)程單獨(dú)維護(hù)從父進(jìn)程繼承下來的一些變量。而 mmap() 返回的地址，卻由父子進(jìn)程共同維護(hù)。
對(duì)于具有親緣關(guān)系的進(jìn)程實(shí)現(xiàn)共享內(nèi)存最好的方式應(yīng)該是采用匿名內(nèi)存映射的方式。此時(shí)，不必指定具體的文件，只要設(shè)置相應(yīng)的標(biāo)志即可，參見范例 2 。

3 、系統(tǒng)調(diào)用 munmap()

int munmap( void * addr, size_t len )
該調(diào)用在進(jìn)程地址空間中解除一個(gè)映射關(guān)系， addr 是調(diào)用 mmap() 時(shí)返回的地址， len 是映射區(qū)的大小。當(dāng)映射關(guān)系解除后，對(duì)原來映射地址的訪問將導(dǎo)致段錯(cuò)誤發(fā)生。

4 、系統(tǒng)調(diào)用 msync()

int msync ( void * addr , size_t len, int flags)
一般說來，進(jìn)程在映射空間的對(duì)共享內(nèi)容的改變并不直接寫回到磁盤文件中，往往在調(diào)用 munmap （）后才執(zhí)行該操作。可以通過調(diào)用 msync() 實(shí)現(xiàn)磁盤上文件內(nèi)容與共享內(nèi)存區(qū)的內(nèi)容一致。

三、 mmap() 范例

下面將給出使用 mmap() 的兩個(gè)范例：范例 1 給出兩個(gè)進(jìn)程通過映射普通文件實(shí)現(xiàn)共享內(nèi)存通信；范例 2 給出父子進(jìn)程通過匿名映射實(shí)現(xiàn)共享內(nèi)存。系統(tǒng)調(diào)用 mmap() 有許多有趣的地方，下面是通過 mmap （）映射普通文件實(shí)現(xiàn)進(jìn)程間的通信的范例，我們通過該范例來說明 mmap() 實(shí)現(xiàn)共享內(nèi)存的特點(diǎn)及注意事項(xiàng)。

范例 1 ：兩個(gè)進(jìn)程通過映射普通文件實(shí)現(xiàn)共享內(nèi)存通信

范例 1 包含兩個(gè)子程序： map_normalfile1.c 及 map_normalfile2.c 。編譯兩個(gè)程序，可執(zhí)行文件分別為 map_normalfile1 及 map_normalfile2 。兩個(gè)程序通過命令行參數(shù)指定同一個(gè)文件來實(shí)現(xiàn)共享內(nèi)存方式的進(jìn)程間通信。 map_normalfile2 試圖打開命令行參數(shù)指定的一個(gè)普通文件，把該文件映射到進(jìn)程的地址空間，并對(duì)映射后的地址空間進(jìn)行寫操作。 map_normalfile1 把命令行參數(shù)指定的文件映射到進(jìn)程地址空間，然后對(duì)映射后的地址空間執(zhí)行讀操作。這樣，兩個(gè)進(jìn)程通過命令行參數(shù)指定同一個(gè)文件來實(shí)現(xiàn)共享內(nèi)存方式的進(jìn)程間通信。

下面是兩個(gè)程序代碼：

?

/*-------------map_normalfile1.c-----------*/

#include <sys/mman.h>

#include <sys/types.h>

#include <fcntl.h>

#include <unistd.h>

typedef struct{

????? char name[4];

????? int? age;

}people;

?

main(int argc, char** argv) // map a normal file as shared mem:

{

????? int fd,i;

????? people *p_map;

????? char temp;

?????

????? fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);

????? lseek(fd,sizeof(people)*5-1,SEEK_SET);

????? write(fd,"",1);

?????

????? p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 );

????? close( fd );

????? temp = 'a';

????? for(i=0; i<10; i++)

????? {

??????????? temp += 1;

??????????? memcpy( ( *(p_map+i) ).name, &temp,2 );

??????????? ( *(p_map+i) ).age = 20+i;

????? }

????? printf(" initialize over \n ") ；

????? sleep(10);

?

????? munmap( p_map, sizeof(people)*10 );

????? printf( "umap ok \n" );

}

?

/*-------------map_normalfile2.c-----------*/

#include <sys/mman.h>

#include <sys/types.h>

#include <fcntl.h>

#include <unistd.h>

typedef struct{

????? char name[4];

????? int? age;

}people;

?

main(int argc, char** argv)??? // map a normal file as shared mem:

{

????? int fd,i;

????? people *p_map;

????? fd=open( argv[1],O_CREAT|O_RDWR,00777 );

????? p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0);

????? for(i = 0;i<10;i++)

????? {

????? printf( "name: %s age %d;\n",(*(p_map+i)).name, (*(p_map+i)).age );

?

????? }

????? munmap( p_map,sizeof(people)*10 );

}

?

map_normalfile1.c 首先定義了一個(gè) people 數(shù)據(jù)結(jié)構(gòu)，（在這里采用數(shù)據(jù)結(jié)構(gòu)的方式是因?yàn)椋蚕韮?nèi)存區(qū)的數(shù)據(jù)往往是有固定格式的，這由通信的各個(gè)進(jìn)程決定，采用結(jié)構(gòu)的方式有普遍代表性）。 map_normfile1 首先打開或創(chuàng)建一個(gè)文件，并把文件的長度設(shè)置為 5 個(gè) people 結(jié)構(gòu)大小。然后從 mmap() 的返回地址開始，設(shè)置了 10 個(gè) people 結(jié)構(gòu)。然后，進(jìn)程睡眠 10 秒鐘，等待其他進(jìn)程映射同一個(gè)文件，最后解除映射。

map_normfile2.c 只是簡單的映射一個(gè)文件，并以 people 數(shù)據(jù)結(jié)構(gòu)的格式從 mmap() 返回的地址處讀取 10 個(gè) people 結(jié)構(gòu)，并輸出讀取的值，然后解除映射。

分別把兩個(gè)程序編譯成可執(zhí)行文件 map_normalfile1 和 map_normalfile2 后，在一個(gè)終端上先運(yùn)行 ./map_normalfile2 /tmp/test_shm ，程序輸出結(jié)果如下：

?

initialize over

umap ok

?

在 map_normalfile1 輸出 initialize over 之后，輸出 umap ok 之前，在另一個(gè)終端上運(yùn)行 map_normalfile2 /tmp/test_shm ，將會(huì)產(chǎn)生如下輸出 ( 為了節(jié)省空間，輸出結(jié)果為稍作整理后的結(jié)果 ) ：

?

name: b???? age 20;???? name: c???? age 21;???? name: d???? age 22;????? name: e???? age 23;???? name: f???? age 24;

name: g???? age 25;???? name: h???? age 26;???? name: I???? age 27;????? name: j???? age 28;???? name: k???? age 29;

?

在 map_normalfile1 輸出 umap ok 后，運(yùn)行 map_normalfile2 則輸出如下結(jié)果：

?

name: b???? age 20;???? name: c???? age 21;???? name: d???? age 22;????? name: e???? age 23;???? name: f???? age 24;

name:age 0;????? name:age 0;????? name:age 0;name:age 0;????? name:????? age 0;

?

從程序的運(yùn)行結(jié)果中可以得出的結(jié)論

1 、 最終被映射文件的內(nèi)容的長度不會(huì)超過文件本身的初始大小，即映射不能改變文件的大小；

2 、 可以用于進(jìn)程通信的有效地址空間大小大體上受限于被映射文件的大小，但不完全受限于文件大小。打開文件被截短為 5 個(gè) people 結(jié)構(gòu)大小，而在 map_normalfile1 中初始化了 10 個(gè) people 數(shù)據(jù)結(jié)構(gòu)，在恰當(dāng)時(shí)候（ map_normalfile1 輸出 initialize over 之后，輸出 umap ok 之前）調(diào)用 map_normalfile2 會(huì)發(fā)現(xiàn) map_normalfile2 將輸出全部 10 個(gè) people 結(jié)構(gòu)的值，后面將給出詳細(xì)討論。
注：在 linux 中，內(nèi)存的保護(hù)是以頁為基本單位的，即使被映射文件只有一個(gè)字節(jié)大小，內(nèi)核也會(huì)為映射分配一個(gè)頁面大小的內(nèi)存。當(dāng)被映射文件小于一個(gè)頁面大小時(shí)，進(jìn)程可以對(duì)從 mmap() 返回地址開始的一個(gè)頁面大小進(jìn)行訪問，而不會(huì)出錯(cuò)；但是，如果對(duì)一個(gè)頁面以外的地址空間進(jìn)行訪問，則導(dǎo)致錯(cuò)誤發(fā)生，后面將進(jìn)一步描述。因此，可用于進(jìn)程間通信的有效地址空間大小不會(huì)超過文件大小及一個(gè)頁面大小的和。

3 、 文件一旦被映射后，調(diào)用 mmap() 的進(jìn)程對(duì)返回地址的訪問是對(duì)某一內(nèi)存區(qū)域的訪問，暫時(shí)脫離了磁盤上文件的影響。所有對(duì) mmap() 返回地址空間的操作只在內(nèi)存中有意義，只有在調(diào)用了 munmap() 后或者 msync() 時(shí)，才把內(nèi)存中的相應(yīng)內(nèi)容寫回磁盤文件，所寫內(nèi)容仍然不能超過文件的大小。

范例 2 ：父子進(jìn)程通過匿名映射實(shí)現(xiàn)共享內(nèi)存

?

#include <sys/mman.h>

#include <sys/types.h>

#include <fcntl.h>

#include <unistd.h>

typedef struct{

????? char name[4];

????? int? age;

}people;

main(int argc, char** argv)

{

????? int i;

????? people *p_map;

????? char temp;

????? p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0);

????? if(fork() == 0)

????? {

??????????? sleep(2);

??????????? for(i = 0;i<5;i++)

????????????????? printf("child read: the %d people's age is %d\n",i+1,(*(p_map+i)).age);

??????????? (*p_map).age = 100;

??????????? munmap(p_map,sizeof(people)*10); // 實(shí)際上，進(jìn)程終止時(shí)，會(huì)自動(dòng)解除映射。

??????????? exit();

????? }

????? temp = 'a';

????? for(i = 0;i<5;i++)

????? {

??????????? temp += 1;

??????????? memcpy((*(p_map+i)).name, &temp,2);

??????????? (*(p_map+i)).age=20+i;

????? }

?

????? sleep(5);

????? printf( "parent read: the first people,s age is %d\n",(*p_map).age );

????? printf("umap\n");

????? munmap( p_map,sizeof(people)*10 );

????? printf( "umap ok\n" );

}

?

考察程序的輸出結(jié)果，體會(huì)父子進(jìn)程匿名共享內(nèi)存：

?

child read: the 1 people's age is 20

child read: the 2 people's age is 21

child read: the 3 people's age is 22

child read: the 4 people's age is 23

child read: the 5 people's age is 24

?

parent read: the first people,s age is 100

umap

umap ok

?

四、對(duì) mmap() 返回地址的訪問

前面對(duì)范例運(yùn)行結(jié)構(gòu)的討論中已經(jīng)提到， linux 采用的是頁式管理機(jī)制。對(duì)于用 mmap() 映射普通文件來說，進(jìn)程會(huì)在自己的地址空間新增一塊空間，空間大小由 mmap() 的 len 參數(shù)指定，注意，進(jìn)程并不一定能夠?qū)θ啃略隹臻g都能進(jìn)行有效訪問。進(jìn)程能夠訪問的有效地址大小取決于文件被映射部分的大小。簡單的說，能夠容納文件被映射部分大小的最少頁面?zhèn)€數(shù)決定了進(jìn)程從 mmap() 返回的地址開始，能夠有效訪問的地址空間大小。超過這個(gè)空間大小，內(nèi)核會(huì)根據(jù)超過的嚴(yán)重程度返回發(fā)送不同的信號(hào)給進(jìn)程。可用如下圖示說明：

注意：文件被映射部分而不是整個(gè)文件決定了進(jìn)程能夠訪問的空間大小，另外，如果指定文件的偏移部分，一定要注意為頁面大小的整數(shù)倍。下面是對(duì)進(jìn)程映射地址空間的訪問范例：

?

#include <sys/mman.h>

#include <sys/types.h>

#include <fcntl.h>

#include <unistd.h>

typedef struct{

????? char name[4];

????? int? age;

}people;

?

main(int argc, char** argv)

{

????? int fd,i;

????? int pagesize,offset;

????? people *p_map;

?????

????? pagesize = sysconf(_SC_PAGESIZE);

????? printf("pagesize is %d\n",pagesize);

????? fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);

????? lseek(fd,pagesize*2-100,SEEK_SET);

????? write(fd,"",1);

????? offset = 0;// 此處 offset = 0 編譯成版本 1 ； offset = pagesize 編譯成版本 2

????? p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset);

????? close(fd);

?????

????? for(i = 1; i<10; i++)

????? {

??????????? (*(p_map+pagesize/sizeof(people)*i-2)).age = 100;

??????????? printf("access page %d over\n",i);

??????????? (*(p_map+pagesize/sizeof(people)*i-1)).age = 100;

??????????? printf("access page %d edge over, now begin to access page %d\n",i, i+1);

??????????? (*(p_map+pagesize/sizeof(people)*i)).age = 100;

??????????? printf("access page %d over\n",i+1);

????? }

????? munmap(p_map,sizeof(people)*10);

}

?

如程序中所注釋的那樣，把程序編譯成兩個(gè)版本，兩個(gè)版本主要體現(xiàn)在文件被映射部分的大小不同。文件的大小介于一個(gè)頁面與兩個(gè)頁面之間（大小為： pagesize*2-99 ），版本 1 的被映射部分是整個(gè)文件，版本 2 的文件被映射部分是文件大小減去一個(gè)頁面后的剩余部分，不到一個(gè)頁面大小 ( 大小為： pagesize-99) 。程序中試圖訪問每一個(gè)頁面邊界，兩個(gè)版本都試圖在進(jìn)程空間中映射 pagesize*3 的字節(jié)數(shù)。

版本 1 的輸出結(jié)果如下：

?

pagesize is 4096

access page 1 over

access page 1 edge over, now begin to access page 2

access page 2 over

access page 2 edge over, now begin to access page 3

Bus error???????? // 被映射文件在進(jìn)程空間中覆蓋了兩個(gè)頁面，此時(shí)，進(jìn)程試圖訪問第三個(gè)頁面

?

版本 2 的輸出結(jié)果如下：

?

pagesize is 4096

access page 1 over

access page 1 edge over, now begin to access page 2

Bus error???????? // 被映射文件在進(jìn)程空間中覆蓋了一個(gè)頁面，此時(shí)，進(jìn)程試圖訪問第二個(gè)頁面

?

結(jié)論：采用系統(tǒng)調(diào)用 mmap() 實(shí)現(xiàn)進(jìn)程間通信是很方便的，在應(yīng)用層上接口非常簡潔。內(nèi)部實(shí)現(xiàn)機(jī)制區(qū)涉及到了 linux 存儲(chǔ)管理以及文件系統(tǒng)等方面的內(nèi)容，可以參考一下相關(guān)重要數(shù)據(jù)結(jié)構(gòu)來加深理解。在本專題的后面部分，將介紹系統(tǒng) v 共享內(nèi)存的實(shí)現(xiàn)。

?

共享內(nèi)存（下）

在共享內(nèi)存（上）中，主要圍繞著系統(tǒng)調(diào)用 mmap() 進(jìn)行討論的，本部分將討論系統(tǒng) V 共享內(nèi)存，并通過實(shí)驗(yàn)結(jié)果對(duì)比來闡述兩者的異同。系統(tǒng) V 共享內(nèi)存指的是把所有共享數(shù)據(jù)放在共享內(nèi)存區(qū)域（ IPC shared memory region ），任何想要訪問該數(shù)據(jù)的進(jìn)程都必須在本進(jìn)程的地址空間新增一塊內(nèi)存區(qū)域，用來映射存放共享數(shù)據(jù)的物理內(nèi)存頁面。

系統(tǒng)調(diào)用 mmap() 通過映射一個(gè)普通文件實(shí)現(xiàn)共享內(nèi)存。系統(tǒng) V 則是通過映射特殊文件系統(tǒng) shm 中的文件實(shí)現(xiàn)進(jìn)程間的共享內(nèi)存通信。也就是說，每個(gè)共享內(nèi)存區(qū)域?qū)?yīng)特殊文件系統(tǒng) shm 中的一個(gè)文件（這是通過 shmid_kernel 結(jié)構(gòu)聯(lián)系起來的），后面還將闡述。

1 、系統(tǒng) V 共享內(nèi)存原理

進(jìn)程間需要共享的數(shù)據(jù)被放在一個(gè)叫做 IPC 共享內(nèi)存區(qū)域的地方，所有需要訪問該共享區(qū)域的進(jìn)程都要把該共享區(qū)域映射到本進(jìn)程的地址空間中去。系統(tǒng) V 共享內(nèi)存通過 shmget 獲得或創(chuàng)建一個(gè) IPC 共享內(nèi)存區(qū)域，并返回相應(yīng)的標(biāo)識(shí)符。內(nèi)核在保證 shmget 獲得或創(chuàng)建一個(gè)共享內(nèi)存區(qū)，初始化該共享內(nèi)存區(qū)相應(yīng)的 shmid_kernel 結(jié)構(gòu)注同時(shí)，還將在特殊文件系統(tǒng) shm 中，創(chuàng)建并打開一個(gè)同名文件，并在內(nèi)存中建立起該文件的相應(yīng) dentry 及 inode 結(jié)構(gòu)，新打開的文件不屬于任何一個(gè)進(jìn)程（任何進(jìn)程都可以訪問該共享內(nèi)存區(qū)）。所有這一切都是系統(tǒng)調(diào)用 shmget 完成的。

注：每一個(gè)共享內(nèi)存區(qū)都有一個(gè)控制結(jié)構(gòu) struct shmid_kernel ， shmid_kernel 是共享內(nèi)存區(qū)域中非常重要的一個(gè)數(shù)據(jù)結(jié)構(gòu)，它是存儲(chǔ)管理和文件系統(tǒng)結(jié)合起來的橋梁，定義如下：

?

struct shmid_kernel /* private to the kernel */

{????

????? struct kern_ipc_perm??? shm_perm;

????? struct file *?????????? shm_file;

????? int?????????????? id;

????? unsigned long?????????? shm_nattch;

????? unsigned long?????????? shm_segsz;

????? time_t????????????????? shm_atim;

????? time_t????????????????? shm_dtim;

????? time_t????????????????? shm_ctim;

????? pid_t???????????? shm_cprid;

????? pid_t???????????? shm_lprid;

};

?

該結(jié)構(gòu)中最重要的一個(gè)域應(yīng)該是 shm_file ，它存儲(chǔ)了將被映射文件的地址。每個(gè)共享內(nèi)存區(qū)對(duì)象都對(duì)應(yīng)特殊文件系統(tǒng) shm 中的一個(gè)文件，一般情況下，特殊文件系統(tǒng) shm 中的文件是不能用 read() 、 write() 等方法訪問的，當(dāng)采取共享內(nèi)存的方式把其中的文件映射到進(jìn)程地址空間后，可直接采用訪問內(nèi)存的方式對(duì)其訪問。

這里我們采用 [1] 中的圖表給出與系統(tǒng) V 共享內(nèi)存相關(guān)數(shù)據(jù)結(jié)構(gòu)：

正如消息隊(duì)列和信號(hào)燈一樣，內(nèi)核通過數(shù)據(jù)結(jié)構(gòu) struct ipc_ids shm_ids 維護(hù)系統(tǒng)中的所有共享內(nèi)存區(qū)域。上圖中的 shm_ids.entries 變量指向一個(gè) ipc_id 結(jié)構(gòu)數(shù)組，而每個(gè) ipc_id 結(jié)構(gòu)數(shù)組中有個(gè)指向 kern_ipc_perm 結(jié)構(gòu)的指針。到這里讀者應(yīng)該很熟悉了，對(duì)于系統(tǒng) V 共享內(nèi)存區(qū)來說， kern_ipc_perm 的宿主是 shmid_kernel 結(jié)構(gòu)， shmid_kernel 是用來描述一個(gè)共享內(nèi)存區(qū)域的，這樣內(nèi)核就能夠控制系統(tǒng)中所有的共享區(qū)域。同時(shí)，在 shmid_kernel 結(jié)構(gòu)的 file 類型指針 shm_file 指向文件系統(tǒng) shm 中相應(yīng)的文件，這樣，共享內(nèi)存區(qū)域就與 shm 文件系統(tǒng)中的文件對(duì)應(yīng)起來。

在創(chuàng)建了一個(gè)共享內(nèi)存區(qū)域后，還要將它映射到進(jìn)程地址空間，系統(tǒng)調(diào)用 shmat() 完成此項(xiàng)功能。由于在調(diào)用 shmget() 時(shí)，已經(jīng)創(chuàng)建了文件系統(tǒng) shm 中的一個(gè)同名文件與共享內(nèi)存區(qū)域相對(duì)應(yīng)，因此，調(diào)用 shmat() 的過程相當(dāng)于映射文件系統(tǒng) shm 中的同名文件過程，原理與 mmap() 大同小異。

?

2 、系統(tǒng) V 共享內(nèi)存 API

對(duì)于系統(tǒng) V 共享內(nèi)存，主要有以下幾個(gè) API ： shmget() 、 shmat() 、 shmdt() 及 shmctl() 。

?

#include <sys/ipc.h>

#include <sys/shm.h>

?

shmget （）用來獲得共享內(nèi)存區(qū)域的 ID ，如果不存在指定的共享區(qū)域就創(chuàng)建相應(yīng)的區(qū)域。 shmat() 把共享內(nèi)存區(qū)域映射到調(diào)用進(jìn)程的地址空間中去，這樣，進(jìn)程就可以方便地對(duì)共享區(qū)域進(jìn)行訪問操作。 shmdt() 調(diào)用用來解除進(jìn)程對(duì)共享內(nèi)存區(qū)域的映射。 shmctl 實(shí)現(xiàn)對(duì)共享內(nèi)存區(qū)域的控制操作。這里我們不對(duì)這些系統(tǒng)調(diào)用作具體的介紹，讀者可參考相應(yīng)的手冊(cè)頁面，后面的范例中將給出它們的調(diào)用方法。

注： shmget 的內(nèi)部實(shí)現(xiàn)包含了許多重要的系統(tǒng) V 共享內(nèi)存機(jī)制； shmat 在把共享內(nèi)存區(qū)域映射到進(jìn)程空間時(shí)，并不真正改變進(jìn)程的頁表。當(dāng)進(jìn)程第一次訪問內(nèi)存映射區(qū)域訪問時(shí)，會(huì)因?yàn)闆]有物理頁表的分配而導(dǎo)致一個(gè)缺頁異常，然后內(nèi)核再根據(jù)相應(yīng)的存儲(chǔ)管理機(jī)制為共享內(nèi)存映射區(qū)域分配相應(yīng)的頁表。

?

3 、系統(tǒng) V 共享內(nèi)存限制

在 /proc/sys/kernel/ 目錄下，記錄著系統(tǒng) V 共享內(nèi)存的一下限制，如一個(gè)共享內(nèi)存區(qū)的最大字節(jié)數(shù) shmmax ，系統(tǒng)范圍內(nèi)最大共享內(nèi)存區(qū)標(biāo)識(shí)符數(shù) shmmni 等，可以手工對(duì)其調(diào)整，但不推薦這樣做。

在 [2] 中，給出了這些限制的測(cè)試方法，不再贅述。

?

4 、系統(tǒng) V 共享內(nèi)存范例

本部分將給出系統(tǒng) V 共享內(nèi)存 API 的使用方法，并對(duì)比分析系統(tǒng) V 共享內(nèi)存機(jī)制與 mmap() 映射普通文件實(shí)現(xiàn)共享內(nèi)存之間的差異，首先給出兩個(gè)進(jìn)程通過系統(tǒng) V 共享內(nèi)存通信的范例：

?

/***** testwrite.c *******/

#include <sys/ipc.h>

#include <sys/shm.h>

#include <sys/types.h>

#include <unistd.h>

typedef struct{

????? char name[4];

????? int age;

} people;

main(int argc, char** argv)

{

????? int shm_id,i;

????? key_t key;

????? char temp;

????? people *p_map;

????? char* name = "/dev/shm/myshm2";

????? key = ftok(name,0);

????? if(key==-1)

??????????? perror("ftok error");

????? shm_id=shmget(key,4096,IPC_CREAT);??

????? if(shm_id==-1)

????? {

??????????? perror("shmget error");

??????????? return;

????? }

????? p_map=(people*)shmat(shm_id,NULL,0);

????? temp='a';

????? for(i = 0;i<10;i++)

????? {

??????????? temp+=1;

??????????? memcpy((*(p_map+i)).name,&temp,1);

??????????? (*(p_map+i)).age=20+i;

????? }

????? if(shmdt(p_map)==-1)

??????????? perror(" detach error ");

}

/********** testread.c ************/

#include <sys/ipc.h>

#include <sys/shm.h>

#include <sys/types.h>

#include <unistd.h>

typedef struct{

????? char name[4];

????? int age;

} people;

main(int argc, char** argv)

{

????? int shm_id,i;

????? key_t key;

????? people *p_map;

????? char* name = "/dev/shm/myshm2";

????? key = ftok(name,0);

????? if(key == -1)

??????????? perror("ftok error");

????? shm_id = shmget(key,4096,IPC_CREAT);

????? if(shm_id == -1)

????? {

??????????? perror("shmget error");

??????????? return;

????? }

????? p_map = (people*)shmat(shm_id,NULL,0);

????? for(i = 0;i<10;i++)

????? {

????? printf( "name:%s\n",(*(p_map+i)).name );

????? printf( "age %d\n",(*(p_map+i)).age );

????? }

????? if(shmdt(p_map) == -1)

??????????? perror(" detach error ");

}

?

testwrite.c 創(chuàng)建一個(gè)系統(tǒng) V 共享內(nèi)存區(qū)，并在其中寫入格式化數(shù)據(jù)； testread.c 訪問同一個(gè)系統(tǒng) V 共享內(nèi)存區(qū)，讀出其中的格式化數(shù)據(jù)。分別把兩個(gè)程序編譯為 testwrite 及 testread ，先后執(zhí)行 ./testwrite 及 ./testread 則 ./testread 輸出結(jié)果如下：

?

name: b???? age 20;???? name: c???? age 21;???? name: d???? age 22;????? name: e???? age 23;???? name: f???? age 24;

name: g???? age 25;???? name: h???? age 26;???? name: I???? age 27;????? name: j???? age 28;???? name: k???? age 29;

?

通過對(duì)試驗(yàn)結(jié)果分析，對(duì)比系統(tǒng) V 與 mmap() 映射普通文件實(shí)現(xiàn)共享內(nèi)存通信，可以得出如下結(jié)論：

1 、系統(tǒng) V 共享內(nèi)存中的數(shù)據(jù)，從來不寫入到實(shí)際磁盤文件中去；而通過 mmap() 映射普通文件實(shí)現(xiàn)的共享內(nèi)存通信可以指定何時(shí)將數(shù)據(jù)寫入磁盤文件中。注：前面講到，系統(tǒng) V 共享內(nèi)存機(jī)制實(shí)際是通過映射特殊文件系統(tǒng) shm 中的文件實(shí)現(xiàn)的，文件系統(tǒng) shm 的安裝點(diǎn)在交換分區(qū)上，系統(tǒng)重新引導(dǎo)后，所有的內(nèi)容都丟失。

2 、系統(tǒng) V 共享內(nèi)存是隨內(nèi)核持續(xù)的，即使所有訪問共享內(nèi)存的進(jìn)程都已經(jīng)正常終止，共享內(nèi)存區(qū)仍然存在（除非顯式刪除共享內(nèi)存），在內(nèi)核重新引導(dǎo)之前，對(duì)該共享內(nèi)存區(qū)域的任何改寫操作都將一直保留。

3 、通過調(diào)用 mmap() 映射普通文件進(jìn)行進(jìn)程間通信時(shí)，一定要注意考慮進(jìn)程何時(shí)終止對(duì)通信的影響。而通過系統(tǒng) V 共享內(nèi)存實(shí)現(xiàn)通信的進(jìn)程則不然。注：這里沒有給出 shmctl 的使用范例，原理與消息隊(duì)列大同小異。

?

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1006744

posted on 2007-08-11 01:00 旅途閱讀(1720) 評(píng)論(0) 編輯收藏引用所屬分類: Linux開發(fā)

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


相關(guān)文章: C語言程序靜態(tài)庫和動(dòng)態(tài)庫的創(chuàng)建及其應(yīng)用在linux下編寫動(dòng)態(tài)鏈接庫的步驟鳥哥的 Linux 與 ADSL 私房菜 LINUX動(dòng)態(tài)鏈接庫高級(jí)應(yīng)用動(dòng)態(tài)聯(lián)接庫 Linux動(dòng)態(tài)鏈接庫(標(biāo)準(zhǔn)對(duì)象)編程入門用gcc編譯生成動(dòng)態(tài)鏈接庫*.so文件的方法。 LINUX系統(tǒng)中動(dòng)態(tài)鏈接庫的創(chuàng)建與使用跟我一起寫 Makefile GCC編譯選項(xiàng)

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

導(dǎo)航

統(tǒng)計(jì)信息

隨筆 - 117
文章 - 246
評(píng)論 - 33
Trackbacks - 0

News

大都是自己看到的書和網(wǎng)文,如果不特別標(biāo)明"原創(chuàng)",則皆為轉(zhuǎn)載. 關(guān)注下最基礎(chǔ)的東西.

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章分類

文章檔案

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

旅途

Linux環(huán)境進(jìn)程間通信系列（五）：共享內(nèi)存

導(dǎo)航

統(tǒng)計(jì)信息

News

常用鏈接

留言簿(2)

隨筆分類

隨筆檔案

文章分類

文章檔案

C/C++

安全

操作系統(tǒng)

我自己的

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜