共享內(nèi)存可以說是最有用的進(jìn)程間通信方式,也是最快的
IPC
形式。兩個(gè)不同進(jìn)程
A
、
B
共享內(nèi)存的意思是,同一塊物理內(nèi)存被映射到進(jìn)程
A
、
B
各自的進(jìn)程地址空間。進(jìn)程
A
可以即時(shí)看到進(jìn)程
B
對共享內(nèi)存中數(shù)據(jù)的更新,反之亦然。由于多個(gè)進(jìn)程共享同一塊內(nèi)存區(qū)域,必然需要某種同步機(jī)制,互斥鎖和信號量都可以。
采用共享內(nèi)存通信的一個(gè)顯而易見的好處是效率高,因?yàn)檫M(jìn)程可以直接讀寫內(nèi)存,而不需要任何數(shù)據(jù)的拷貝。對于像管道和消息隊(duì)列等通信方式,則需要在內(nèi)核和用戶空間進(jìn)行四次的數(shù)據(jù)拷貝,而共享內(nèi)存則只拷貝兩次數(shù)據(jù)
[1]
:
一次從輸入文件到共享內(nèi)存區(qū),另一次從共享內(nèi)存區(qū)到輸出文件。實(shí)際上,進(jìn)程之間在共享內(nèi)存時(shí),并不總是讀寫少量數(shù)據(jù)后就解除映射,有新的通信時(shí),再重新建
立共享內(nèi)存區(qū)域。而是保持共享區(qū)域,直到通信完畢為止,這樣,數(shù)據(jù)內(nèi)容一直保存在共享內(nèi)存中,并沒有寫回文件。共享內(nèi)存中的內(nèi)容往往是在解除映射時(shí)才寫回
文件的。因此,采用共享內(nèi)存的通信方式效率是非常高的。
Linux
的
2.2.x
內(nèi)核支持多種共享內(nèi)存方式,如
mmap()
系統(tǒng)調(diào)用,
Posix
共享內(nèi)存,以及系統(tǒng)
V
共享內(nèi)存。
linux
發(fā)行版本如
Redhat 8.0
支持
mmap()
系統(tǒng)調(diào)用及系統(tǒng)
V
共享內(nèi)存,但還沒實(shí)現(xiàn)
Posix
共享內(nèi)存,本文將主要介紹
mmap()
系統(tǒng)調(diào)用及系統(tǒng)
V
共享內(nèi)存
API
的原理及應(yīng)用。
一、內(nèi)核怎樣保證各個(gè)進(jìn)程尋址到同一個(gè)共享內(nèi)存區(qū)域的內(nèi)存頁面
1
、
page cache
及
swap cache
中頁面的區(qū)分:一個(gè)被訪問文件的物理頁面都駐留在
page cache
或
swap cache
中,一個(gè)頁面的所有信息由
struct page
來描述。
struct page
中有一個(gè)域?yàn)橹羔?/span>
mapping
,它指向一個(gè)
struct address_space
類型結(jié)構(gòu)。
page cache
或
swap cache
中的所有頁面就是根據(jù)
address_space
結(jié)構(gòu)以及一個(gè)偏移量來區(qū)分的。
2
、文件與
address_space
結(jié)構(gòu)的對應(yīng):一個(gè)具體的文件在打開后,內(nèi)核會(huì)在內(nèi)存中為之建立一個(gè)
struct inode
結(jié)構(gòu),其中的
i_mapping
域指向一個(gè)
address_space
結(jié)構(gòu)。這樣,一個(gè)文件就對應(yīng)一個(gè)
address_space
結(jié)構(gòu),一個(gè)
address_space
與一個(gè)偏移量能夠確定一個(gè)
page cache
或
swap cache
中的一個(gè)頁面。因此,當(dāng)要尋址某個(gè)數(shù)據(jù)時(shí),很容易根據(jù)給定的文件及數(shù)據(jù)在文件內(nèi)的偏移量而找到相應(yīng)的頁面。
3
、進(jìn)程調(diào)用
mmap()
時(shí),只是在進(jìn)程空間內(nèi)新增了一塊相應(yīng)大小的緩沖區(qū),并設(shè)置了相應(yīng)的訪問標(biāo)識,但并沒有建立進(jìn)程空間到物理頁面的映射。因此,第一次訪問該空間時(shí),會(huì)引發(fā)一個(gè)缺頁異常。
4
、對于共享內(nèi)存映射情況,缺頁異常處理程序首先在
swap cache
中尋找目標(biāo)頁(符合
address_space
以及偏移量的物理頁),如果找到,則直接返回地址;如果沒有找到,則判斷該頁是否在交換區(qū)
(swap area)
,如果在,則執(zhí)行一個(gè)換入操作;如果上述兩種情況都不滿足,處理程序?qū)⒎峙湫碌奈锢眄撁妫阉迦氲?/span>
page cache
中。進(jìn)程最終將更新進(jìn)程頁表。
注:對于映射普通文件情況(非共享映射),缺頁異常處理程序首先會(huì)在
page cache
中根據(jù)
address_space
以及數(shù)據(jù)偏移量尋找相應(yīng)的頁面。如果沒有找到,則說明文件數(shù)據(jù)還沒有讀入內(nèi)存,處理程序會(huì)從磁盤讀入相應(yīng)的頁面,并返回相應(yīng)地址,同時(shí),進(jìn)程頁表也會(huì)更新。
5
、所有進(jìn)程在映射同一個(gè)共享內(nèi)存區(qū)域時(shí),情況都一樣,在建立線性地址與物理地址之間的映射之后,不論進(jìn)程各自的返回地址如何,實(shí)際訪問的必然是同一個(gè)共享內(nèi)存區(qū)域?qū)?yīng)的物理頁面。
注:一個(gè)共享內(nèi)存區(qū)域可以看作是特殊文件系統(tǒng)
shm
中的一個(gè)文件,
shm
的安裝點(diǎn)在交換區(qū)上。
上面涉及到了一些數(shù)據(jù)結(jié)構(gòu),圍繞數(shù)據(jù)結(jié)構(gòu)理解問題會(huì)容易一些。
二、
mmap()
及其相關(guān)系統(tǒng)調(diào)用
mmap()
系統(tǒng)調(diào)用使得進(jìn)程之間通過映射同一個(gè)普通文件實(shí)現(xiàn)共享內(nèi)存。普通文件被映射到進(jìn)程地址空間后,進(jìn)程可以向訪問普通內(nèi)存一樣對文件進(jìn)行訪問,不必再調(diào)用
read()
,
write
()等操作。
注:實(shí)際上,
mmap()
系統(tǒng)調(diào)用并不是完全為了用于共享內(nèi)存而設(shè)計(jì)的。它本身提供了不同于一般對普通文件的訪問方式,進(jìn)程可以像讀寫內(nèi)存一樣對普通文件的操作。而
Posix
或系統(tǒng)
V
的共享內(nèi)存
IPC
則純粹用于共享目的,當(dāng)然
mmap()
實(shí)現(xiàn)共享內(nèi)存也是其主要應(yīng)用之一。
1
、
mmap()
系統(tǒng)調(diào)用形式如下:
void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset )
參數(shù)
fd
為即將映射到進(jìn)程空間的文件描述字,一般由
open()
返回,同時(shí),
fd
可以指定為
-1
,此時(shí)須指定
flags
參數(shù)中的
MAP_ANON
,表明進(jìn)行的是匿名映射(不涉及具體的文件名,避免了文件的創(chuàng)建及打開,很顯然只能用于具有親緣關(guān)系的進(jìn)程間通信)。
len
是映射到調(diào)用進(jìn)程地址空間的字節(jié)數(shù),它從被映射文件開頭
offset
個(gè)字節(jié)開始算起。
prot
參數(shù)指定共享內(nèi)存的訪問權(quán)限。可取如下幾個(gè)值的或:
PROT_READ
(可讀)
, PROT_WRITE
(可寫)
, PROT_EXEC
(可執(zhí)行)
, PROT_NONE
(不可訪問)。
flags
由以下幾個(gè)常值指定:
MAP_SHARED , MAP_PRIVATE , MAP_FIXED
,其中,
MAP_SHARED , MAP_PRIVATE
必選其一,而
MAP_FIXED
則不推薦使用。
offset
參數(shù)一般設(shè)為
0
,表示從文件頭開始映射。參數(shù)
addr
指定文件應(yīng)被映射到進(jìn)程空間的起始地址,一般被指定一個(gè)空指針,此時(shí)選擇起始地址的任務(wù)留給內(nèi)核來完成。函數(shù)的返回值為最后文件映射到進(jìn)程空間的地址,進(jìn)程可直接操作起始地址為該值的有效地址。這里不再詳細(xì)介紹
mmap()
的參數(shù),讀者可參考
mmap()
手冊頁獲得進(jìn)一步的信息。
2
、系統(tǒng)調(diào)用
mmap()
用于共享內(nèi)存的兩種方式:
(
1
)使用普通文件提供的內(nèi)存映射:適用于任何進(jìn)程之間;此時(shí),需要打開或創(chuàng)建一個(gè)文件,然后再調(diào)用
mmap()
;典型調(diào)用代碼如下:
?
????? fd=open(name, flag, mode);
if(fd<0)
????? ...
?????
|
ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0);
通過
mmap()
實(shí)現(xiàn)共享內(nèi)存的通信方式有許多特點(diǎn)和要注意的地方,我們將在范例中進(jìn)行具體說明。
(
2
)使用特殊文件提供匿名內(nèi)存映射:適用于具有親緣關(guān)系的進(jìn)程之間;由于父子進(jìn)程特殊的親緣關(guān)系,在父進(jìn)程中先調(diào)用
mmap()
,然后調(diào)用
fork()
。那么在調(diào)用
fork()
之后,子進(jìn)程繼承父進(jìn)程匿名映射后的地址空間,同樣也繼承
mmap()
返回的地址,這樣,父子進(jìn)程就可以通過映射區(qū)域進(jìn)行通信了。注意,這里不是一般的繼承關(guān)系。一般來說,子進(jìn)程單獨(dú)維護(hù)從父進(jìn)程繼承下來的一些變量。而
mmap()
返回的地址,卻由父子進(jìn)程共同維護(hù)。
對于具有親緣關(guān)系的進(jìn)程實(shí)現(xiàn)共享內(nèi)存最好的方式應(yīng)該是采用匿名內(nèi)存映射的方式。此時(shí),不必指定具體的文件,只要設(shè)置相應(yīng)的標(biāo)志即可,參見范例
2
。
3
、系統(tǒng)調(diào)用
munmap()
int munmap( void * addr, size_t len )
該調(diào)用在進(jìn)程地址空間中解除一個(gè)映射關(guān)系,
addr
是調(diào)用
mmap()
時(shí)返回的地址,
len
是映射區(qū)的大小。當(dāng)映射關(guān)系解除后,對原來映射地址的訪問將導(dǎo)致段錯(cuò)誤發(fā)生。
4
、系統(tǒng)調(diào)用
msync()
int msync ( void * addr , size_t len, int flags)
一般說來,進(jìn)程在映射空間的對共享內(nèi)容的改變并不直接寫回到磁盤文件中,往往在調(diào)用
munmap
()后才執(zhí)行該操作。可以通過調(diào)用
msync()
實(shí)現(xiàn)磁盤上文件內(nèi)容與共享內(nèi)存區(qū)的內(nèi)容一致。
三、
mmap()
范例
下面將給出使用
mmap()
的兩個(gè)范例:范例
1
給出兩個(gè)進(jìn)程通過映射普通文件實(shí)現(xiàn)共享內(nèi)存通信;范例
2
給出父子進(jìn)程通過匿名映射實(shí)現(xiàn)共享內(nèi)存。系統(tǒng)調(diào)用
mmap()
有許多有趣的地方,下面是通過
mmap
()映射普通文件實(shí)現(xiàn)進(jìn)程間的通信的范例,我們通過該范例來說明
mmap()
實(shí)現(xiàn)共享內(nèi)存的特點(diǎn)及注意事項(xiàng)。
范例
1
:兩個(gè)進(jìn)程通過映射普通文件實(shí)現(xiàn)共享內(nèi)存通信
范例
1
包含兩個(gè)子程序:
map_normalfile1.c
及
map_normalfile2.c
。編譯兩個(gè)程序,可執(zhí)行文件分別為
map_normalfile1
及
map_normalfile2
。兩個(gè)程序通過命令行參數(shù)指定同一個(gè)文件來實(shí)現(xiàn)共享內(nèi)存方式的進(jìn)程間通信。
map_normalfile2
試圖打開命令行參數(shù)指定的一個(gè)普通文件,把該文件映射到進(jìn)程的地址空間,并對映射后的地址空間進(jìn)行寫操作。
map_normalfile1
把命令行參數(shù)指定的文件映射到進(jìn)程地址空間,然后對映射后的地址空間執(zhí)行讀操作。這樣,兩個(gè)進(jìn)程通過命令行參數(shù)指定同一個(gè)文件來實(shí)現(xiàn)共享內(nèi)存方式的進(jìn)程間通信。
下面是兩個(gè)程序代碼:
?
/*-------------map_normalfile1.c-----------*/
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
????? char name[4];
????? int? age;
}people;
?
main(int argc, char** argv) // map a normal file as shared mem:
{
????? int fd,i;
????? people *p_map;
????? char temp;
?????
????? fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
????? lseek(fd,sizeof(people)*5-1,SEEK_SET);
????? write(fd,"",1);
?????
????? p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 );
????? close( fd );
????? temp = 'a';
????? for(i=0; i<10; i++)
????? {
??????????? temp += 1;
??????????? memcpy( ( *(p_map+i) ).name, &temp,2 );
??????????? ( *(p_map+i) ).age = 20+i;
????? }
????? printf(" initialize over \n ")
;
????? sleep(10);
?
????? munmap( p_map, sizeof(people)*10 );
????? printf( "umap ok \n" );
}
?
/*-------------map_normalfile2.c-----------*/
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
????? char name[4];
????? int? age;
}people;
?
main(int argc, char** argv)??? // map a normal file as shared mem:
{
????? int fd,i;
????? people *p_map;
????? fd=open( argv[1],O_CREAT|O_RDWR,00777 );
????? p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0);
????? for(i = 0;i<10;i++)
????? {
????? printf( "name: %s age %d;\n",(*(p_map+i)).name, (*(p_map+i)).age );
?
????? }
????? munmap( p_map,sizeof(people)*10 );
}
|
?
map_normalfile1.c
首先定義了一個(gè)
people
數(shù)據(jù)結(jié)構(gòu),(在這里采用數(shù)據(jù)結(jié)構(gòu)的方式是因?yàn)椋蚕韮?nèi)存區(qū)的數(shù)據(jù)往往是有固定格式的,這由通信的各個(gè)進(jìn)程決定,采用結(jié)構(gòu)的方式有普遍代表性)。
map_normfile1
首先打開或創(chuàng)建一個(gè)文件,并把文件的長度設(shè)置為
5
個(gè)
people
結(jié)構(gòu)大小。然后從
mmap()
的返回地址開始,設(shè)置了
10
個(gè)
people
結(jié)構(gòu)。然后,進(jìn)程睡眠
10
秒鐘,等待其他進(jìn)程映射同一個(gè)文件,最后解除映射。
map_normfile2.c
只是簡單的映射一個(gè)文件,并以
people
數(shù)據(jù)結(jié)構(gòu)的格式從
mmap()
返回的地址處讀取
10
個(gè)
people
結(jié)構(gòu),并輸出讀取的值,然后解除映射。
分別把兩個(gè)程序編譯成可執(zhí)行文件
map_normalfile1
和
map_normalfile2
后,在一個(gè)終端上先運(yùn)行
./map_normalfile2 /tmp/test_shm
,程序輸出結(jié)果如下:
?
initialize over
umap ok
|
?
在
map_normalfile1
輸出
initialize over
之后,輸出
umap ok
之前,在另一個(gè)終端上運(yùn)行
map_normalfile2 /tmp/test_shm
,將會(huì)產(chǎn)生如下輸出
(
為了節(jié)省空間,輸出結(jié)果為稍作整理后的結(jié)果
)
:
?
name: b???? age 20;???? name: c???? age 21;???? name: d???? age 22;????? name: e???? age 23;???? name: f???? age 24;
name: g???? age 25;???? name: h???? age 26;???? name: I???? age 27;????? name: j???? age 28;???? name: k???? age 29;
|
?
在
map_normalfile1
輸出
umap ok
后,運(yùn)行
map_normalfile2
則輸出如下結(jié)果:
?
name: b???? age 20;???? name: c???? age 21;???? name: d???? age 22;????? name: e???? age 23;???? name: f???? age 24;
name:age 0;????? name:age 0;????? name:age 0;name:age 0;????? name:????? age 0;
|
?
從程序的運(yùn)行結(jié)果中可以得出的結(jié)論
1
、
最終被映射文件的內(nèi)容的長度不會(huì)超過文件本身的初始大小,即映射不能改變文件的大小;
2
、
可以用于進(jìn)程通信的有效地址空間大小大體上受限于被映射文件的大小,但不完全受限于文件大小。打開文件被截短為
5
個(gè)
people
結(jié)構(gòu)大小,而在
map_normalfile1
中初始化了
10
個(gè)
people
數(shù)據(jù)結(jié)構(gòu),在恰當(dāng)時(shí)候(
map_normalfile1
輸出
initialize over
之后,輸出
umap ok
之前)調(diào)用
map_normalfile2
會(huì)發(fā)現(xiàn)
map_normalfile2
將輸出全部
10
個(gè)
people
結(jié)構(gòu)的值,后面將給出詳細(xì)討論。
注:在
linux
中,內(nèi)存的保護(hù)是以頁為基本單位的,即使被映射文件只有一個(gè)字節(jié)大小,內(nèi)核也會(huì)為映射分配一個(gè)頁面大小的內(nèi)存。當(dāng)被映射文件小于一個(gè)頁面大小時(shí),進(jìn)程可以對從
mmap()
返回地址開始的一個(gè)頁面大小進(jìn)行訪問,而不會(huì)出錯(cuò);但是,如果對一個(gè)頁面以外的地址空間進(jìn)行訪問,則導(dǎo)致錯(cuò)誤發(fā)生,后面將進(jìn)一步描述。因此,可用于進(jìn)程間通信的有效地址空間大小不會(huì)超過文件大小及一個(gè)頁面大小的和。
3
、
文件一旦被映射后,調(diào)用
mmap()
的進(jìn)程對返回地址的訪問是對某一內(nèi)存區(qū)域的訪問,暫時(shí)脫離了磁盤上文件的影響。所有對
mmap()
返回地址空間的操作只在內(nèi)存中有意義,只有在調(diào)用了
munmap()
后或者
msync()
時(shí),才把內(nèi)存中的相應(yīng)內(nèi)容寫回磁盤文件,所寫內(nèi)容仍然不能超過文件的大小。
范例
2
:父子進(jìn)程通過匿名映射實(shí)現(xiàn)共享內(nèi)存
?
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
????? char name[4];
????? int? age;
}people;
main(int argc, char** argv)
{
????? int i;
????? people *p_map;
????? char temp;
????? p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0);
????? if(fork() == 0)
????? {
??????????? sleep(2);
??????????? for(i = 0;i<5;i++)
????????????????? printf("child read: the %d people's age is %d\n",i+1,(*(p_map+i)).age);
??????????? (*p_map).age = 100;
??????????? munmap(p_map,sizeof(people)*10); //
實(shí)際上,進(jìn)程終止時(shí),會(huì)自動(dòng)解除映射。
??????????? exit();
????? }
????? temp = 'a';
????? for(i = 0;i<5;i++)
????? {
??????????? temp += 1;
??????????? memcpy((*(p_map+i)).name, &temp,2);
??????????? (*(p_map+i)).age=20+i;
????? }
?
????? sleep(5);
????? printf( "parent read: the first people,s age is %d\n",(*p_map).age );
????? printf("umap\n");
????? munmap( p_map,sizeof(people)*10 );
????? printf( "umap ok\n" );
}
|
?
考察程序的輸出結(jié)果,體會(huì)父子進(jìn)程匿名共享內(nèi)存:
?
child read: the 1 people's age is 20
child read: the 2 people's age is 21
child read: the 3 people's age is 22
child read: the 4 people's age is 23
child read: the 5 people's age is 24
?
parent read: the first people,s age is 100
umap
umap ok
|
?
?
四、對
mmap()
返回地址的訪問
前面對范例運(yùn)行結(jié)構(gòu)的討論中已經(jīng)提到,
linux
采用的是頁式管理機(jī)制。對于用
mmap()
映射普通文件來說,進(jìn)程會(huì)在自己的地址空間新增一塊空間,空間大小由
mmap()
的
len
參數(shù)指定,注意,進(jìn)程并不一定能夠?qū)θ啃略隹臻g都能進(jìn)行有效訪問。進(jìn)程能夠訪問的有效地址大小取決于文件被映射部分的大小。簡單的說,能夠容納文件被映射部分大小的最少頁面?zhèn)€數(shù)決定了進(jìn)程從
mmap()
返回的地址開始,能夠有效訪問的地址空間大小。超過這個(gè)空間大小,內(nèi)核會(huì)根據(jù)超過的嚴(yán)重程度返回發(fā)送不同的信號給進(jìn)程。可用如下圖示說明:
注意:文件被映射部分而不是整個(gè)文件決定了進(jìn)程能夠訪問的空間大小,另外,如果指定文件的偏移部分,一定要注意為頁面大小的整數(shù)倍。下面是對進(jìn)程映射地址空間的訪問范例:
?
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
????? char name[4];
????? int? age;
}people;
?
main(int argc, char** argv)
{
????? int fd,i;
????? int pagesize,offset;
????? people *p_map;
?????
????? pagesize = sysconf(_SC_PAGESIZE);
????? printf("pagesize is %d\n",pagesize);
????? fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
????? lseek(fd,pagesize*2-100,SEEK_SET);
????? write(fd,"",1);
????? offset = 0;//
此處
offset = 0
編譯成版本
1
;
offset = pagesize
編譯成版本
2
????? p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset);
????? close(fd);
?????
????? for(i = 1; i<10; i++)
????? {
??????????? (*(p_map+pagesize/sizeof(people)*i-2)).age = 100;
??????????? printf("access page %d over\n",i);
??????????? (*(p_map+pagesize/sizeof(people)*i-1)).age = 100;
??????????? printf("access page %d edge over, now begin to access page %d\n",i, i+1);
??????????? (*(p_map+pagesize/sizeof(people)*i)).age = 100;
??????????? printf("access page %d over\n",i+1);
????? }
????? munmap(p_map,sizeof(people)*10);
}
|
?
如程序中所注釋的那樣,把程序編譯成兩個(gè)版本,兩個(gè)版本主要體現(xiàn)在文件被映射部分的大小不同。文件的大小介于一個(gè)頁面與兩個(gè)頁面之間(大小為:
pagesize*2-99
),版本
1
的被映射部分是整個(gè)文件,版本
2
的文件被映射部分是文件大小減去一個(gè)頁面后的剩余部分,不到一個(gè)頁面大小
(
大小為:
pagesize-99)
。程序中試圖訪問每一個(gè)頁面邊界,兩個(gè)版本都試圖在進(jìn)程空間中映射
pagesize*3
的字節(jié)數(shù)。
版本
1
的輸出結(jié)果如下:
?
pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
access page 2 over
access page 2 over
access page 2 edge over, now begin to access page 3
Bus error???????? //
被映射文件在進(jìn)程空間中覆蓋了兩個(gè)頁面,此時(shí),進(jìn)程試圖訪問第三個(gè)頁面
|
?
版本
2
的輸出結(jié)果如下:
?
pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
Bus error???????? //
被映射文件在進(jìn)程空間中覆蓋了一個(gè)頁面,此時(shí),進(jìn)程試圖訪問第二個(gè)頁面
|
?
結(jié)論:采用系統(tǒng)調(diào)用
mmap()
實(shí)現(xiàn)進(jìn)程間通信是很方便的,在應(yīng)用層上接口非常簡潔。內(nèi)部實(shí)現(xiàn)機(jī)制區(qū)涉及到了
linux
存儲管理以及文件系統(tǒng)等方面的內(nèi)容,可以參考一下相關(guān)重要數(shù)據(jù)結(jié)構(gòu)來加深理解。在本專題的后面部分,將介紹系統(tǒng)
v
共享內(nèi)存的實(shí)現(xiàn)。
?
共享內(nèi)存(下)
在共享內(nèi)存(上)中,主要圍繞著系統(tǒng)調(diào)用
mmap()
進(jìn)行討論的,本部分將討論系統(tǒng)
V
共享內(nèi)存,并通過實(shí)驗(yàn)結(jié)果對比來闡述兩者的異同。系統(tǒng)
V
共享內(nèi)存指的是把所有共享數(shù)據(jù)放在共享內(nèi)存區(qū)域(
IPC shared memory region
),任何想要訪問該數(shù)據(jù)的進(jìn)程都必須在本進(jìn)程的地址空間新增一塊內(nèi)存區(qū)域,用來映射存放共享數(shù)據(jù)的物理內(nèi)存頁面。
系統(tǒng)調(diào)用
mmap()
通過映射一個(gè)普通文件實(shí)現(xiàn)共享內(nèi)存。系統(tǒng)
V
則是通過映射特殊文件系統(tǒng)
shm
中的文件實(shí)現(xiàn)進(jìn)程間的共享內(nèi)存通信。也就是說,每個(gè)共享內(nèi)存區(qū)域?qū)?yīng)特殊文件系統(tǒng)
shm
中的一個(gè)文件(這是通過
shmid_kernel
結(jié)構(gòu)聯(lián)系起來的),后面還將闡述。
1
、系統(tǒng)
V
共享內(nèi)存原理
進(jìn)程間需要共享的數(shù)據(jù)被放在一個(gè)叫做
IPC
共享內(nèi)存區(qū)域的地方,所有需要訪問該共享區(qū)域的進(jìn)程都要把該共享區(qū)域映射到本進(jìn)程的地址空間中去。系統(tǒng)
V
共享內(nèi)存通過
shmget
獲得或創(chuàng)建一個(gè)
IPC
共享內(nèi)存區(qū)域,并返回相應(yīng)的標(biāo)識符。內(nèi)核在保證
shmget
獲得或創(chuàng)建一個(gè)共享內(nèi)存區(qū),初始化該共享內(nèi)存區(qū)相應(yīng)的
shmid_kernel
結(jié)構(gòu)注同時(shí),還將在特殊文件系統(tǒng)
shm
中,創(chuàng)建并打開一個(gè)同名文件,并在內(nèi)存中建立起該文件的相應(yīng)
dentry
及
inode
結(jié)構(gòu),新打開的文件不屬于任何一個(gè)進(jìn)程(任何進(jìn)程都可以訪問該共享內(nèi)存區(qū))。所有這一切都是系統(tǒng)調(diào)用
shmget
完成的。
注:每一個(gè)共享內(nèi)存區(qū)都有一個(gè)控制結(jié)構(gòu)
struct shmid_kernel
,
shmid_kernel
是共享內(nèi)存區(qū)域中非常重要的一個(gè)數(shù)據(jù)結(jié)構(gòu),它是存儲管理和文件系統(tǒng)結(jié)合起來的橋梁,定義如下:
?
struct shmid_kernel /* private to the kernel */
{????
????? struct kern_ipc_perm??? shm_perm;
????? struct file *?????????? shm_file;
????? int?????????????? id;
????? unsigned long?????????? shm_nattch;
????? unsigned long?????????? shm_segsz;
????? time_t????????????????? shm_atim;
????? time_t????????????????? shm_dtim;
????? time_t????????????????? shm_ctim;
????? pid_t???????????? shm_cprid;
????? pid_t???????????? shm_lprid;
};
|
?
該結(jié)構(gòu)中最重要的一個(gè)域應(yīng)該是
shm_file
,它存儲了將被映射文件的地址。每個(gè)共享內(nèi)存區(qū)對象都對應(yīng)特殊文件系統(tǒng)
shm
中的一個(gè)文件,一般情況下,特殊文件系統(tǒng)
shm
中的文件是不能用
read()
、
write()
等方法訪問的,當(dāng)采取共享內(nèi)存的方式把其中的文件映射到進(jìn)程地址空間后,可直接采用訪問內(nèi)存的方式對其訪問。
這里我們采用
[1]
中的圖表給出與系統(tǒng)
V
共享內(nèi)存相關(guān)數(shù)據(jù)結(jié)構(gòu):
正如消息隊(duì)列和信號燈一樣,內(nèi)核通過數(shù)據(jù)結(jié)構(gòu)
struct ipc_ids shm_ids
維護(hù)系統(tǒng)中的所有共享內(nèi)存區(qū)域。上圖中的
shm_ids.entries
變量指向一個(gè)
ipc_id
結(jié)構(gòu)數(shù)組,而每個(gè)
ipc_id
結(jié)構(gòu)數(shù)組中有個(gè)指向
kern_ipc_perm
結(jié)構(gòu)的指針。到這里讀者應(yīng)該很熟悉了,對于系統(tǒng)
V
共享內(nèi)存區(qū)來說,
kern_ipc_perm
的宿主是
shmid_kernel
結(jié)構(gòu),
shmid_kernel
是用來描述一個(gè)共享內(nèi)存區(qū)域的,這樣內(nèi)核就能夠控制系統(tǒng)中所有的共享區(qū)域。同時(shí),在
shmid_kernel
結(jié)構(gòu)的
file
類型指針
shm_file
指向文件系統(tǒng)
shm
中相應(yīng)的文件,這樣,共享內(nèi)存區(qū)域就與
shm
文件系統(tǒng)中的文件對應(yīng)起來。
在創(chuàng)建了一個(gè)共享內(nèi)存區(qū)域后,還要將它映射到進(jìn)程地址空間,系統(tǒng)調(diào)用
shmat()
完成此項(xiàng)功能。由于在調(diào)用
shmget()
時(shí),已經(jīng)創(chuàng)建了文件系統(tǒng)
shm
中的一個(gè)同名文件與共享內(nèi)存區(qū)域相對應(yīng),因此,調(diào)用
shmat()
的過程相當(dāng)于映射文件系統(tǒng)
shm
中的同名文件過程,原理與
mmap()
大同小異。
?
?
2
、系統(tǒng)
V
共享內(nèi)存
API
對于系統(tǒng)
V
共享內(nèi)存,主要有以下幾個(gè)
API
:
shmget()
、
shmat()
、
shmdt()
及
shmctl()
。
?
#include <sys/ipc.h>
#include <sys/shm.h>
|
?
shmget
()用來獲得共享內(nèi)存區(qū)域的
ID
,如果不存在指定的共享區(qū)域就創(chuàng)建相應(yīng)的區(qū)域。
shmat()
把共享內(nèi)存區(qū)域映射到調(diào)用進(jìn)程的地址空間中去,這樣,進(jìn)程就可以方便地對共享區(qū)域進(jìn)行訪問操作。
shmdt()
調(diào)用用來解除進(jìn)程對共享內(nèi)存區(qū)域的映射。
shmctl
實(shí)現(xiàn)對共享內(nèi)存區(qū)域的控制操作。這里我們不對這些系統(tǒng)調(diào)用作具體的介紹,讀者可參考相應(yīng)的手冊頁面,后面的范例中將給出它們的調(diào)用方法。
注:
shmget
的內(nèi)部實(shí)現(xiàn)包含了許多重要的系統(tǒng)
V
共享內(nèi)存機(jī)制;
shmat
在把共享內(nèi)存區(qū)域映射到進(jìn)程空間時(shí),并不真正改變進(jìn)程的頁表。當(dāng)進(jìn)程第一次訪問內(nèi)存映射區(qū)域訪問時(shí),會(huì)因?yàn)闆]有物理頁表的分配而導(dǎo)致一個(gè)缺頁異常,然后內(nèi)核再根據(jù)相應(yīng)的存儲管理機(jī)制為共享內(nèi)存映射區(qū)域分配相應(yīng)的頁表。
?
?
3
、系統(tǒng)
V
共享內(nèi)存限制
在
/proc/sys/kernel/
目錄下,記錄著系統(tǒng)
V
共享內(nèi)存的一下限制,如一個(gè)共享內(nèi)存區(qū)的最大字節(jié)數(shù)
shmmax
,系統(tǒng)范圍內(nèi)最大共享內(nèi)存區(qū)標(biāo)識符數(shù)
shmmni
等,可以手工對其調(diào)整,但不推薦這樣做。
在
[2]
中,給出了這些限制的測試方法,不再贅述。
?
?
4
、系統(tǒng)
V
共享內(nèi)存范例
本部分將給出系統(tǒng)
V
共享內(nèi)存
API
的使用方法,并對比分析系統(tǒng)
V
共享內(nèi)存機(jī)制與
mmap()
映射普通文件實(shí)現(xiàn)共享內(nèi)存之間的差異,首先給出兩個(gè)進(jìn)程通過系統(tǒng)
V
共享內(nèi)存通信的范例:
?
/***** testwrite.c *******/
#include <sys/ipc.h>
#include <sys/shm.h>
#include <sys/types.h>
#include <unistd.h>
typedef struct{
????? char name[4];
????? int age;
} people;
main(int argc, char** argv)
{
????? int shm_id,i;
????? key_t key;
????? char temp;
????? people *p_map;
????? char* name = "/dev/shm/myshm2";
????? key = ftok(name,0);
????? if(key==-1)
??????????? perror("ftok error");
????? shm_id=shmget(key,4096,IPC_CREAT);??
????? if(shm_id==-1)
????? {
??????????? perror("shmget error");
??????????? return;
????? }
????? p_map=(people*)shmat(shm_id,NULL,0);
????? temp='a';
????? for(i = 0;i<10;i++)
????? {
??????????? temp+=1;
??????????? memcpy((*(p_map+i)).name,&temp,1);
??????????? (*(p_map+i)).age=20+i;
????? }
????? if(shmdt(p_map)==-1)
??????????? perror(" detach error ");
}
/********** testread.c ************/
#include <sys/ipc.h>
#include <sys/shm.h>
#include <sys/types.h>
#include <unistd.h>
typedef struct{
????? char name[4];
????? int age;
} people;
main(int argc, char** argv)
{
????? int shm_id,i;
????? key_t key;
????? people *p_map;
????? char* name = "/dev/shm/myshm2";
????? key = ftok(name,0);
????? if(key == -1)
??????????? perror("ftok error");
????? shm_id = shmget(key,4096,IPC_CREAT);
????? if(shm_id == -1)
????? {
??????????? perror("shmget error");
??????????? return;
????? }
????? p_map = (people*)shmat(shm_id,NULL,0);
????? for(i = 0;i<10;i++)
????? {
????? printf( "name:%s\n",(*(p_map+i)).name );
????? printf( "age %d\n",(*(p_map+i)).age );
????? }
????? if(shmdt(p_map) == -1)
??????????? perror(" detach error ");
}
|
?
testwrite.c
創(chuàng)建一個(gè)系統(tǒng)
V
共享內(nèi)存區(qū),并在其中寫入格式化數(shù)據(jù);
testread.c
訪問同一個(gè)系統(tǒng)
V
共享內(nèi)存區(qū),讀出其中的格式化數(shù)據(jù)。分別把兩個(gè)程序編譯為
testwrite
及
testread
,先后執(zhí)行
./testwrite
及
./testread
則
./testread
輸出結(jié)果如下:
?
name: b???? age 20;???? name: c???? age 21;???? name: d???? age 22;????? name: e???? age 23;???? name: f???? age 24;
name: g???? age 25;???? name: h???? age 26;???? name: I???? age 27;????? name: j???? age 28;???? name: k???? age 29;
|
?
通過對試驗(yàn)結(jié)果分析,對比系統(tǒng)
V
與
mmap()
映射普通文件實(shí)現(xiàn)共享內(nèi)存通信,可以得出如下結(jié)論:
1
、
系統(tǒng)
V
共享內(nèi)存中的數(shù)據(jù),從來不寫入到實(shí)際磁盤文件中去;而通過
mmap()
映射普通文件實(shí)現(xiàn)的共享內(nèi)存通信可以指定何時(shí)將數(shù)據(jù)寫入磁盤文件中。注:前面講到,系統(tǒng)
V
共享內(nèi)存機(jī)制實(shí)際是通過映射特殊文件系統(tǒng)
shm
中的文件實(shí)現(xiàn)的,文件系統(tǒng)
shm
的安裝點(diǎn)在交換分區(qū)上,系統(tǒng)重新引導(dǎo)后,所有的內(nèi)容都丟失。
2
、
系統(tǒng)
V
共享內(nèi)存是隨內(nèi)核持續(xù)的,即使所有訪問共享內(nèi)存的進(jìn)程都已經(jīng)正常終止,共享內(nèi)存區(qū)仍然存在(除非顯式刪除共享內(nèi)存),在內(nèi)核重新引導(dǎo)之前,對該共享內(nèi)存區(qū)域的任何改寫操作都將一直保留。
3
、
通過調(diào)用
mmap()
映射普通文件進(jìn)行進(jìn)程間通信時(shí),一定要注意考慮進(jìn)程何時(shí)終止對通信的影響。而通過系統(tǒng)
V
共享內(nèi)存實(shí)現(xiàn)通信的進(jìn)程則不然。注:這里沒有給出
shmctl
的使用范例,原理與消息隊(duì)列大同小異。
?
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1006744