一個大型的應用系統,往往需要眾多進程協作,進程(Linux進程概念見附1)間通信的重要性顯而易見。本系列文章闡述了 Linux環境下的幾種主要進程間通信手段,并針對每個通信手段關鍵技術環節給出詳細實例。為達到闡明問題的目的,本文還對某些通信手段的內部實現機制進 行了分析。
linux 下的進程通信手段基本上是從Unix平臺上的進程通信手段繼承而來的。而對Unix發展做出重大貢獻的兩大主力AT&T的貝爾實驗室及BSD(加 州大學伯克利分校的伯克利軟件發布中心)在進程間通信方面的側重點有所不同。前者對Unix早期的進程間通信手段進行了系統的改進和擴充,形成了 “system V IPC”,通信進程局限在單個計算機內;后者則跳過了該限制,形成了基于套接口(socket)的進程間通信機制。Linux則把兩者繼承了下來,如圖 示:
其 中,最初Unix IPC包括:管道、FIFO、信號;System V IPC包括:System V消息隊列、System V信號燈、System V共享內存區;Posix IPC包括: Posix消息隊列、Posix信號燈、Posix共享內存區。有兩點需要簡單說明一下:1)由于Unix版本的多樣性,電子電氣工程協會(IEEE)開 發了一個獨立的Unix標準,這個新的ANSI Unix標準被稱為計算機環境的可移植性操作系統界面(PSOIX)。現有大部分Unix和流行版本都是遵循POSIX標準的,而Linux從一開始就遵 循POSIX標準;2)BSD并不是沒有涉足單機內的進程間通信(socket本身就可以用于單機內的進程間通信)。事實上,很多Unix版本的單機 IPC留有BSD的痕跡,如4.4BSD支持的匿名內存映射、4.3+BSD對可靠信號語義的實現等等。
圖 一給出了linux 所支持的各種IPC手段,在本文接下來的討論中,為了避免概念上的混淆,在盡可能少提及Unix的各個版本的情況下,所有問題的討論最終都會歸結到Linux環境下的進程間通信上來。并且,對于Linux所支持通信手段的不同實現版本(如對于共享內存來說,有Posix共享內存區以及System V共享內存區兩個實現版本),將主要介紹Posix API。
linux下進程間通信的幾種主要手段簡介:
1. 管道(Pipe)及有名管道(named pipe):
管道可用于具有親緣關系進程間的通信,有名管道克服了管道沒有名字的限制,因此,除具有管道所具有的功能外,它還允許無親緣關系進程間的通信;
2. 信 號(Signal):
信號是比較復雜的通信方式,用于通知接受進程有某種事件發生,除了用于進程間通信外,進程還可以發送信號給進程本身;linux除了 支持Unix早期信號語義函數sigal外,還支持語義符合Posix.1標準的信號函數sigaction(實際上,該函數是基于BSD的,BSD為了 實現可靠信號機制,又能夠統一對外接口,用sigaction函數重新實現了signal函數);
3. 報文(Message)隊列(消息隊列):
消息隊列是消息的鏈接表,包括Posix消息隊列system V消息隊列。有足夠權限的進程可以向隊列中添加消息,被賦予讀權限的進程則可以讀走隊列中的消息。消息隊列克服了信號承載信息量少,管道只能承載無格式字節流以及緩沖區大小受限等缺點。
4. 共享內存:
使得多個進程可以訪問同一塊內存空間,是最快的可用IPC形式。是針對其他通信機制運行效率較低而設計的。往往與其它通信機制,如信號量結合使用,來達到進程間的同步及互斥。
5. 信號量(semaphore):
主要作為進程間以及同一進程不同線程之間的同步手段。
6. 套接口(Socket):
更為一般的進程間通信機制,可用于不同機器之間的進程間通信。起初是由Unix系統的BSD分支開發出來的,但現在一般可以移植到其它類Unix系統上:Linux和System V的變種都支持套接字。
下面將對上述通信機制做具體闡述。
一般來說,linux下的進程包含以下幾個關鍵要素:
· 有一段可執行程序;
· 有專用的系統堆棧空間;
· 內核中有它的控制塊(進程控制塊),描述進程所占用的資源,這樣,進程才能接受內核的調度;
· 具有獨立的存儲空間
進程和線程有時候并不完全區分,而往往根據上下文理解其含義。
· UNIX環境高級編程,作者:W.Richard Stevens,譯者:尤晉元等,機械工業出版社。具有豐富的編程實例,以及關鍵函數伴隨Unix的發展歷程。
· linux內核源代碼情景分析(上、下),毛德操、胡希明著,浙江大學出版社,提供了對linux內核非常好的分析,同時,對一些關鍵概念的背景進行了詳細的說明;對linux環境下的進程進行了概括說明。
· UNIX網絡編程第二卷:進程間通信,作者:W.Richard Stevens,譯者:楊繼張,清華大學出版社。一本比較全面闡述Unix環境下進程間通信的書(沒有信號和套接口,套接口在第一卷中)。
進程間通信與應用程序間通信及其實現技術
---- 摘 要 本文討論了進程間通信與應用程序間通信的含義及相應的實現技術,并對這些技術的原理、特性等進行了深入的分析和比較。
---- 關鍵詞 信號 管道 消息隊列 共享存儲段 信號燈 遠程過程調用 Socket套接字MQSeries
1 引言
---- 進程間通信的主要目的是實現同一計算機系統內部的相互協作的進程之間的數據共享與信息交換,由于這些進程處于同一軟件和硬件環境下,利用操作系統提供的的 編程接口,用戶可以方便地在程序中實現這種通信;應用程序間通信的主要目的是實現不同計算機系統中的相互協作的應用程序之間的數據共享與信息交換,由于應 用程序分別運行在不同計算機系統中,它們之間要通過網絡之間的協議才能實現數據共享與信息交換。進程間通信和應用程序間通信及相應的實現技術有許多相同之 處,也各有自己的特色。即使是同一類型的通信也有多種的實現方法,以適應不同情況的需要。
---- 為了充分認識和掌握這兩種通信及相應的實現技術,本文將就以下幾個方面對這兩種通信進行深入的討論:問題的由來、解決問題的策略和方法、每種方法的工作原理和實現、每種實現方法的特點和適用的范圍等。
2 進程間的通信及其實現技術
---- 用戶提交給計算機的任務最終都是通過一個個的進程來完成的。在一組并發進程中的任何兩個進程之間,如果都不存在公共變量,則稱該組進程為不相交的。在不相 交的進程組中,每個進程都獨立于其它進程,它的運行環境與順序程序一樣,而且它的運行環境也不為別的進程所改變。運行的結果是確定的,不會發生與時間相關 的錯誤。
---- 但是,在實際中,并發進程的各個進程之間并不是完全互相獨立的,它們之間往往存在著相互制約的關系。進程之間的相互制約關系表現為兩種方式:
---- (1) 間接相互制約:共享CPU
---- (2) 直接相互制約:競爭和協作
---- 競爭——進程對共享資源的競爭。為保證進程互斥地訪問共享資源,各進程必須互斥地進入各自的臨界段。
---- 協作——進程之間交換數據。為完成一個共同任務而同時運行的一組進程稱為同組進程,它們之間必須交換數據,以達到協作完成任務的目的,交換數據可以通知對方可以做某事或者委托對方做某事。
---- 共享CPU問題由操作系統的進程調度來實現,進程間的競爭和協作由進程間的通信來完成。進程間的通信一般由操作系統提供編程接口,由程序員在程序中實現。UNIX在這個方面可以說最具特色,它提供了一整套進程間的數據共享與信息交換的處理方法——進程通信機制(IPC)。因此,我們就以UNIX為例來分析 進程間通信的各種實現技術。
---- 在UNIX中,文件(File)、信號(Signal)、無名管道(Unnamed Pipes)、有名管道(FIFOs)是傳統IPC功能;新的IPC功能包括消息隊列(Message queues)、共享存儲段(Shared memory segment)和信號燈(Semapores)。
---- (1) 信號
---- 信號機制是UNIX為進程中斷處理而設置的。它只是一組預定義的值,因此不能用于信息交換,僅用于進程中斷控制。例如在發生浮點錯、非法內存訪問、執行無 效指令、某些按鍵(如ctrl-c、del等)等都會產生一個信號,操作系統就會調用有關的系統調用或用戶定義的處理過程來處理。
---- 信號處理的系統調用是signal,調用形式是:
---- signal(signalno,action)
---- 其中,signalno是規定信號編號的值,action指明當特定的信號發生時所執行的動作。
---- (2) 無名管道和有名管道
---- 無名管道實際上是內存中的一個臨時存儲區,它由系統安全控制,并且獨立于創建它的進程的內存區。管道對數據采用先進先出方式管理,并嚴格按順序操作,例如不能對管道進行搜索,管道中的信息只能讀一次。
---- 無名管道只能用于兩個相互協作的進程之間的通信,并且訪問無名管道的進程必須有共同的祖先。
---- 系統提供了許多標準管道庫函數,如:
pipe()——打開一個可以讀寫的管道;
close()——關閉相應的管道;
read()——從管道中讀取字符;
write()——向管道中寫入字符;
---- 有名管道的操作和無名管道類似,不同的地方在于使用有名管道的進程不需要具有共同的祖先,其它進程,只要知道該管道的名字,就可以訪問它。管道非常適合進程之間快速交換信息。
---- (3) 消息隊列(MQ)
---- 消息隊列是內存中獨立于生成它的進程的一段存儲區,一旦創建消息隊列,任何進程,只要具有正確的的訪問權限,都可以訪問消息隊列,消息隊列非常適合于在進程間交換短信息。
---- 消息隊列的每條消息由類型編號來分類,這樣接收進程可以選擇讀取特定的消息類型——這一點與管道不同。消息隊列在創建后將一直存在,直到使用msgctl系統調用或iqcrm -q命令刪除它為止。
---- 系統提供了許多有關創建、使用和管理消息隊列的系統調用,如:
---- int msgget(key,flag)——創建一個具有flag權限的MQ及其相應的結構,并返回一個唯一的正整數msqid(MQ的標識符);
---- int msgsnd(msqid,msgp,msgsz,msgtyp,flag)——向隊列中發送信息;
---- int msgrcv(msqid,cmd,buf)——從隊列中接收信息;
---- int msgctl(msqid,cmd,buf)——對MQ的控制操作;
---- (4) 共享存儲段(SM)
---- 共享存儲段是主存的一部分,它由一個或多個獨立的進程共享。各進程的數據段與共享存儲段相關聯,對每個進程來說,共享存儲段有不同的虛擬地址。系統提供的有關SM的系統調用有:
---- int shmget(key,size,flag)——創建大小為size的SM段,其相應的數據結構名為key,并返回共享內存區的標識符shmid;
---- char shmat(shmid,address,flag)——將當前進程數據段的地址賦給shmget所返回的名為shmid的SM段;
---- int shmdr(address)——從進程地址空間刪除SM段;
---- int shmctl (shmid,cmd,buf)——對SM的控制操作;
---- SM的大小只受主存限制,SM段的訪問及進程間的信息交換可以通過同步讀寫來完成。同步通常由信號燈來實現。SM非常適合進程之間大量數據的共享。
---- (5) 信號燈
---- 在UNIX中,信號燈是一組進程共享的數據結構,當幾個進程競爭同一資源時(文件、共享內存或消息隊列等),它們的操作便由信號燈來同步,以防止互相干擾。
---- 信號燈保證了某一時刻只有一個進程訪問某一臨界資源,所有請求該資源的其它進程都將被掛起,一旦該資源得到釋放,系統才允許其它進程訪問該資源。信號燈通常配對使用,以便實現資源的加鎖和解鎖。
---- 進程間通信的實現技術的特點是:操作系統提供實現機制和編程接口,由用戶在程序中實現,保證進程間可以進行快速的信息交換和大量數據的共享。但是,上述方式主要適合在同一臺計算機系統內部的進程之間的通信。
3 應用程序間的通信及其實現技術
---- 同進程之間的相互制約一樣,不同的應用程序之間也存在競爭和協作的關系。UNIX操作系統也提供一些可用于應用程序之間實現數據共享與信息交換的編程接 口,程序員可以通過自己編程來實現。如遠程過程調用和基于TCP/IP協議的套接字(Socket)編程。但是,相對普通程序員來說,它們涉及的技術比較 深,編程也比較復雜,實現起來困難較大。
---- 于是,一種新的技術應運而生——通過將有關通信的細節完全掩蓋在某個獨立軟件內部,即底層的通訊工作和相應的維護管理工作由該軟件內部來實現,用戶只需要將通信任務提交給該軟件去完成,而不必理會它的具體工作過程——這就是所謂的中間件技術。
---- 我們在這里分別討論這三種常用的應用程序間通信的實現技術——遠程過程調用、會話編程技術和MQSeries消息隊列技術。其中遠程過程調用和會話編程屬 于比較低級的方式,程序員參與的程度較深,而MQSeries消息隊列則屬于比較高級的方式,即中間件方式,程序員參與的程度較淺。
---- 3.1 遠程過程調用(RPC)
---- 遠程過程調用是按下述方式工作的:當一個應用程序A需要與遠程的另一個應用程序B交換信息或要求B提供協助時,A將在本地產生一個請求,通過通訊鏈路,通知B接收信息或提供相應的服務,B完成相關處理后將確認信息或結果返回給A。
---- RPC機制強調通信的兩個應用程序所處的環境和平臺中必須是相同的,而且必須同時處于運行狀態。做遠程調用時,兩者必須先建立連接,而且通訊鏈路質量對它的效果影響很大。
---- RPC的優點是應用程序采用調用/返回方式通訊,擁有很高的潛在效率,但需要應用程序間的緊密藕合,通訊線路必須在通信期間一直保持良好的狀態,而且必須進行大量的底層通訊的編程工作。
---- 3.2 會話編程
---- 會話編程類似于人們打電話,撥號——接通——說話——對方回答——掛機。基于TCP/IP協議的Socket編程就是一種典型的會話編程方式。它可適用于客戶/服務通信方式,還能適用于點——點通信方式。
---- 下面,我們分別介紹服務器端和客戶端的具體任務。
---- 服務器端
---- 服務進程首先創建一個套接口,使用Socket()調用;然后,將該套接口與本機的IP地址和某一空閑端口相關聯,使用Bind()調用;這時,服務端就 可以用Listen()調用來偵聽來自客戶程序的數據;套接口一旦處于聽模式,服務進程將可以接收一個連接,并允許傳遞數據,使用Accept()調用來 完成;最后使用Read()調用來讀入數據,同時,還可以用Write()調用來向發送進程寫回一些數據,如確認信息或回顯信息。
客戶端
---- 客戶進程也是首先創建一個套接口,使用Socket()調用;然后,客戶進程就使用Connect()調用試圖連接一個服務;連接成功之后,就可以利用Write()調用向服務器發送數據,同時,還可以使用Read()調用讀取服務器寫回的數據。
---- 目前的網絡一般都支持TCP/IP協議,UNIX和WINDOWS也都提供相應的編程接口,用戶可以隨心所欲地編制出合乎自己要求的通信程序。現行大多數 的應用程序間的通信采取的就是這種方式。但是,這種Socket編程技術,要求程序員必須熟悉相關概念,自己設計控制流程,客戶和服務進程必須相互配合且 必須都處于運行狀態,技術上有一定的難度。
---- 3.3 MQSeries消息隊列
---- 為了簡化應用程序間的通信,使得通信既具有較高的可靠性,又保證實現的簡單性,我們希望能有一種獨立的通信軟件,應用程序只需將任務提交給該軟件,由該軟 件自動去完成信息的傳遞工作,這即是我們前面提到的中間件技術。IBM公司的MQSeries就是基于這種技術的商業化產品。
---- 應用程序A和B位于同一計算機,而應用程序C位于遠程的其它計算機系統中。當應用程序A需要和B通訊時,它通過調用MQSeries接口將消息放入隊列 Q1,應用程序B在適當的時候讀取該消息,或消息本身到達后喚醒應用程序B。當應用程序A需要和C通訊時,它通過相同的方式將消息放入隊列Q2,應用程序 C在適當的時候讀取該消息。
---- 應用程序之間的消息傳遞是通過隊列來實現的,是間接的。由于不存在直接連接,C關閉時A仍然能正常運行,不僅如此,當C不在運行時,消息還可以觸發該程序。
---- MQSeries優點可以確保信息是永久的、可恢復的;確保信息成功發送且僅有一次發送,可以支持關鍵業務,如證券交易信息的傳遞;確保信息傳遞是保密 的;同時,使用MQSeries,不需要應用程序和通訊介質以及遠程應用程序之間的耦合,也不需要應用程序同時運行。MQSeries是應用程序間通信的 首選技術。
---- MQSeries接口提供的調用主要有:
---- MQCONN——連接一個隊列管理器,以后它發送和讀入的消息的所有消息都由這個隊列管理器管理;
---- MQOPEN——打開該應用程序所連接的隊列;
---- MQPUT——將消息寫入已打開的隊列中;
---- MQGET——從該隊列中讀出消息;
---- MQINQ——獲得關于隊列的屬性;
---- MQCLOSE——關閉隊列(對隊列執行完所有操作后);
---- MQPUT1——它執行三個操作,先調用MQOPEN打開隊列,然后調用MQPUT寫入一條消息,最后調用MQCLOSE關閉隊列;
---- MQDISC——斷開和隊列管理器的連接(對隊列管理器的所有操作完成后);
---- 3.4 三種實現技術的特性比較
表1清楚地列出了RPC、 Socket編程、MQSeries的不同特性。
比較項目 | Socket編程 | RPC | MQSeries |
屬性 | 會話 | 遠程調用 | 消息隊列 |
類型 | 會話 | 調用/返回 | 隊列 |
編程接口 | 非阻塞 | 阻塞 | 非阻塞 |
通信對方運行 | 是 | 是 | 否 |
應用程序類型 | 面向連接 | 面向連接 | 無連接 |
數據流模式 | 點-點,客戶機/服務器 | 客戶機/服務器 | 所有模式 |
邏輯路由 | 否 | 否 | 是 |
永久數據 | 否 | 否 | 是 |
表1 三種中間件的特性比較
4 結束語
---- 各種進程間通信和應用程序間通信的實現技術都具有自己的特點和使用范圍。管道、消息隊列、共享內存等技術最適用于同一計算機系統內部的進程間通信,以保證 高效率。而遠程過程調用、Socket會話編程、MQSeries則最適用于遠程的應用程序之間通信,可以簡化通信的編程,當然也保證通信的可靠性。尤其 是MQSeries,它是一個比較完善的中間件產品,為許多的信息系統所選用。如我公司的帳務系統與各金融系統的話費信息的交換選擇的就是 MQSeries。有時,在一個信息系統里面,既存在進程間通信的需求,也存在應用程序間通信的需求,這時就必須分別選擇兩種不同的實現技術。因此,在實 際信息系統建設的過程中,我們在選擇哪種實現技術時,應根據信息系統的不同情況和不同需求,根據系統開發和維護的成本,選擇一種或是幾種實現技術,以求得 整個系統的優化。
-
Linux環境進程間通信: 共享內存
采用共享內存通信的一個顯而易見的好處是效率高,因為進程可以直接讀寫內存,而不需要任何數據的拷貝。對于像管道和消息隊列等通信方式,則需要在內核和用戶空間進行四次的數據拷貝,而共享內存則只拷貝兩次數據[1]:一次從輸入文件到共享內存區,另一次從共享內存區到輸出文件。實際上,進程之間在共享內存時,并不總是讀寫少量數據后就解除映射,有新的通信時,再重新建立共享內存區域。而是保持共享區域,直到通信完畢為止,這樣,數據內容一直保存在共享內存中,并沒有寫回文件。共享內存中的內容往往是在解除映射時才寫回文件的。因此,采用共享內存的通信方式效率是非常高的。
Linux的2.2.x內核支持多種共享內存方式,如mmap()系統調用,Posix共享內存,以及系統V共享內存。linux發行版本如Redhat 8.0支持mmap()系統調用及系統V共享內存,但還沒實現Posix共享內存,本文將主要介紹mmap()系統調用及系統V共享內存API的原理及應用。
一、內核怎樣保證各個進程尋址到同一個共享內存區域的內存頁面
1、page cache及swap cache中頁面的區分:
一個被訪問文件的物理頁面都駐留在page cache或swap cache中,一個頁面的所有信息由struct page來描述。struct page中有一個域為指針mapping ,它指向一個struct address_space類型結構。page cache或swap cache中的所有頁面就是根據address_space結構以及一個偏移量來區分的。
2、文件與address_space結構的對應:
一個具體的文件在打開后,內核會在內存中為之建立一個struct inode結構,其中的i_mapping域指向一個address_space結構。這樣,一個文件就對應一個address_space結構,一個address_space與一個偏移量能夠確定一個page cache 或swap cache中的一個頁面。因此,當要尋址某個數據時,很容易根據給定的文件及數據在文件內的偏移量而找到相應的頁面。
3、進程調用mmap():
此時,只是在進程空間內新增了一塊相應大小的緩沖區,并設置了相應的訪問標識,但并沒有建立進程空間到物理頁面的映射。因此,第一次訪問該空間時,會引發一個缺頁異常。
4、對于共享內存映射情況:
缺頁異常處理程序首先在swap cache中尋找目標頁(符合address_space以及偏移量的物理頁),如果找到,則直接返回地址;如果沒有找到,則判斷該頁是否在交換區(swap area),如果在,則執行一個換入操作;如果上述兩種情況都不滿足,處理程序將分配新的物理頁面,并把它插入到page cache中。進程最終將更新進程頁表。 注:對于映射普通文件情況(非共享映射),缺頁異常處理程序首先會在page cache中根據address_space以及數據偏移量尋找相應的頁面。如果沒有找到,則說明文件數據還沒有讀入內存,處理程序會從磁盤讀入相應的頁面,并返回相應地址,同時,進程頁表也會更新。
5、所有進程在映射同一個共享內存區域時:
情況都一樣,在建立線性地址與物理地址之間的映射之后,不論進程各自的返回地址如何,實際訪問的必然是同一個共享內存區域對應的物理頁面。 注:一個共享內存區域可以看作是特殊文件系統shm中的一個文件,shm的安裝點在交換區上。
上面涉及到了一些數據結構,圍繞數據結構理解問題會容易一些。
二、mmap()及其相關系統調用
mmap()系統調用使得進程之間通過映射同一個普通文件實現共享內存。普通文件被映射到進程地址空間后,進程可以向訪問普通內存一樣對文件進行訪問,不必再調用read(),write()等操作。
注:實際上,mmap()系統調用并不是完全為了用于共享內存而設計的。它本身提供了不同于一般對普通文件的訪問方式,進程可以像讀寫內存一樣對普通文件的操作。而Posix或系統V的共享內存IPC則純粹用于共享目的,當然mmap()實現共享內存也是其主要應用之一。
1、mmap()系統調用形式如下:
void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset )
參數fd為即將映射到進程空間的文件描述字,一般由open()返回,同時,fd可以指定為-1,此時須指定flags參數中的MAP_ANON,表明進行的是匿名映射(不涉及具體的文件名,避免了文件的創建及打開,很顯然只能用于具有親緣關系的進程間通信)。len是映射到調用進程地址空間的字節數,它從被映射文件開頭offset個字節開始算起。prot 參數指定共享內存的訪問權限。可取如下幾個值的或:PROT_READ(可讀) , PROT_WRITE (可寫), PROT_EXEC (可執行), PROT_NONE(不可訪問)。flags由以下幾個常值指定:MAP_SHARED , MAP_PRIVATE , MAP_FIXED,其中,MAP_SHARED , MAP_PRIVATE必選其一,而MAP_FIXED則不推薦使用。offset參數一般設為0,表示從文件頭開始映射。參數addr指定文件應被映射到進程空間的起始地址,一般被指定一個空指針,此時選擇起始地址的任務留給內核來完成。函數的返回值為最后文件映射到進程空間的地址,進程可直接操作起始地址為該值的有效地址。這里不再詳細介紹mmap()的參數,讀者可參考mmap()手冊頁獲得進一步的信息。
2、系統調用mmap()用于共享內存的兩種方式:
(1)使用普通文件提供的內存映射:適用于任何進程之間;此時,需要打開或創建一個文件,然后再調用mmap();典型調用代碼如下:
ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 通過mmap()實現共享內存的通信方式有許多特點和要注意的地方,我們將在范例中進行具體說明。
2 使用特殊文件提供匿名內存映射:適用于具有親緣關系的進程之間;由于父子進程特殊的親緣關系,在父進程中先調用mmap(),然后調用fork()。那么在調用fork()之后,子進程繼承父進程匿名映射后的地址空間,同樣也繼承mmap()返回的地址,這樣,父子進程就可以通過映射區域進行通信了。注意,這里不是一般的繼承關系。一般來說,子進程單獨維護從父進程繼承下來的一些變量。而mmap()返回的地址,卻由父子進程共同維護。 對于具有親緣關系的進程實現共享內存最好的方式應該是采用匿名內存映射的方式。此時,不必指定具體的文件,只要設置相應的標志即可,參見范例2。
fd=open(name, flag, mode);
if(fd<0)
...
3、系統調用munmap()
int munmap( void * addr, size_t len ) 該調用在進程地址空間中解除一個映射關系,addr是調用mmap()時返回的地址,len是映射區的大小。當映射關系解除后,對原來映射地址的訪問將導致段錯誤發生。
4、系統調用msync()
int msync ( void * addr , size_t len, int flags) 一般說來,進程在映射空間的對共享內容的改變并不直接寫回到磁盤文件中,往往在調用munmap()后才執行該操作。可以通過調用msync()實現磁盤上文件內容與共享內存區的內容一致。
三、mmap()范例
下面將給出使用mmap()的兩個范例:范例1給出兩個進程通過映射普通文件實現共享內存通信;范例2給出父子進程通過匿名映射實現共享內存。系統調用mmap()有許多有趣的地方,下面是通過mmap()映射普通文件實現進程間的通信的范例,我們通過該范例來說明mmap()實現共享內存的特點及注意事項。
范例1:兩個進程通過映射普通文件實現共享內存通信
范例1包含兩個子程序:map_normalfile1.c及map_normalfile2.c。編譯兩個程序,可執行文件分別為map_normalfile1及map_normalfile2。兩個程序通過命令行參數指定同一個文件來實現共享內存方式的進程間通信。map_normalfile2試圖打開命令行參數指定的一個普通文件,把該文件映射到進程的地址空間,并對映射后的地址空間進行寫操作。map_normalfile1把命令行參數指定的文件映射到進程地址空間,然后對映射后的地址空間執行讀操作。這樣,兩個進程通過命令行參數指定同一個文件來實現共享內存方式的進程間通信。
下面是兩個程序代碼:
/*-------------map_normalfile2.c-----------*/
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;
main(int argc, char** argv) // map a normal file as shared mem:
{
int fd,i;
people *p_map;
char temp;
fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
lseek(fd,sizeof(people)*5-1,SEEK_SET);
write(fd,"",1);
p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 );
close( fd );
temp = 'a';
for(i=0; i<10; i++)
{
temp += 1;
memcpy( ( *(p_map+i) ).name, &temp,2 );
( *(p_map+i) ).age = 20+i;
}
printf(" initialize over /n ");
sleep(10);
munmap( p_map, sizeof(people)*10 );
printf( "umap ok /n" );
}
/*-------------map_normalfile2.c-----------*/
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;
main(int argc, char** argv) // map a normal file as shared mem:
{
int fd,i;
people *p_map;
fd=open( argv[1],O_CREAT|O_RDWR,00777 );
p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0);
for(i = 0;i<10;i++)
{
printf( "name: %s age %d;/n",(*(p_map+i)).name, (*(p_map+i)).age );
}
munmap( p_map,sizeof(people)*10 );
}
map_normalfile1.c首先定義了一個people數據結構,(在這里采用數據結構的方式是因為,共享內存區的數據往往是有固定格式的,這由通信的各個進程決定,采用結構的方式有普遍代表性)。map_normfile1首先打開或創建一個文件,并把文件的長度設置為5個people結構大小。然后從mmap()的返回地址開始,設置了10個people結構。然后,進程睡眠10秒鐘,等待其他進程映射同一個文件,最后解除映射。
map_normfile2.c只是簡單的映射一個文件,并以people數據結構的格式從mmap()返回的地址處讀取10個people結構,并輸出讀取的值,然后解除映射。
分別把兩個程序編譯成可執行文件map_normalfile1和map_normalfile2后,在一個終端上先運行./map_normalfile2 /tmp/test_shm,程序輸出結果如下:
initialize over
umap ok
在map_normalfile1輸出initialize over 之后,輸出umap ok之前,在另一個終端上運行map_normalfile2 /tmp/test_shm,將會產生如下輸出(為了節省空間,輸出結果為稍作整理后的結果):
name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24;
name: g age 25; name: h age 26; name: I age 27; name: j age 28; name: k age 29;
在map_normalfile1 輸出umap ok后,運行map_normalfile2則輸出如下結果:
name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24;
name: age 0; name: age 0; name: age 0; name: age 0; name: age 0;
從程序的運行結果中可以得出的結論
1、 最終被映射文件的內容的長度不會超過文件本身的初始大小,即映射不能改變文件的大小;
2、 可以用于進程通信的有效地址空間大小大體上受限于被映射文件的大小,但不完全受限于文件大小。打開文件被截短為5個people結構大小,而在map_normalfile1中初始化了10個people數據結構,在恰當時候(map_normalfile1輸出initialize over 之后,輸出umap ok之前)調用map_normalfile2會發現map_normalfile2將輸出全部10個people結構的值,后面將給出詳細討論。 注:在linux中,內存的保護是以頁為基本單位的,即使被映射文件只有一個字節大小,內核也會為映射分配一個頁面大小的內存。當被映射文件小于一個頁面大小時,進程可以對從mmap()返回地址開始的一個頁面大小進行訪問,而不會出錯;但是,如果對一個頁面以外的地址空間進行訪問,則導致錯誤發生,后面將進一步描述。因此,可用于進程間通信的有效地址空間大小不會超過文件大小及一個頁面大小的和。
3、 文件一旦被映射后,調用mmap()的進程對返回地址的訪問是對某一內存區域的訪問,暫時脫離了磁盤上文件的影響。所有對mmap()返回地址空間的操作只在內存中有意義,只有在調用了munmap()后或者msync()時,才把內存中的相應內容寫回磁盤文件,所寫內容仍然不能超過文件的大小。
范例2:父子進程通過匿名映射實現共享內存
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;
main(int argc, char** argv)
{
int i;
people *p_map;
char temp;
p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0);
if(fork() == 0)
{
sleep(2);
for(i = 0;i<5;i++)
printf("child read: the %d people's age is %d/n",i+1,(*(p_map+i)).age);
(*p_map).age = 100;
munmap(p_map,sizeof(people)*10); //實際上,進程終止時,會自動解除映射。
exit();
}
temp = 'a';
for(i = 0;i<5;i++)
{
temp += 1;
memcpy((*(p_map+i)).name, &temp,2);
(*(p_map+i)).age=20+i;
}
sleep(5);
printf( "parent read: the first people,s age is %d/n",(*p_map).age );
printf("umap/n");
munmap( p_map,sizeof(people)*10 );
printf( "umap ok/n" );
}
考察程序的輸出結果,體會父子進程匿名共享內存:
child read: the 1 people's age is 20
child read: the 2 people's age is 21
child read: the 3 people's age is 22
child read: the 4 people's age is 23
child read: the 5 people's age is 24
parent read: the first people,s age is 100
umap
umap ok
四、對mmap()返回地址的訪問
前面對范例運行結構的討論中已經提到,linux采用的是頁式管理機制。對于用mmap()映射普通文件來說,進程會在自己的地址空間新增一塊空間,空間大小由mmap()的len參數指定,注意,進程并不一定能夠對全部新增空間都能進行有效訪問。進程能夠訪問的有效地址大小取決于文件被映射部分d Settings/dangxin/My Documents/My Pictures/jincheng.JPG的大小。簡單的說,能夠容納文件被映射部分大小的最少頁面個數決定了進程從mmap()返回的地址開始,能夠有效訪問的地址空間大小。超過這個空間大小,內核會根據超過的嚴重程度返回發送不同的信號給進程。可用如下圖示說明:

注意:文件被映射部分而不是整個文件決定了進程能夠訪問的空間大小,另外,如果指定文件的偏移部分,一定要注意為頁面大小的整數倍。下面是對進程映射地址空間的訪問范例:
#include <sys/mman.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>
typedef struct{
char name[4];
int age;
}people;
main(int argc, char** argv)
{
int fd,i;
int pagesize,offset;
people *p_map;
pagesize = sysconf(_SC_PAGESIZE);
printf("pagesize is %d/n",pagesize);
fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
lseek(fd,pagesize*2-100,SEEK_SET);
write(fd,"",1);
offset = 0;
//此處offset = 0編譯成版本;offset = pagesize編譯成版本
p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset);
close(fd);
for(i = 1; i<10; i++)
{
(*(p_map+pagesize/sizeof(people)*i-2)).age = 100;
printf("access page %d over/n",i);
(*(p_map+pagesize/sizeof(people)*i-1)).age = 100;
printf("access page %d edge over, now begin to access page %d/n",i, i+1);
(*(p_map+pagesize/sizeof(people)*i)).age = 100;
printf("access page %d over/n",i+1);
}
munmap(p_map,sizeof(people)*10);
}
如程序中所注釋的那樣,把程序編譯成兩個版本,兩個版本主要體現在文件被映射部分的大小不同。文件的大小介于一個頁面與兩個頁面之間(大小為:pagesize*2-99),版本1的被映射部分是整個文件,版本2的文件被映射部分是文件大小減去一個頁面后的剩余部分,不到一個頁面大小(大小為:pagesize-99)。程序中試圖訪問每一個頁面邊界,兩個版本都試圖在進程空間中映射pagesize*3的字節數。
版本1的輸出結果如下:
pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
access page 2 over
access page 2 over
access page 2 edge over, now begin to access page 3
Bus error //被映射文件在進程空間中覆蓋了兩個頁面,此時,進程試圖訪問第三個頁面
版本2的輸出結果如下:
pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
Bus error //被映射文件在進程空間中覆蓋了一個頁面,此時,進程試圖訪問第二個頁面
結論:采用系統調用mmap()實現進程間通信是很方便的,在應用層上接口非常簡潔。內部實現機制區涉及到了linux存儲管理以及文件系統等方面的內容,可以參考一下相關重要數據結構來加深理解。