級(jí)別: 中級(jí)
M. Tim Jones (mtj@mtjones.com), 顧問工程師, Emulex
2006 年 9 月 28 日
Linux® 中最常用的輸入/輸出(I/O)模型是同步 I/O。在這個(gè)模型中,當(dāng)請(qǐng)求發(fā)出之后,應(yīng)用程序就會(huì)阻塞,直到請(qǐng)求滿足為止。這是很好的一種解決方案,因?yàn)檎{(diào)用應(yīng)用程序在等待 I/O 請(qǐng)求完成時(shí)不需要使用任何中央處理單元(CPU)。但是在某些情況中,I/O 請(qǐng)求可能需要與其他進(jìn)程產(chǎn)生交疊。可移植操作系統(tǒng)接口(POSIX)異步 I/O(AIO)應(yīng)用程序接口(API)就提供了這種功能。在本文中,我們將對(duì)這個(gè) API 概要進(jìn)行介紹,并來(lái)了解一下如何使用它。
AIO 簡(jiǎn)介
Linux 異步 I/O 是 Linux 內(nèi)核中提供的一個(gè)相當(dāng)新的增強(qiáng)。它是 2.6 版本內(nèi)核的一個(gè)標(biāo)準(zhǔn)特性,但是我們?cè)?2.4 版本內(nèi)核的補(bǔ)丁中也可以找到它。AIO 背后的基本思想是允許進(jìn)程發(fā)起很多 I/O 操作,而不用阻塞或等待任何操作完成。稍后或在接收到 I/O 操作完成的通知時(shí),進(jìn)程就可以檢索 I/O 操作的結(jié)果。
I/O 模型
在深入介紹 AIO API 之前,讓我們先來(lái)探索一下 Linux 上可以使用的不同 I/O 模型。這并不是一個(gè)詳盡的介紹,但是我們將試圖介紹最常用的一些模型來(lái)解釋它們與異步 I/O 之間的區(qū)別。圖 1 給出了同步和異步模型,以及阻塞和非阻塞的模型。
圖 1. 基本 Linux I/O 模型的簡(jiǎn)單矩陣
每個(gè) I/O 模型都有自己的使用模式,它們對(duì)于特定的應(yīng)用程序都有自己的優(yōu)點(diǎn)。本節(jié)將簡(jiǎn)要對(duì)其一一進(jìn)行介紹。
同步阻塞 I/O
 |
I/O 密集型與 CPU 密集型進(jìn)程的比較
I/O 密集型進(jìn)程所執(zhí)行的 I/O 操作比執(zhí)行的處理操作更多。CPU 密集型的進(jìn)程所執(zhí)行的處理操作比 I/O 操作更多。Linux 2.6 的調(diào)度器實(shí)際上更加偏愛 I/O 密集型的進(jìn)程,因?yàn)樗鼈兺ǔ?huì)發(fā)起一個(gè) I/O 操作,然后進(jìn)行阻塞,這就意味著其他工作都可以在兩者之間有效地交錯(cuò)進(jìn)行。
|
|
最常用的一個(gè)模型是同步阻塞 I/O 模型。在這個(gè)模型中,用戶空間的應(yīng)用程序執(zhí)行一個(gè)系統(tǒng)調(diào)用,這會(huì)導(dǎo)致應(yīng)用程序阻塞。這意味著應(yīng)用程序會(huì)一直阻塞,直到系統(tǒng)調(diào)用完成為止(數(shù)據(jù)傳輸完成或發(fā)生錯(cuò)誤)。調(diào)用應(yīng)用程序處于一種不再消費(fèi) CPU 而只是簡(jiǎn)單等待響應(yīng)的狀態(tài),因此從處理的角度來(lái)看,這是非常有效的。
圖 2 給出了傳統(tǒng)的阻塞 I/O 模型,這也是目前應(yīng)用程序中最為常用的一種模型。其行為非常容易理解,其用法對(duì)于典型的應(yīng)用程序來(lái)說(shuō)都非常有效。在調(diào)用 read 系統(tǒng)調(diào)用時(shí),應(yīng)用程序會(huì)阻塞并對(duì)內(nèi)核進(jìn)行上下文切換。然后會(huì)觸發(fā)讀操作,當(dāng)響應(yīng)返回時(shí)(從我們正在從中讀取的設(shè)備中返回),數(shù)據(jù)就被移動(dòng)到用戶空間的緩沖區(qū)中。然后應(yīng)用程序就會(huì)解除阻塞(read 調(diào)用返回)。
圖 2. 同步阻塞 I/O 模型的典型流程
從應(yīng)用程序的角度來(lái)說(shuō),read 調(diào)用會(huì)延續(xù)很長(zhǎng)時(shí)間。實(shí)際上,在內(nèi)核執(zhí)行讀操作和其他工作時(shí),應(yīng)用程序的確會(huì)被阻塞。
同步非阻塞 I/O
同步阻塞 I/O 的一種效率稍低的變種是同步非阻塞 I/O。在這種模型中,設(shè)備是以非阻塞的形式打開的。這意味著 I/O 操作不會(huì)立即完成,read 操作可能會(huì)返回一個(gè)錯(cuò)誤代碼,說(shuō)明這個(gè)命令不能立即滿足(EAGAIN 或 EWOULDBLOCK ),如圖 3 所示。
圖 3. 同步非阻塞 I/O 模型的典型流程
非阻塞的實(shí)現(xiàn)是 I/O 命令可能并不會(huì)立即滿足,需要應(yīng)用程序調(diào)用許多次來(lái)等待操作完成。這可能效率不高,因?yàn)樵诤芏嗲闆r下,當(dāng)內(nèi)核執(zhí)行這個(gè)命令時(shí),應(yīng)用程序必須要進(jìn)行忙碌等待,直到數(shù)據(jù)可用為止,或者試圖執(zhí)行其他工作。正如圖 3 所示的一樣,這個(gè)方法可以引入 I/O 操作的延時(shí),因?yàn)閿?shù)據(jù)在內(nèi)核中變?yōu)榭捎玫接脩粽{(diào)用 read 返回?cái)?shù)據(jù)之間存在一定的間隔,這會(huì)導(dǎo)致整體數(shù)據(jù)吞吐量的降低。
異步阻塞 I/O
另外一個(gè)阻塞解決方案是帶有阻塞通知的非阻塞 I/O。在這種模型中,配置的是非阻塞 I/O,然后使用阻塞 select 系統(tǒng)調(diào)用來(lái)確定一個(gè) I/O 描述符何時(shí)有操作。使 select 調(diào)用非常有趣的是它可以用來(lái)為多個(gè)描述符提供通知,而不僅僅為一個(gè)描述符提供通知。對(duì)于每個(gè)提示符來(lái)說(shuō),我們可以請(qǐng)求這個(gè)描述符可以寫數(shù)據(jù)、有讀數(shù)據(jù)可用以及是否發(fā)生錯(cuò)誤的通知。
圖 4. 異步阻塞 I/O 模型的典型流程 (select)
select 調(diào)用的主要問題是它的效率不是非常高。盡管這是異步通知使用的一種方便模型,但是對(duì)于高性能的 I/O 操作來(lái)說(shuō)不建議使用。
異步非阻塞 I/O(AIO)
最后,異步非阻塞 I/O 模型是一種處理與 I/O 重疊進(jìn)行的模型。讀請(qǐng)求會(huì)立即返回,說(shuō)明 read 請(qǐng)求已經(jīng)成功發(fā)起了。在后臺(tái)完成讀操作時(shí),應(yīng)用程序然后會(huì)執(zhí)行其他處理操作。當(dāng) read 的響應(yīng)到達(dá)時(shí),就會(huì)產(chǎn)生一個(gè)信號(hào)或執(zhí)行一個(gè)基于線程的回調(diào)函數(shù)來(lái)完成這次 I/O 處理過(guò)程。
圖 5. 異步非阻塞 I/O 模型的典型流程
在一個(gè)進(jìn)程中為了執(zhí)行多個(gè) I/O 請(qǐng)求而對(duì)計(jì)算操作和 I/O 處理進(jìn)行重疊處理的能力利用了處理速度與 I/O 速度之間的差異。當(dāng)一個(gè)或多個(gè) I/O 請(qǐng)求掛起時(shí),CPU 可以執(zhí)行其他任務(wù);或者更為常見的是,在發(fā)起其他 I/O 的同時(shí)對(duì)已經(jīng)完成的 I/O 進(jìn)行操作。
下一節(jié)將深入介紹這種模型,探索這種模型使用的 API,然后展示幾個(gè)命令。
異步 I/O 的動(dòng)機(jī)
從前面 I/O 模型的分類中,我們可以看出 AIO 的動(dòng)機(jī)。這種阻塞模型需要在 I/O 操作開始時(shí)阻塞應(yīng)用程序。這意味著不可能同時(shí)重疊進(jìn)行處理和 I/O 操作。同步非阻塞模型允許處理和 I/O 操作重疊進(jìn)行,但是這需要應(yīng)用程序根據(jù)重現(xiàn)的規(guī)則來(lái)檢查 I/O 操作的狀態(tài)。這樣就剩下異步非阻塞 I/O 了,它允許處理和 I/O 操作重疊進(jìn)行,包括 I/O 操作完成的通知。
除了需要阻塞之外,select 函數(shù)所提供的功能(異步阻塞 I/O)與 AIO 類似。不過(guò),它是對(duì)通知事件進(jìn)行阻塞,而不是對(duì) I/O 調(diào)用進(jìn)行阻塞。
Linux 上的 AIO 簡(jiǎn)介
本節(jié)將探索 Linux 的異步 I/O 模型,從而幫助我們理解如何在應(yīng)用程序中使用這種技術(shù)。
在傳統(tǒng)的 I/O 模型中,有一個(gè)使用惟一句柄標(biāo)識(shí)的 I/O 通道。在 UNIX® 中,這些句柄是文件描述符(這對(duì)等同于文件、管道、套接字等等)。在阻塞 I/O 中,我們發(fā)起了一次傳輸操作,當(dāng)傳輸操作完成或發(fā)生錯(cuò)誤時(shí),系統(tǒng)調(diào)用就會(huì)返回。
 |
Linux 上的 AIO
AIO 在 2.5 版本的內(nèi)核中首次出現(xiàn),現(xiàn)在已經(jīng)是 2.6 版本的產(chǎn)品內(nèi)核的一個(gè)標(biāo)準(zhǔn)特性了。
|
|
在異步非阻塞 I/O 中,我們可以同時(shí)發(fā)起多個(gè)傳輸操作。這需要每個(gè)傳輸操作都有惟一的上下文,這樣我們才能在它們完成時(shí)區(qū)分到底是哪個(gè)傳輸操作完成了。在 AIO 中,這是一個(gè) aiocb (AIO I/O Control Block)結(jié)構(gòu)。這個(gè)結(jié)構(gòu)包含了有關(guān)傳輸?shù)乃行畔ⅲ閿?shù)據(jù)準(zhǔn)備的用戶緩沖區(qū)。在產(chǎn)生 I/O (稱為完成)通知時(shí),aiocb 結(jié)構(gòu)就被用來(lái)惟一標(biāo)識(shí)所完成的 I/O 操作。這個(gè) API 的展示顯示了如何使用它。
AIO API
AIO 接口的 API 非常簡(jiǎn)單,但是它為數(shù)據(jù)傳輸提供了必需的功能,并給出了兩個(gè)不同的通知模型。表 1 給出了 AIO 的接口函數(shù),本節(jié)稍后會(huì)更詳細(xì)進(jìn)行介紹。
表 1. AIO 接口 API
API 函數(shù) |
說(shuō)明 |
aio_read |
請(qǐng)求異步讀操作 |
aio_error |
檢查異步請(qǐng)求的狀態(tài) |
aio_return |
獲得完成的異步請(qǐng)求的返回狀態(tài) |
aio_write |
請(qǐng)求異步寫操作 |
aio_suspend |
掛起調(diào)用進(jìn)程,直到一個(gè)或多個(gè)異步請(qǐng)求已經(jīng)完成(或失敗) |
aio_cancel |
取消異步 I/O 請(qǐng)求 |
lio_listio |
發(fā)起一系列 I/O 操作 |
每個(gè) API 函數(shù)都使用 aiocb 結(jié)構(gòu)開始或檢查。這個(gè)結(jié)構(gòu)有很多元素,但是清單 1 僅僅給出了需要(或可以)使用的元素。
清單 1. aiocb 結(jié)構(gòu)中相關(guān)的域
struct aiocb {
int aio_fildes; // File Descriptor
int aio_lio_opcode; // Valid only for lio_listio (r/w/nop)
volatile void *aio_buf; // Data Buffer
size_t aio_nbytes; // Number of Bytes in Data Buffer
struct sigevent aio_sigevent; // Notification Structure
/* Internal fields */
...
};
|
sigevent 結(jié)構(gòu)告訴 AIO 在 I/O 操作完成時(shí)應(yīng)該執(zhí)行什么操作。我們將在 AIO 的展示中對(duì)這個(gè)結(jié)構(gòu)進(jìn)行探索。現(xiàn)在我們將展示各個(gè) AIO 的 API 函數(shù)是如何工作的,以及我們應(yīng)該如何使用它們。
aio_read
aio_read 函數(shù)請(qǐng)求對(duì)一個(gè)有效的文件描述符進(jìn)行異步讀操作。這個(gè)文件描述符可以表示一個(gè)文件、套接字甚至管道。aio_read 函數(shù)的原型如下:
int aio_read( struct aiocb *aiocbp );
|
aio_read 函數(shù)在請(qǐng)求進(jìn)行排隊(duì)之后會(huì)立即返回。如果執(zhí)行成功,返回值就為 0;如果出現(xiàn)錯(cuò)誤,返回值就為 -1,并設(shè)置 errno 的值。
要執(zhí)行讀操作,應(yīng)用程序必須對(duì) aiocb 結(jié)構(gòu)進(jìn)行初始化。下面這個(gè)簡(jiǎn)短的例子就展示了如何填充 aiocb 請(qǐng)求結(jié)構(gòu),并使用 aio_read 來(lái)執(zhí)行異步讀請(qǐng)求(現(xiàn)在暫時(shí)忽略通知)操作。它還展示了 aio_error 的用法,不過(guò)我們將稍后再作解釋。
清單 2. 使用 aio_read 進(jìn)行異步讀操作的例子
#include <aio.h>
...
int fd, ret;
struct aiocb my_aiocb;
fd = open( "file.txt", O_RDONLY );
if (fd < 0) perror("open");
/* Zero out the aiocb structure (recommended) */
bzero( (char *)&my_aiocb, sizeof(struct aiocb) );
/* Allocate a data buffer for the aiocb request */
my_aiocb.aio_buf = malloc(BUFSIZE+1);
if (!my_aiocb.aio_buf) perror("malloc");
/* Initialize the necessary fields in the aiocb */
my_aiocb.aio_fildes = fd;
my_aiocb.aio_nbytes = BUFSIZE;
my_aiocb.aio_offset = 0;
ret = aio_read( &my_aiocb );
if (ret < 0) perror("aio_read");
while ( aio_error( &my_aiocb ) == EINPROGRESS ) ;
if ((ret = aio_return( &my_iocb )) > 0) {
/* got ret bytes on the read */
} else {
/* read failed, consult errno */
}
|
在清單 2 中,在打開要從中讀取數(shù)據(jù)的文件之后,我們就清空了 aiocb 結(jié)構(gòu),然后分配一個(gè)數(shù)據(jù)緩沖區(qū)。并將對(duì)這個(gè)數(shù)據(jù)緩沖區(qū)的引用放到 aio_buf 中。然后,我們將 aio_nbytes 初始化成緩沖區(qū)的大小。并將 aio_offset 設(shè)置成 0(該文件中的第一個(gè)偏移量)。我們將 aio_fildes 設(shè)置為從中讀取數(shù)據(jù)的文件描述符。在設(shè)置這些域之后,就調(diào)用 aio_read 請(qǐng)求進(jìn)行讀操作。我們?nèi)缓罂梢哉{(diào)用 aio_error 來(lái)確定 aio_read 的狀態(tài)。只要狀態(tài)是 EINPROGRESS ,就一直忙碌等待,直到狀態(tài)發(fā)生變化為止。現(xiàn)在,請(qǐng)求可能成功,也可能失敗。
 |
使用 AIO 接口來(lái)編譯程序
我們可以在 aio.h 頭文件中找到函數(shù)原型和其他需要的符號(hào)。在編譯使用這種接口的程序時(shí),我們必須使用 POSIX 實(shí)時(shí)擴(kuò)展庫(kù)(librt )。
|
|
注意使用這個(gè) API 與標(biāo)準(zhǔn)的庫(kù)函數(shù)從文件中讀取內(nèi)容是非常相似的。除了 aio_read 的一些異步特性之外,另外一個(gè)區(qū)別是讀操作偏移量的設(shè)置。在傳統(tǒng)的 read 調(diào)用中,偏移量是在文件描述符上下文中進(jìn)行維護(hù)的。對(duì)于每個(gè)讀操作來(lái)說(shuō),偏移量都需要進(jìn)行更新,這樣后續(xù)的讀操作才能對(duì)下一塊數(shù)據(jù)進(jìn)行尋址。對(duì)于異步 I/O 操作來(lái)說(shuō)這是不可能的,因?yàn)槲覀兛梢酝瑫r(shí)執(zhí)行很多讀請(qǐng)求,因此必須為每個(gè)特定的讀請(qǐng)求都指定偏移量。
aio_error
aio_error 函數(shù)被用來(lái)確定請(qǐng)求的狀態(tài)。其原型如下:
int aio_error( struct aiocb *aiocbp );
|
這個(gè)函數(shù)可以返回以下內(nèi)容:
EINPROGRESS ,說(shuō)明請(qǐng)求尚未完成
ECANCELLED ,說(shuō)明請(qǐng)求被應(yīng)用程序取消了
-1 ,說(shuō)明發(fā)生了錯(cuò)誤,具體錯(cuò)誤原因可以查閱 errno
aio_return
異步 I/O 和標(biāo)準(zhǔn)塊 I/O 之間的另外一個(gè)區(qū)別是我們不能立即訪問這個(gè)函數(shù)的返回狀態(tài),因?yàn)槲覀儾]有阻塞在 read 調(diào)用上。在標(biāo)準(zhǔn)的 read 調(diào)用中,返回狀態(tài)是在該函數(shù)返回時(shí)提供的。但是在異步 I/O 中,我們要使用 aio_return 函數(shù)。這個(gè)函數(shù)的原型如下:
ssize_t aio_return( struct aiocb *aiocbp );
|
只有在 aio_error 調(diào)用確定請(qǐng)求已經(jīng)完成(可能成功,也可能發(fā)生了錯(cuò)誤)之后,才會(huì)調(diào)用這個(gè)函數(shù)。aio_return 的返回值就等價(jià)于同步情況中 read 或 write 系統(tǒng)調(diào)用的返回值(所傳輸?shù)淖止?jié)數(shù),如果發(fā)生錯(cuò)誤,返回值就為 -1 )。
aio_write
aio_write 函數(shù)用來(lái)請(qǐng)求一個(gè)異步寫操作。其函數(shù)原型如下:
int aio_write( struct aiocb *aiocbp );
|
aio_write 函數(shù)會(huì)立即返回,說(shuō)明請(qǐng)求已經(jīng)進(jìn)行排隊(duì)(成功時(shí)返回值為 0 ,失敗時(shí)返回值為 -1 ,并相應(yīng)地設(shè)置 errno )。
這與 read 系統(tǒng)調(diào)用類似,但是有一點(diǎn)不一樣的行為需要注意。回想一下對(duì)于 read 調(diào)用來(lái)說(shuō),要使用的偏移量是非常重要的。然而,對(duì)于 write 來(lái)說(shuō),這個(gè)偏移量只有在沒有設(shè)置 O_APPEND 選項(xiàng)的文件上下文中才會(huì)非常重要。如果設(shè)置了 O_APPEND ,那么這個(gè)偏移量就會(huì)被忽略,數(shù)據(jù)都會(huì)被附加到文件的末尾。否則,aio_offset 域就確定了數(shù)據(jù)在要寫入的文件中的偏移量。
aio_suspend
我們可以使用 aio_suspend 函數(shù)來(lái)掛起(或阻塞)調(diào)用進(jìn)程,直到異步請(qǐng)求完成為止,此時(shí)會(huì)產(chǎn)生一個(gè)信號(hào),或者發(fā)生其他超時(shí)操作。調(diào)用者提供了一個(gè) aiocb 引用列表,其中任何一個(gè)完成都會(huì)導(dǎo)致 aio_suspend 返回。 aio_suspend 的函數(shù)原型如下:
int aio_suspend( const struct aiocb *const cblist[],
int n, const struct timespec *timeout );
|
aio_suspend 的使用非常簡(jiǎn)單。我們要提供一個(gè) aiocb 引用列表。如果任何一個(gè)完成了,這個(gè)調(diào)用就會(huì)返回 0 。否則就會(huì)返回 -1 ,說(shuō)明發(fā)生了錯(cuò)誤。請(qǐng)參看清單 3。
清單 3. 使用 aio_suspend 函數(shù)阻塞異步 I/O
struct aioct *cblist[MAX_LIST]
/* Clear the list. */
bzero( (char *)cblist, sizeof(cblist) );
/* Load one or more references into the list */
cblist[0] = &my_aiocb;
ret = aio_read( &my_aiocb );
ret = aio_suspend( cblist, MAX_LIST, NULL );
|
注意,aio_suspend 的第二個(gè)參數(shù)是 cblist 中元素的個(gè)數(shù),而不是 aiocb 引用的個(gè)數(shù)。cblist 中任何 NULL 元素都會(huì)被 aio_suspend 忽略。
如果為 aio_suspend 提供了超時(shí),而超時(shí)情況的確發(fā)生了,那么它就會(huì)返回 -1 ,errno 中會(huì)包含 EAGAIN 。
aio_cancel
aio_cancel 函數(shù)允許我們?nèi)∠麑?duì)某個(gè)文件描述符執(zhí)行的一個(gè)或所有 I/O 請(qǐng)求。其原型如下:
int aio_cancel( int fd, struct aiocb *aiocbp );
|
要取消一個(gè)請(qǐng)求,我們需要提供文件描述符和 aiocb 引用。如果這個(gè)請(qǐng)求被成功取消了,那么這個(gè)函數(shù)就會(huì)返回 AIO_CANCELED 。如果請(qǐng)求完成了,這個(gè)函數(shù)就會(huì)返回 AIO_NOTCANCELED 。
要取消對(duì)某個(gè)給定文件描述符的所有請(qǐng)求,我們需要提供這個(gè)文件的描述符,以及一個(gè)對(duì) aiocbp 的 NULL 引用。如果所有的請(qǐng)求都取消了,這個(gè)函數(shù)就會(huì)返回 AIO_CANCELED ;如果至少有一個(gè)請(qǐng)求沒有被取消,那么這個(gè)函數(shù)就會(huì)返回 AIO_NOT_CANCELED ;如果沒有一個(gè)請(qǐng)求可以被取消,那么這個(gè)函數(shù)就會(huì)返回 AIO_ALLDONE 。我們?nèi)缓罂梢允褂?aio_error 來(lái)驗(yàn)證每個(gè) AIO 請(qǐng)求。如果這個(gè)請(qǐng)求已經(jīng)被取消了,那么 aio_error 就會(huì)返回 -1 ,并且 errno 會(huì)被設(shè)置為 ECANCELED 。
lio_listio
最后,AIO 提供了一種方法使用 lio_listio API 函數(shù)同時(shí)發(fā)起多個(gè)傳輸。這個(gè)函數(shù)非常重要,因?yàn)檫@意味著我們可以在一個(gè)系統(tǒng)調(diào)用(一次內(nèi)核上下文切換)中啟動(dòng)大量的 I/O 操作。從性能的角度來(lái)看,這非常重要,因此值得我們花點(diǎn)時(shí)間探索一下。lio_listio API 函數(shù)的原型如下:
int lio_listio( int mode, struct aiocb *list[], int nent,
struct sigevent *sig );
|
mode 參數(shù)可以是 LIO_WAIT 或 LIO_NOWAIT 。LIO_WAIT 會(huì)阻塞這個(gè)調(diào)用,直到所有的 I/O 都完成為止。在操作進(jìn)行排隊(duì)之后,LIO_NOWAIT 就會(huì)返回。list 是一個(gè) aiocb 引用的列表,最大元素的個(gè)數(shù)是由 nent 定義的。注意 list 的元素可以為 NULL ,lio_listio 會(huì)將其忽略。sigevent 引用定義了在所有 I/O 操作都完成時(shí)產(chǎn)生信號(hào)的方法。
對(duì)于 lio_listio 的請(qǐng)求與傳統(tǒng)的 read 或 write 請(qǐng)求在必須指定的操作方面稍有不同,如清單 4 所示。
清單 4. 使用 lio_listio 函數(shù)發(fā)起一系列請(qǐng)求
struct aiocb aiocb1, aiocb2;
struct aiocb *list[MAX_LIST];
...
/* Prepare the first aiocb */
aiocb1.aio_fildes = fd;
aiocb1.aio_buf = malloc( BUFSIZE+1 );
aiocb1.aio_nbytes = BUFSIZE;
aiocb1.aio_offset = next_offset;
aiocb1.aio_lio_opcode = LIO_READ;
...
bzero( (char *)list, sizeof(list) );
list[0] = &aiocb1;
list[1] = &aiocb2;
ret = lio_listio( LIO_WAIT, list, MAX_LIST, NULL );
|
對(duì)于讀操作來(lái)說(shuō),aio_lio_opcode 域的值為 LIO_READ 。對(duì)于寫操作來(lái)說(shuō),我們要使用 LIO_WRITE ,不過(guò) LIO_NOP 對(duì)于不執(zhí)行操作來(lái)說(shuō)也是有效的。
AIO 通知
現(xiàn)在我們已經(jīng)看過(guò)了可用的 AIO 函數(shù),本節(jié)將深入介紹對(duì)異步通知可以使用的方法。我們將通過(guò)信號(hào)和函數(shù)回調(diào)來(lái)探索異步函數(shù)的通知機(jī)制。
使用信號(hào)進(jìn)行異步通知
使用信號(hào)進(jìn)行進(jìn)程間通信(IPC)是 UNIX 中的一種傳統(tǒng)機(jī)制,AIO 也可以支持這種機(jī)制。在這種范例中,應(yīng)用程序需要定義信號(hào)處理程序,在產(chǎn)生指定的信號(hào)時(shí)就會(huì)調(diào)用這個(gè)處理程序。應(yīng)用程序然后配置一個(gè)異步請(qǐng)求將在請(qǐng)求完成時(shí)產(chǎn)生一個(gè)信號(hào)。作為信號(hào)上下文的一部分,特定的 aiocb 請(qǐng)求被提供用來(lái)記錄多個(gè)可能會(huì)出現(xiàn)的請(qǐng)求。清單 5 展示了這種通知方法。
清單 5. 使用信號(hào)作為 AIO 請(qǐng)求的通知
void setup_io( ... )
{
int fd;
struct sigaction sig_act;
struct aiocb my_aiocb;
...
/* Set up the signal handler */
sigemptyset(&sig_act.sa_mask);
sig_act.sa_flags = SA_SIGINFO;
sig_act.sa_sigaction = aio_completion_handler;
/* Set up the AIO request */
bzero( (char *)&my_aiocb, sizeof(struct aiocb) );
my_aiocb.aio_fildes = fd;
my_aiocb.aio_buf = malloc(BUF_SIZE+1);
my_aiocb.aio_nbytes = BUF_SIZE;
my_aiocb.aio_offset = next_offset;
/* Link the AIO request with the Signal Handler */
my_aiocb.aio_sigevent.sigev_notify = SIGEV_SIGNAL;
my_aiocb.aio_sigevent.sigev_signo = SIGIO;
my_aiocb.aio_sigevent.sigev_value.sival_ptr = &my_aiocb;
/* Map the Signal to the Signal Handler */
ret = sigaction( SIGIO, &sig_act, NULL );
...
ret = aio_read( &my_aiocb );
}
void aio_completion_handler( int signo, siginfo_t *info, void *context )
{
struct aiocb *req;
/* Ensure it's our signal */
if (info->si_signo == SIGIO) {
req = (struct aiocb *)info->si_value.sival_ptr;
/* Did the request complete? */
if (aio_error( req ) == 0) {
/* Request completed successfully, get the return status */
ret = aio_return( req );
}
}
return;
}
|
在清單 5 中,我們?cè)?aio_completion_handler 函數(shù)中設(shè)置信號(hào)處理程序來(lái)捕獲 SIGIO 信號(hào)。然后初始化 aio_sigevent 結(jié)構(gòu)產(chǎn)生 SIGIO 信號(hào)來(lái)進(jìn)行通知(這是通過(guò) sigev_notify 中的 SIGEV_SIGNAL 定義來(lái)指定的)。當(dāng)讀操作完成時(shí),信號(hào)處理程序就從該信號(hào)的 si_value 結(jié)構(gòu)中提取出 aiocb ,并檢查錯(cuò)誤狀態(tài)和返回狀態(tài)來(lái)確定 I/O 操作是否完成。
對(duì)于性能來(lái)說(shuō),這個(gè)處理程序也是通過(guò)請(qǐng)求下一次異步傳輸而繼續(xù)進(jìn)行 I/O 操作的理想地方。采用這種方式,在一次數(shù)據(jù)傳輸完成時(shí),我們就可以立即開始下一次數(shù)據(jù)傳輸操作。
使用回調(diào)函數(shù)進(jìn)行異步通知
另外一種通知方式是系統(tǒng)回調(diào)函數(shù)。這種機(jī)制不會(huì)為通知而產(chǎn)生一個(gè)信號(hào),而是會(huì)調(diào)用用戶空間的一個(gè)函數(shù)來(lái)實(shí)現(xiàn)通知功能。我們?cè)?sigevent 結(jié)構(gòu)中設(shè)置了對(duì) aiocb 的引用,從而可以惟一標(biāo)識(shí)正在完成的特定請(qǐng)求。請(qǐng)參看清單 6。
清單 6. 對(duì) AIO 請(qǐng)求使用線程回調(diào)通知
void setup_io( ... )
{
int fd;
struct aiocb my_aiocb;
...
/* Set up the AIO request */
bzero( (char *)&my_aiocb, sizeof(struct aiocb) );
my_aiocb.aio_fildes = fd;
my_aiocb.aio_buf = malloc(BUF_SIZE+1);
my_aiocb.aio_nbytes = BUF_SIZE;
my_aiocb.aio_offset = next_offset;
/* Link the AIO request with a thread callback */
my_aiocb.aio_sigevent.sigev_notify = SIGEV_THREAD;
my_aiocb.aio_sigevent.notify_function = aio_completion_handler;
my_aiocb.aio_sigevent.notify_attributes = NULL;
my_aiocb.aio_sigevent.sigev_value.sival_ptr = &my_aiocb;
...
ret = aio_read( &my_aiocb );
}
void aio_completion_handler( sigval_t sigval )
{
struct aiocb *req;
req = (struct aiocb *)sigval.sival_ptr;
/* Did the request complete? */
if (aio_error( req ) == 0) {
/* Request completed successfully, get the return status */
ret = aio_return( req );
}
return;
}
|
在清單 6 中,在創(chuàng)建自己的 aiocb 請(qǐng)求之后,我們使用 SIGEV_THREAD 請(qǐng)求了一個(gè)線程回調(diào)函數(shù)來(lái)作為通知方法。然后我們將指定特定的通知處理程序,并將要傳輸?shù)纳舷挛募虞d到處理程序中(在這種情況中,是個(gè)對(duì) aiocb 請(qǐng)求自己的引用)。在這個(gè)處理程序中,我們簡(jiǎn)單地引用到達(dá)的 sigval 指針并使用 AIO 函數(shù)來(lái)驗(yàn)證請(qǐng)求已經(jīng)完成。
對(duì) AIO 進(jìn)行系統(tǒng)優(yōu)化
proc 文件系統(tǒng)包含了兩個(gè)虛擬文件,它們可以用來(lái)對(duì)異步 I/O 的性能進(jìn)行優(yōu)化:
- /proc/sys/fs/aio-nr 文件提供了系統(tǒng)范圍異步 I/O 請(qǐng)求現(xiàn)在的數(shù)目。
- /proc/sys/fs/aio-max-nr 文件是所允許的并發(fā)請(qǐng)求的最大個(gè)數(shù)。最大個(gè)數(shù)通常是 64KB,這對(duì)于大部分應(yīng)用程序來(lái)說(shuō)都已經(jīng)足夠了。
結(jié)束語(yǔ)
使用異步 I/O 可以幫助我們構(gòu)建 I/O 速度更快、效率更高的應(yīng)用程序。如果我們的應(yīng)用程序可以對(duì)處理和 I/O 操作重疊進(jìn)行,那么 AIO 就可以幫助我們構(gòu)建可以更高效地使用可用 CPU 資源的應(yīng)用程序。盡管這種 I/O 模型與在大部分 Linux 應(yīng)用程序中使用的傳統(tǒng)阻塞模式都不同,但是異步通知模型在概念上來(lái)說(shuō)卻非常簡(jiǎn)單,可以簡(jiǎn)化我們的設(shè)計(jì)。
參考資料
學(xué)習(xí)
獲得產(chǎn)品和技術(shù)
討論
關(guān)于作者
 |

|
 |
Tim Jones 是一名嵌入式軟件工程師,他是 GNU/Linux Application Programming、AI Application Programming 以及 BSD Sockets Programming from a Multilanguage Perspective 等書的作者。他的工程背景非常廣泛,從同步宇宙飛船的內(nèi)核開發(fā)到嵌入式架構(gòu)設(shè)計(jì),再到網(wǎng)絡(luò)協(xié)
|
|