by mutecat@byhh 2007-09.20
最近一段時間在用c寫cgi程序,接觸了這兩個系統(tǒng)調(diào)用dup/dup2,碰到了一些
問題, 也解決了一些問題, 寫出來與大家分享,也方便以后參考:)
1. 文件描述符在內(nèi)核中數(shù)據(jù)結(jié)構(gòu)
在具體說dup/dup2之前, 我認(rèn)為有必要先了解一下文件描述符在內(nèi)核中的形態(tài)。
一個進(jìn)程在此存在期間,會有一些文件被打開,從而會返回一些文件描述符,從shell
中運行一個進(jìn)程,默認(rèn)會有3個文件描述符存在(0、1、2), 0與進(jìn)程的標(biāo)準(zhǔn)輸入相關(guān)聯(lián),
1與進(jìn)程的標(biāo)準(zhǔn)輸出相關(guān)聯(lián),2與進(jìn)程的標(biāo)準(zhǔn)錯誤輸出相關(guān)聯(lián),一個進(jìn)程當(dāng)前有哪些打開
的文件描述符可以通過/proc/進(jìn)程ID/fd目錄查看。 下圖可以清楚的說明問題:
進(jìn)程表項
————————————————
fd標(biāo)志 文件指針
_____________________
fd 0:|________|____________|————> 文件表
fd 1:|________|____________|
fd 2:|________|____________|
fd 3:|________|____________|
| ……. |
|_____________________|
圖1
文件表中包含:文件狀態(tài)標(biāo)志、當(dāng)前文件偏移量、v節(jié)點指針,這些不是本文討論的
重點,我們只需要知道每個打開的文件描述符(fd標(biāo)志)在進(jìn)程表中都有自己的文件表
項,由文件指針指向。
2. dup/dup2函數(shù)
APUE和man文檔都用一句話簡明的說出了這兩個函數(shù)的作用:復(fù)制一個現(xiàn)存的文件描述符。
#include <unistd.h>
int dup(int oldfd);
int dup2(int oldfd, int newfd);
從圖1來分析這個過程,當(dāng)調(diào)用dup函數(shù)時,內(nèi)核在進(jìn)程中創(chuàng)建一個新的文件描述符,此
描述符是當(dāng)前可用文件描述符的最小數(shù)值,這個文件描述符指向oldfd所擁有的文件表項。
進(jìn)程表項
————————————————
fd標(biāo)志 文件指針
_____________________
fd 0:|________|____________| ______
fd 1:|________|____________|—————-> | |
fd 2:|________|____________| |文件表|
fd 3:|________|____________|—————-> |______|
| ……. |
|_____________________|
圖2:調(diào)用dup后的示意圖
如圖2 所示,假如oldfd的值為1, 當(dāng)前文件描述符的最小值為3, 那么新描述符3指向
描述符1所擁有的文件表項。
dup2和dup的區(qū)別就是可以用newfd參數(shù)指定新描述符的數(shù)值,如果newfd已經(jīng)打開,則
先將其關(guān)閉。如果newfd等于oldfd,則dup2返回newfd, 而不關(guān)閉它。dup2函數(shù)返回的新
文件描述符同樣與參數(shù)oldfd共享同一文件表項。
APUE用另外一個種方法說明了這個問題:
實際上,調(diào)用dup(oldfd);
等效與
fcntl(oldfd, F_DUPFD, 0)
而調(diào)用dup2(oldfd, newfd);
等效與
close(oldfd);
fcntl(oldfd, F_DUPFD, newfd);
3. CGI中dup2
寫過CGI程序的人都清楚,當(dāng)瀏覽器使用post方法提交表單數(shù)據(jù)時,CGI讀數(shù)據(jù)是從標(biāo)準(zhǔn)
輸入stdin, 寫數(shù)據(jù)是寫到標(biāo)準(zhǔn)輸出stdout(c語言利用printf函數(shù))。按照我們正常的理
解,printf的輸出應(yīng)該在終端顯示,原來CGI程序使用dup2函數(shù)將STDOUT_FINLENO(這個
宏在unitstd.h定義,為1)這個文件描述符重定向到了連接套接字。
dup2(connfd, STDOUT_FILENO); /*實際情況還涉及到了管道,不是本文的重點*/
如第一節(jié)所說, 一個進(jìn)程默認(rèn)的文件描述符1(STDOUT_FILENO)是和標(biāo)準(zhǔn)輸出stdout相
關(guān)聯(lián)的,對于內(nèi)核而言,所有打開的文件都通過文件描述符引用,而內(nèi)核并不知道流的
存在(比如stdin、stdout),所以printf函數(shù)輸出到stdout的數(shù)據(jù)最后都寫到了文件描述
符1里面。至于文件描述符0、1、2與標(biāo)準(zhǔn)輸入、標(biāo)準(zhǔn)輸出、標(biāo)準(zhǔn)錯誤輸出相關(guān)聯(lián),這
只是shell以及很多應(yīng)用程序的慣例,而與內(nèi)核無關(guān)。
用下面的流圖可以說明問題:(ps: 雖然不是流圖關(guān)系,但是還是有助于理解)
printf -> stdout -> STDOUT_FILENO(1) -> 終端(tty)
printf最后的輸出到了終端設(shè)備,文件描述符1指向當(dāng)前的終端可以這么理解:
STDOUT_FILENO = open("/dev/tty", O_RDWR);
使用dup2之后STDOUT_FILENO不再指向終端設(shè)備, 而是指向connfd, 所以printf的
輸出最后寫到了connfd。是不是很優(yōu)美?:)
4. 如何在CGI程序的fork子進(jìn)程中還原STDOUT_FILENO
如果你能看到這里,感謝你的耐心, 我知道很多人可能感覺有點復(fù)雜, 其實
復(fù)雜的問題就是一個個小問題的集合。所以弄清楚每個小問題就OK了,第三節(jié)中
說道,STDOUT_FILENO被重定向到了connfd套接字, 有時候我們可能想在CGI程序
中調(diào)用后臺腳本執(zhí)行,而這些腳本中難免會有一些輸入輸出, 我們知道fork之后,
子進(jìn)程繼承了父進(jìn)程的所有文件描述符,所以這些腳本的輸入輸出并不會如我們愿
輸出到終端設(shè)備,而是和connfd想關(guān)聯(lián)了,這個顯然會擾亂網(wǎng)頁的輸出。那么如何
恢復(fù)STDOUT_FILENO和終端關(guān)聯(lián)呢?
方法1:在dup2之前保存原有的文件描述符,然后恢復(fù)。
代碼實現(xiàn)如下:
savefd = dup(STDOUT_FILENO); /*savefd此時指向終端*/
dup2(connfd, STDOUT_FILENO); /*STDOUT_FILENO(1) 被重新指向connfd*/
….. /*處理一些事情*/
dup2(savefd, STDOUT_FILENO); /*STDOUT_FILENO(1) 恢復(fù)指向savefd*/
很遺憾CGI程序無法使用這種方法, 因為dup2這些不是在CGI程序中完成的,而是在
web server中實現(xiàn)的,修改web server并不是個好主意。
方法2: 追本溯源,打開當(dāng)前終端恢復(fù)STDOUT_FILENO。
分析第三節(jié)的流圖, STDOUT_FILENO是如何和終端關(guān)聯(lián)的? 我們重頭做一遍不就行
了, 代碼實現(xiàn)如下:
ttyfd = open("/dev/tty", O_RDWR);
dup2(ttyfd, STDOUT_FILENO);
close(ttyfd);
/dev/tty是程序運行所在的終端, 這個應(yīng)該通過一種方法獲得。實踐證明這種方法
是可行的,但是我總感覺有些不妥,不知道為什么,可能一些潛在的問題還沒出現(xiàn)。
目前我就想到這兩種方法, 不知道你有什么好的想法? 有的話希望告訴我:)
終于收尾了,一早上過來寫,沒想到寫了兩個小時才寫完,好久沒有寫原創(chuàng)了,又重拾
了以前那美妙的感覺:)
-----------------------------------------------------------------------------------------------------------------------------
相信大部分在Unix/Linux下編程的程序員手頭上都有《Unix環(huán)境高級編程》(APUE)這本超級經(jīng)典巨著。作者在該書中講解dup/dup2之前曾經(jīng)講過“文件共享”,這對理解dup/dup2還是很有幫助的。這里做簡單摘錄以備在后面的分析中使用:
Stevens said:
(1) 每個進(jìn)程在進(jìn)程表中都有一個記錄項,每個記錄項中有一張打開文件描述符表,可將視為一個矢量,每個描述符占用一項。與每個文件描述符相關(guān)聯(lián)的是:
(a) 文件描述符標(biāo)志。
(b) 指向一個文件表項的指針。
(2) 內(nèi)核為所有打開文件維持一張文件表。每個文件表項包含:
(a) 文件狀態(tài)標(biāo)志(讀、寫、增寫、同步、非阻塞等)。
(b) 當(dāng)前文件位移量。
(c) 指向該文件v節(jié)點表項的指針。
圖示:
文件描述符表
------------
fd0 0 | p0 -------------> 文件表0 ---------> vnode0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------
fd2 2 | p2
------------
fd3 3 | p3
------------
... ...
... ...
------------
一、單個進(jìn)程內(nèi)的dup和dup2
假設(shè)進(jìn)程A擁有一個已打開的文件描述符fd3,它的狀態(tài)如下:
進(jìn)程A的文件描述符表(before dup2)
------------
fd0 0 | p0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------
fd2 2 | p2
------------
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------
... ...
... ...
------------
經(jīng)下面調(diào)用:
n_fd = dup2(fd3, STDOUT_FILENO);后進(jìn)程狀態(tài)如下:
進(jìn)程A的文件描述符表(after dup2)
------------
fd0 0 | p0
------------
n_fd 1 | p1 ------------
------------ \
fd2 2 | p2 \
------------ _\|
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------
... ...
... ...
------------
解釋如下:
n_fd = dup2(fd3, STDOUT_FILENO)表示n_fd與fd3共享一個文件表項(它們的文件表指針指向同一個文件表項),n_fd在文件描述符表中的位置為 STDOUT_FILENO的位置,而原先的STDOUT_FILENO所指向的文件表項被關(guān)閉,我覺得上圖應(yīng)該很清晰的反映出這點。按照上面的解釋我們就可以解釋CU中提出的一些問題:
(1) "dup2的第一個參數(shù)是不是必須為已打開的合法filedes?" -- 答案:必須。
(2) "dup2的第二個參數(shù)可以是任意合法范圍的filedes值么?" -- 答案:可以,在Unix其取值區(qū)間為[0,255]。
另外感覺理解dup2的一個好方法就是把fd看成一個結(jié)構(gòu)體類型,就如上面圖形中畫的那樣,我們不妨把之定義為:
struct fd_t {
int index;
filelistitem *ptr;
};
然后dup2匹配index,修改ptr,完成dup2操作。
在學(xué)習(xí)dup2時總是碰到“重定向”一詞,上圖完成的就是一個“從標(biāo)準(zhǔn)輸出到文件的重定向”,經(jīng)過dup2后進(jìn)程A的任何目標(biāo)為STDOUT_FILENO的I/O操作如printf等,其數(shù)據(jù)都將流入fd3所對應(yīng)的文件中。下面是一個例子程序:
#define TESTSTR "Hello dup2\n"
int main() {
int fd3;
fd3 = open("testdup2.dat", 0666);
if (fd < 0) {
printf("open error\n");
exit(-1);
}
if (dup2(fd3, STDOUT_FILENO) < 0) {
printf("err in dup2\n");
}
printf(TESTSTR);
return 0;
}
其結(jié)果就是你在testdup2.dat中看到"Hello dup2"。
二、重定向后恢復(fù)
CU上有這樣一個帖子,就是如何在重定向后再恢復(fù)原來的狀態(tài)?首先大家都能想到要保存重定向前的文件描述符。那么如何來保存呢,象下面這樣行么?
int s_fd = STDOUT_FILENO;
int n_fd = dup2(fd3, STDOUT_FILENO);
還是這樣可以呢?
int s_fd = dup(STDOUT_FILENO);
int n_fd = dup2(fd3, STDOUT_FILENO);
這兩種方法的區(qū)別到底在哪呢?答案是第二種方案才是正確的,分析如下:按照第一種方法,我們僅僅在"表面上"保存了相當(dāng)于fd_t(按照我前面說的理解方法)中的index,而在調(diào)用dup2之后,ptr所指向的文件表項由于計數(shù)值已為零而被關(guān)閉了,我們?nèi)绻僬{(diào)用dup2(s_fd, fd3)就會出錯(出錯原因上面有解釋)。而第二種方法我們首先做一下復(fù)制,復(fù)制后的狀態(tài)如下圖所示:
進(jìn)程A的文件描述符表(after dup)
------------
fd0 0 | p0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------ /|
fd2 2 | p2 /
------------ /
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------ /
s_fd 4 | p4 ------/
------------
... ...
... ...
------------
調(diào)用dup2后狀態(tài)為:
進(jìn)程A的文件描述符表(after dup2)
------------
fd0 0 | p0
------------
n_fd 1 | p1 ------------
------------ \
fd2 2 | p2 \
------------ _\|
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------
s_fd 4 | p4 ------------->文件表1 ---------> vnode1
------------
... ...
... ...
------------
dup(fd)的語意是返回的新的文件描述符與fd共享一個文件表項。就如after dup圖中的s_fd和fd1共享文件表1一樣。
確定第二個方案后重定向后的恢復(fù)就很容易了,只需調(diào)用dup2(s_fd, n_fd);即可。下面是一個完整的例子程序:
#define TESTSTR "Hello dup2\n"
#define SIZEOFTESTSTR 11
int main() {
int fd3;
int s_fd;
int n_fd;
fd3 = open("testdup2.dat", 0666);
if (fd3 < 0) {
printf("open error\n");
exit(-1);
}
/* 復(fù)制標(biāo)準(zhǔn)輸出描述符 */
s_fd = dup(STDOUT_FILENO);
if (s_fd < 0) {
printf("err in dup\n");
}
/* 重定向標(biāo)準(zhǔn)輸出到文件 */
n_fd = dup2(fd3, STDOUT_FILENO);
if (n_fd < 0) {
printf("err in dup2\n");
}
write(STDOUT_FILENO, TESTSTR, SIZEOFTESTSTR); /* 寫入testdup2.dat中 */
/* 重定向恢復(fù)標(biāo)準(zhǔn)輸出 */
if (dup2(s_fd, n_fd) < 0) {
printf("err in dup2\n");
}
write(STDOUT_FILENO, TESTSTR, SIZEOFTESTSTR); /* 輸出到屏幕上 */
return 0;
}
注意這里我在輸出數(shù)據(jù)的時候我是用了不帶緩沖的write庫函數(shù),如果使用帶緩沖區(qū)的printf,則最終結(jié)果為屏幕上輸出兩行"Hello dup2",而文件testdup2.dat中為空,原因就是緩沖區(qū)作怪,由于最終的目標(biāo)是屏幕,所以程序最后將緩沖區(qū)的內(nèi)容都輸出到屏幕。
三、父子進(jìn)程間的dup/dup2
由fork調(diào)用得到的子進(jìn)程和父進(jìn)程的相同文件描述符共享同一文件表項,如下圖所示:
父進(jìn)程A的文件描述符表
------------
fd0 0 | p0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------ /|\
fd2 2 | p2 |
------------ |
|
子進(jìn)程B的文件描述符表 |
------------ |
fd0 0 | p0 |
------------ |
fd1 1 | p1 ---------------------|
------------
fd2 2 | p2
------------
所以恰當(dāng)?shù)睦胐up2和dup可以在父子進(jìn)程之間建立一條“溝通的橋梁”。這里不詳述。
四、小結(jié)
靈活的利用dup/dup2可以給你帶來很多強(qiáng)大的功能,花了一些時間總結(jié)出上面那么多,不知道自己理解的是否透徹,只能在以后的實踐中慢慢探索了。
文章出處:飛諾網(wǎng)(www.firnow.com):http://dev.firnow.com/course/6_system/linux/Linuxjs/2008716/133222.html