UNIX上C++程序設計守則 (2)
原文地址:http://d.hatena.ne.jp/yupo5656/20040712/p2
準則2: 要知道信號處理函數中可以做那些處理
· 在用sigaction函數登記的信號處理函數中可以做的處理是被嚴格限定的
· 僅僅允許做下面的三種處理
1. 局部變量的相關處理
2. “volatile sig_atomic_t”類型的全局變量的相關操作
3. 調用異步信號安全的相關函數
· 以外的其他處理不要做!
說明:
因為在收到信號時要做一些處理,那通常是準備一個信號處理函數并用sigaction函數把它和信號名進行關聯的話就OK了。但是,在這個信號處理函數里可以做的處理是像上面那樣被嚴格限定的。沒有很好掌握這些知識就隨便寫一些代碼的話就會引起下面那樣的問題:
· 問題1: 有程序死鎖的危險
o 這是那些依賴于某一時刻,而且錯誤再現比較困難的BUG產生的真正原因
o 死鎖是一個比較典型的例子,除此之外還能引起函數返回值不正確,以及在某一函數內執行時突然收到SEGV信號等的誤操作。
◆譯者注1:SEGV通常發生在進程試圖訪問無效內存區域時(可能是個NULL指針,或超出進程空間之外的內存地址)。當bug原因和SEGV影響在不同時間呈現時,它們特別難于捕獲到。
· 問題2: 由于編譯器無意識的優化操作,有導致程序紊亂的危險
o 這是跟編譯器以及編譯器優化級別有關系的bug。它也是“編譯器做了優化處理而不能正常動作”,“因為inline化了程序不能動作了”,“變換了OS了程序也不能動作”等這些解析困難bug產生的原因。
還是一邊看具體的代碼一邊解說吧。在下面的代碼里至少有三個問題,根據環境的不同很可能引起不正確的動作*1、按照次序來說明里面的錯誤。
1
int gSignaled;
2
void sig_handler(int signo)
{
3
std::printf("signal %d received!\n", signo);
4
gSignaled = 1;
5
}
6
int main(void)
{
7
struct sigaction sa;
8
// (省略)
9
sigaction(SIGINT, &sa, 0);
10
gSignaled = 0;
11
while(!gSignaled)
{
12
//std::printf("waiting
\n");
13
struct timespec t =
{ 1, 0 }; nanosleep(&t, 0);
14
}
15
}
16
錯誤1: 競爭條件
在上面的代碼里有競爭條件。在sigaction函數被調用后、在gSignaled還未被賦值成0值之前,如果接受到SIGINT信號了那會變得怎么樣呢? 在信號處理函數中被覆寫成1后的gSignaled會在信號處理函數返回后被初始化成0、在后面的while循環里可能會變成死循環。
錯誤2: 全局變量gSignaled 聲明的類型不正確
在信號處理函數里使用的全局變數gSignaled的類型沒有聲明成volatile sig_atomic_t 。這樣的話、在執行while循環里的代碼的時候接收到了了SIGINT信號時、有可能引起while的死循環。那為什么能引起這樣的情況呢:
· 信號處理函數里,把內存上gSignaled的值變更成1 ,它的匯編代碼如下:
movl $1, gSignaled
· 但是,就像下面的代碼描述的那樣,main函數是把gSignaled的值存放到了寄存器里。在while循環之前,僅僅是做了一次拷貝變量gSignaled內存上的值到寄存器里、而在while循環里只是參照這個寄存器里的值。
movl gSignaled, %ebx
.L8:
testl %ebx, %ebx
jne .L8
在不執行優化的情況下編譯后編譯器有可能不會生成上面那樣的偽代碼。但Gcc當使用-O2選項做優化編譯時,生成的實際那樣的匯編代碼產生的危害并不僅僅是像上面說的威脅那樣簡單。這方面的問題,是設備驅動的開發者所要知道的常識,但現實情況是對于應用程序的設計者.開發者幾乎都不知道這些知識。
為了解決上面的問題,全局變量gSignaled的類型要像下面那樣聲明。
volatile sig_atomic_t gSignaled;
volatile則是提示編譯器不要像上面那樣做優化處理,變成每次循環都要參照該變量內存里的值那樣進行編譯。所以在信號處理函數里把該變量的值修改后也能真實反映到main函數的while循環里。
sig_atomic_t 是根據CPU類型使用typedef來適當定義的整數值,例如x86平臺是int類型。就是指”用一條機器指令來更新內存里的最大數據*2“。在信號處理函數里要被引用的變量必須要定義成sig_atomic_t類型。那么不是sig_atomic_t類型的變量(比如x86平臺上的64位整數)、就得使用兩條機器指令來完成更新動作。如果在執行一條機器指令的時候突然收到一個信號而程序執行被中斷,而且在信號處理函數中一引用這個變量的話,就只能看到這個變量的部分的值。另外,由于字節對齊的問題不能由一條機器指令來完成的情況也會存在。把該變量的類型變成sig_atomic_t的話,這個變量被更新時就只需要一條機器指令就可以完成了。所以在信號處理函數里即使使用了該變量也不會出現任何問題。
2006/1/16 補充: 有一點東西忘記寫了。關于sig_atomic_t詳細的東西,請參考C99規范的§7.14.1.1/5小節。在信號處理函數里對volatile sig_atomic_t以外的變量進行修改,其結果都是"unspecified"的(參照譯者注2)。另外, sig_atomic_t類型的變量的取值范圍是在SIG_ATOMIC_MIN/MAX之間 (參見§7.18.3/2)。有無符號是跟具體的實現有關??紤]到移植性取值在0~127之間是比較合適的。C99也支持這個取值范圍。C++規范(14882:2003)里也有同樣的描述、確切的位置是§1.9/9這里。在SUSv3的相關描述請參考sigaction這里*3。此外、雖然在GCC的參考手冊里也說了把指針類型更新成原子操作,但在標準C/C++卻沒有記載*4。
◆譯者注2:
When the processing of the abstract machine is interrupted by receipt of a signal, the value of objects with type other than volatile sig_atomic_t are unspecified, and the value of any object not of volatile sig_atomic_t that is modified by the handler becomes undefined.
------ ISO/IEC FDIS 14882:1998(E) 的1.9小節
錯誤3: 在信號處理函數里調用了不可重入的函數
上述的樣例代碼中調用了printf函數,但是這個函數是一個不可重入函數,所以在信號處理函數里調用的話可能會引起問題。具體的是,在信號處理函數里調用printf函數的瞬間,引起程序死鎖的可能性還是有的。但是,這個問題跟具體的時機有關系,所以再現起來很困難,也就成了一個很難解決的bug了。
下面講一下bug發生的過程。首先、講解一下printf函數的內部實現。
· printf函數內部調用malloc函數
· malloc函數會在內部維護一個靜態區域來保存mutex鎖、是為了在多線程調用malloc函數的時候起到互斥的作用
· 總之、malloc函數里有“mutex鎖定,分配內存,mutex解鎖”這樣“連續的不能被中斷”的處理
main関數:
call printf // while循環中的printf函數
call malloc
call pthread_mutex_lock(鎖定malloc函數內的靜態mutex)
// 在malloc處理時..
☆收到SIGINT信號!
call sig_handler
call printf // 信號處理函數中的printf函數
call malloc
call pthread_mutex_lock(鎖定malloc函數內的靜態mutex)
// 相同的mutex一被再度鎖定,就死鎖啦!!
知道上面的流程的話、像這樣的由于信號中斷引起的死鎖就能被理解了吧。為了修正這個bug,在信號處理函數里就必須調用可重入函數??芍厝牒瘮档囊挥[表在UNIX規范 (SUSv3)有詳細記載*5。你一定會驚訝于這個表里的函數少吧。
另外,一定不要忘記以下的幾點:
· 雖然在SUSv3里有異步信號安全(async-signal-safe)函數的一覽,但根據不同的操作系統,某些函數是沒有被實現的。所以一定要參考操作系統的手冊
· 第三者做成的函數,如果沒有特別說明的場合,首先要假定這個函數是不可重入函數,不能隨便在信 號處理函數中使用。
· 調用不可重入函數的那些函數就會變成不可重入函數了
最后,為了明確起見,想說明一下什么是” 異步信號安全(async-signal-safe)”函數。異步信號安全函數是指”在該函數內部即使因為信號而正在被中斷,在其他的地方該函數再被調用了也沒有任何問題”。如果函數中存在更新靜態區域里的數據的情況(例如,malloc),一般情況下都是不全的異步信號函數。但是,即使使用靜態數據,如果在這里這個數據時候把信號屏蔽了的話,它就會變成異步信號安全函數了。
◆譯者注3:不可重入函數就不是異步信號安全函數
*1:sigaction函數被調用前,一接收到SIGINT信號就終止程序,暫且除外吧
*2:“最大”是不完全正確的。例如,Alpha平臺上32/64bit的變量用一條命令也能被更新,但是好像把8/16bit的數據更新編程了多條命令了。http://lists.sourceforge.jp/mailman/archives/anthy-dev/2005-September/002336.html 請參考這個URL地址。
*3:If the signal occurs other than as the result of calling abort(), kill(), or raise(), the behavior is undefined if the signal handler calls any function in the standard library other than one of the functions listed in the table above or refers to any object with static storage duration other than by assigning a value to a static storage duration variable of type volatile sig_atomic_t. Furthermore, if such a call fails, the value of errno is unspecified.
*4:在這個手冊里“ In practice, you can assume that int and other integer types no longer than int are atomic. ”這部分是不正確的。請參照Alpha的例子
*5:The following table defines a set of functions that shall be either reentrant or non-interruptible by signals and shall be async-signal-safe. 后面有異步信號安全函數一覽