摘要:
在對多線程并發(fā)的編程環(huán)境下,死鎖是我們經(jīng)常碰到的和經(jīng)常需要解決的問題。所謂死鎖,即:由于資源占用是互斥的,當(dāng)某個線(進)程提出申請資源后,使得有關(guān)進程在無外力協(xié)助下,永遠(yuǎn)分配不到必需的資源而無法繼續(xù)運行,這就產(chǎn)生了一種特殊現(xiàn)象死鎖,如下圖:
線程#1在獲得Lock A后,需要獲得Lock B,而同時,線程#2在Lock B后,需要獲得Lock A。對于線程#1和#2,由于都不能獲得滿足的條件,而無法繼續(xù)執(zhí)行,死鎖就形成了。
死鎖是多線程并發(fā)編程的大難題,我們可以通過Log Trace、多線程編程輔助工具、IDE調(diào)試環(huán)境等手段進行調(diào)試、跟蹤。然而,另一個更難對付的問題是“假死鎖”(我在這里暫且稱為“假死鎖”,實在找不到什么更好的稱呼)。所謂的假死鎖,我給出的定義是:在有限的時間內(nèi)的死鎖。與死鎖不同的是,其持續(xù)的時間是有限的,而大家都知道,死鎖持續(xù)的時間是無限的,如果碰到死鎖,程序接下來是什么都干不了了。而正是由于假死鎖的相對的持續(xù)時間,給我們編程人員會帶來更大的麻煩。可以想象得到,我們想通過某些工具來Trace這樣一個特定的時間段是非常困難的,更多的情況下,我們需要結(jié)合LOG進行合理的分析,使得問題得以解決。本文就假死鎖產(chǎn)生的條件,環(huán)境,以及解決的辦法做一個討論。
一、假死鎖的產(chǎn)生條件。
考慮下面的例子(我只是給給出了偽代碼),假設(shè)我們系統(tǒng)中的線程個數(shù)是確定的,有限的。在本例中,系統(tǒng)總的線程數(shù)目是3。如下圖:
線程#1,#2,#3都可能被調(diào)度進入臨界區(qū)A,我們假設(shè)線程#1執(zhí)行臨界區(qū)A時花費了10s的時間,而在這10s的時間里,線程#2與線程#3都處于等待的狀態(tài)。也就是說:在這個10s的時間里,系統(tǒng)是沒法響應(yīng)任何的其他請求。我們稱之為10s的假死鎖。如果在這段時間里,系統(tǒng)需要一些關(guān)鍵的請求被執(zhí)行,這些關(guān)鍵請求是需要real time地被處理,比如說是Timer事件,則后果是不堪設(shè)想的。(注意:我們的假定是系統(tǒng)中的線程只有#1,#2,#3)。
以此,總結(jié)一下發(fā)生假死鎖的條件,如下:
--〉臨界區(qū)的代碼在集中的時間段內(nèi),可能被系統(tǒng)中的任意線程執(zhí)行,完全由操作系統(tǒng)決定。
--〉臨界區(qū)的代碼在某些情況下,可能是很耗時的。(比如:其執(zhí)行時間大于100ms,或者,甚至是秒級別的)
二、在Proactor(IOCP)中的假死鎖。
在前面的文章中,我提到過在windows平臺上,Proactor設(shè)計模式是基于IOCP的。在這里,本文不會用過多的語言來闡述Proactor是怎樣的設(shè)計,重點放在Proactor的假死鎖及其一些解決的辦法。另外需要說明的是,我這里所說的Proactor,在技術(shù)層面上,等同于IOCP,我們也可以按照IOCP來理解我所闡釋的概念。
我們都知道,IOCP是靠工作者線程來驅(qū)動的。工作者線程與一個完成端口對象相關(guān)聯(lián),當(dāng)IO 請求被投遞到完成端口對象時,這些線程為完成端口服務(wù)。需要說明的是,應(yīng)該創(chuàng)建多少個線程來為完成端口服務(wù),是你的應(yīng)用設(shè)計來決定的(很重要的的一點是:在調(diào)用CreateIoCompletionPort時指定的并發(fā)線程的個數(shù),和創(chuàng)建的工作者線程的個數(shù)是有區(qū)別的,詳細(xì)的技術(shù)細(xì)節(jié),請參考其他資料)。但是總的來說,在你的系統(tǒng)交付運行后,工作者線程的線程數(shù)目是一個確定的值。其結(jié)構(gòu)圖,大致如下:
我們假定使用了線程數(shù)目為4的工作者線程來為完成端口服務(wù),它們通過調(diào)用來GetQueuedCompletionStatus方法來從完成端口中獲取IO相關(guān)的packet,一旦獲得,它們都會回調(diào)業(yè)務(wù)邏輯層的代碼來進行相關(guān)的業(yè)務(wù)邏輯處理。到這里我們看到,假設(shè),在業(yè)務(wù)邏輯層存在臨界互斥區(qū),并且在某一個集中的時間段內(nèi),工作者線程都可能被調(diào)度執(zhí)行該臨界互斥區(qū),那么,假死鎖的條件基本形成,如果某一個線程在該區(qū)域花費的時間比較長,假死鎖就會發(fā)生。
一般來說,解決這樣的問題的關(guān)鍵就是打破形成假死鎖的條件:
第一、在回調(diào)函數(shù)里,盡量減少鎖的使用。
第二、減量減少臨界互斥區(qū)的執(zhí)行時間。對于一些慢速的操作尤其注意。比如:當(dāng)你在臨界互斥區(qū)訪問慢速的IO操作時(打開文件,讀寫文件等),可能需要考慮Cache機制,通過使用內(nèi)存來代替慢速的disk。
第三、將臨界互斥區(qū)代碼委托給另外獨立的線程(或線程組)執(zhí)行,代價是增加這些線程間的通訊。
第四、通過使用流控等手段,避免讓所有的線程在集中的時間段內(nèi)訪問該臨界互斥區(qū)。
三、結(jié)束語:
事實上,類似這樣的問題,一旦存在,是很難發(fā)現(xiàn)和調(diào)試的。不過對于多線程的編程,我們都應(yīng)該遵守以下的基本原則,以最大化的防止死鎖和假死鎖的發(fā)生。
--> 當(dāng)線程在互斥鎖的保護范圍內(nèi)執(zhí)行代碼時,應(yīng)該:盡量減少對慢速IO設(shè)備的訪問(如:disk),盡量避免獲得其它互斥資源。
--〉正確使用各種鎖,包括:原子操作原語,Read Lock, Write Lock, 和Recursive Lock等。這些鎖在不同的場景下有著不同的作用。