摘要:
在對(duì)多線程并發(fā)的編程環(huán)境下,死鎖是我們經(jīng)常碰到的和經(jīng)常需要解決的問(wèn)題。所謂死鎖,即:由于資源占用是互斥的,當(dāng)某個(gè)線(進(jìn))程提出申請(qǐng)資源后,使得有關(guān)進(jìn)程在無(wú)外力協(xié)助下,永遠(yuǎn)分配不到必需的資源而無(wú)法繼續(xù)運(yùn)行,這就產(chǎn)生了一種特殊現(xiàn)象死鎖,如下圖:

線程#1在獲得Lock A后,需要獲得Lock B,而同時(shí),線程#2在Lock B后,需要獲得Lock A。對(duì)于線程#1和#2,由于都不能獲得滿足的條件,而無(wú)法繼續(xù)執(zhí)行,死鎖就形成了。
死鎖是多線程并發(fā)編程的大難題,我們可以通過(guò)Log Trace、多線程編程輔助工具、IDE調(diào)試環(huán)境等手段進(jìn)行調(diào)試、跟蹤。然而,另一個(gè)更難對(duì)付的問(wèn)題是“假死鎖”(我在這里暫且稱為“假死鎖”,實(shí)在找不到什么更好的稱呼)。所謂的假死鎖,我給出的定義是:在有限的時(shí)間內(nèi)的死鎖。與死鎖不同的是,其持續(xù)的時(shí)間是有限的,而大家都知道,死鎖持續(xù)的時(shí)間是無(wú)限的,如果碰到死鎖,程序接下來(lái)是什么都干不了了。而正是由于假死鎖的相對(duì)的持續(xù)時(shí)間,給我們編程人員會(huì)帶來(lái)更大的麻煩。可以想象得到,我們想通過(guò)某些工具來(lái)Trace這樣一個(gè)特定的時(shí)間段是非常困難的,更多的情況下,我們需要結(jié)合LOG進(jìn)行合理的分析,使得問(wèn)題得以解決。本文就假死鎖產(chǎn)生的條件,環(huán)境,以及解決的辦法做一個(gè)討論。
一、假死鎖的產(chǎn)生條件。
考慮下面的例子(我只是給給出了偽代碼),假設(shè)我們系統(tǒng)中的線程個(gè)數(shù)是確定的,有限的。在本例中,系統(tǒng)總的線程數(shù)目是3。如下圖:

線程#1,#2,#3都可能被調(diào)度進(jìn)入臨界區(qū)A,我們假設(shè)線程#1執(zhí)行臨界區(qū)A時(shí)花費(fèi)了10s的時(shí)間,而在這10s的時(shí)間里,線程#2與線程#3都處于等待的狀態(tài)。也就是說(shuō):在這個(gè)10s的時(shí)間里,系統(tǒng)是沒(méi)法響應(yīng)任何的其他請(qǐng)求。我們稱之為10s的假死鎖。如果在這段時(shí)間里,系統(tǒng)需要一些關(guān)鍵的請(qǐng)求被執(zhí)行,這些關(guān)鍵請(qǐng)求是需要real time地被處理,比如說(shuō)是Timer事件,則后果是不堪設(shè)想的。(注意:我們的假定是系統(tǒng)中的線程只有#1,#2,#3)。
以此,總結(jié)一下發(fā)生假死鎖的條件,如下:
--〉臨界區(qū)的代碼在集中的時(shí)間段內(nèi),可能被系統(tǒng)中的任意線程執(zhí)行,完全由操作系統(tǒng)決定。
--〉臨界區(qū)的代碼在某些情況下,可能是很耗時(shí)的。(比如:其執(zhí)行時(shí)間大于100ms,或者,甚至是秒級(jí)別的)
二、在Proactor(IOCP)中的假死鎖。
在前面的文章中,我提到過(guò)在windows平臺(tái)上,Proactor設(shè)計(jì)模式是基于IOCP的。在這里,本文不會(huì)用過(guò)多的語(yǔ)言來(lái)闡述Proactor是怎樣的設(shè)計(jì),重點(diǎn)放在Proactor的假死鎖及其一些解決的辦法。另外需要說(shuō)明的是,我這里所說(shuō)的Proactor,在技術(shù)層面上,等同于IOCP,我們也可以按照IOCP來(lái)理解我所闡釋的概念。
我們都知道,IOCP是靠工作者線程來(lái)驅(qū)動(dòng)的。工作者線程與一個(gè)完成端口對(duì)象相關(guān)聯(lián),當(dāng)IO 請(qǐng)求被投遞到完成端口對(duì)象時(shí),這些線程為完成端口服務(wù)。需要說(shuō)明的是,應(yīng)該創(chuàng)建多少個(gè)線程來(lái)為完成端口服務(wù),是你的應(yīng)用設(shè)計(jì)來(lái)決定的(很重要的的一點(diǎn)是:在調(diào)用CreateIoCompletionPort時(shí)指定的并發(fā)線程的個(gè)數(shù),和創(chuàng)建的工作者線程的個(gè)數(shù)是有區(qū)別的,詳細(xì)的技術(shù)細(xì)節(jié),請(qǐng)參考其他資料)。但是總的來(lái)說(shuō),在你的系統(tǒng)交付運(yùn)行后,工作者線程的線程數(shù)目是一個(gè)確定的值。其結(jié)構(gòu)圖,大致如下:

我們假定使用了線程數(shù)目為4的工作者線程來(lái)為完成端口服務(wù),它們通過(guò)調(diào)用來(lái)GetQueuedCompletionStatus方法來(lái)從完成端口中獲取IO相關(guān)的packet,一旦獲得,它們都會(huì)回調(diào)業(yè)務(wù)邏輯層的代碼來(lái)進(jìn)行相關(guān)的業(yè)務(wù)邏輯處理。到這里我們看到,假設(shè),在業(yè)務(wù)邏輯層存在臨界互斥區(qū),并且在某一個(gè)集中的時(shí)間段內(nèi),工作者線程都可能被調(diào)度執(zhí)行該臨界互斥區(qū),那么,假死鎖的條件基本形成,如果某一個(gè)線程在該區(qū)域花費(fèi)的時(shí)間比較長(zhǎng),假死鎖就會(huì)發(fā)生。
一般來(lái)說(shuō),解決這樣的問(wèn)題的關(guān)鍵就是打破形成假死鎖的條件:
第一、在回調(diào)函數(shù)里,盡量減少鎖的使用。
第二、減量減少臨界互斥區(qū)的執(zhí)行時(shí)間。對(duì)于一些慢速的操作尤其注意。比如:當(dāng)你在臨界互斥區(qū)訪問(wèn)慢速的IO操作時(shí)(打開(kāi)文件,讀寫(xiě)文件等),可能需要考慮Cache機(jī)制,通過(guò)使用內(nèi)存來(lái)代替慢速的disk。
第三、將臨界互斥區(qū)代碼委托給另外獨(dú)立的線程(或線程組)執(zhí)行,代價(jià)是增加這些線程間的通訊。
第四、通過(guò)使用流控等手段,避免讓所有的線程在集中的時(shí)間段內(nèi)訪問(wèn)該臨界互斥區(qū)。
三、結(jié)束語(yǔ):
事實(shí)上,類似這樣的問(wèn)題,一旦存在,是很難發(fā)現(xiàn)和調(diào)試的。不過(guò)對(duì)于多線程的編程,我們都應(yīng)該遵守以下的基本原則,以最大化的防止死鎖和假死鎖的發(fā)生。
--> 盡量減少鎖的使用頻率和保護(hù)范圍。
--> 當(dāng)線程在互斥鎖的保護(hù)范圍內(nèi)執(zhí)行代碼時(shí),應(yīng)該:盡量減少對(duì)慢速IO設(shè)備的訪問(wèn)(如:disk),盡量避免獲得其它互斥資源。
--〉正確使用各種鎖,包括:原子操作原語(yǔ),Read Lock, Write Lock, 和Recursive Lock等。這些鎖在不同的場(chǎng)景下有著不同的作用。