作者:CppExplore http://www.shnenglu.com/CppExplore/和http://blog.csdn.net/cppexplore同步發(fā)布
一 服務(wù)器分類
從軟件性能角度,高性能服務(wù)器分:cpu密集型服務(wù)器/IO密集型服務(wù)器
(1)CPU密集型:該類服務(wù)器沒有對io的訪問/沒有同步點,性能瓶頸在于對cpu的充分利用。
典型的如轉(zhuǎn)發(fā)服務(wù)器/代理服務(wù)器/協(xié)議轉(zhuǎn)換類服務(wù)器/分布式總線服務(wù)器等。
(2)IO密集型:該類服務(wù)器存在對cache/db/硬盤等的同步訪問,或者對fcgi/其他服務(wù)器等的同步訪問。
簡單說有同步訪問點的均歸屬此類服務(wù)器。當(dāng)前硬件基礎(chǔ)下,有同步操作的服務(wù)器,性能瓶頸均在同步點的返回快慢上,而非cpu。
二 網(wǎng)絡(luò)層機制
對上述兩類服務(wù)器,均需要同樣高效的網(wǎng)絡(luò)層機制。當(dāng)前高效的網(wǎng)絡(luò)層也就是大家熟知的iocp/epoll/kqueue/port/dev.poll等,在各個os下使用宿主os推薦的高效網(wǎng)絡(luò)層機制,任何通過其他機制繞過這些機制的做法都不可能達(dá)到最好性能。這里推薦下boost.asio,文檔齊全,示例豐富,學(xué)習(xí)曲線平緩。
三 CPU密集型服務(wù)器設(shè)計
(1)單進(jìn)程單線程是改類服務(wù)器的本質(zhì)特征。
整個進(jìn)程只存在一個線程,所有代碼均運行在同一個線程中,均順序執(zhí)行,任何地方不需要加鎖。由于網(wǎng)絡(luò)線程的存在,實際上該類程序的唯一線程就是網(wǎng)絡(luò)線程,以linux為例,就是epoll線程。
在多核情況下,fork和cpu個數(shù)相同的進(jìn)程數(shù)并且如果可能使用sched_setaffinity類函數(shù)將進(jìn)程和cpu綁定。以充分利用多核性能。
該類服務(wù)器的代表:tuxedo/nginx.
(2)單進(jìn)程多線程,但多線程均完成同樣的功能,彼此之間互不依賴/互不影響 ,這是該類服務(wù)器的變體。
單進(jìn)程單線程無疑是該類服務(wù)器最理想最完美的實現(xiàn)。但有時候為了簡化部署,簡化業(yè)務(wù)上報,業(yè)務(wù)自檢,統(tǒng)一日志,尤其是統(tǒng)計類日志/配置動態(tài)生效等附加功能考慮,不得已犧牲少許性能而將上述“單進(jìn)程單線程,fork多個充分利用多核”方案改造為“獨立多線程充分利用多核”方案。
該方案中,多線程中的各個線程仍然是順序執(zhí)行,任何地方不需要加鎖,均為獨立的網(wǎng)絡(luò)線程。
相對方案(1), 該方案編程更復(fù)雜,而linux下線程調(diào)度又不如進(jìn)程高效,整體看為方便性犧牲了少許性能。
該類服務(wù)器的代表:我們的協(xié)議轉(zhuǎn)換網(wǎng)關(guān)/分布式總線服務(wù)器等。
(3)高效算法
優(yōu)化耗時較多算法/挑選合適容器,完成固定任務(wù),盡量減少cpu的運算量。
(4)錯誤設(shè)計:區(qū)分網(wǎng)絡(luò)線程/業(yè)務(wù)線程,將業(yè)務(wù)線程根據(jù)業(yè)務(wù)特點劃分各個線程階段。
對cpu密集型的服務(wù)器來說,關(guān)鍵在于充分利用cpu,盡量減少無用代碼的執(zhí)行。引如中間處理線程,意味著引入鎖切換/內(nèi)存復(fù)制/更多無效代碼,不可否認(rèn),在已有協(xié)議棧情況下,根據(jù)業(yè)務(wù)特點化分線程可以簡化編程。單純的單一線程意味著更復(fù)雜的編碼,尤其是涉及到更多中間狀態(tài)時。
在該場景下,有位牛人,對線程的點評:“線程是給那些不能將程序執(zhí)行序轉(zhuǎn)換成狀態(tài)機的笨人用的” 這句話真是再合適不過了。
四 IO密集型服務(wù)器設(shè)計
(1)網(wǎng)絡(luò)層多線程,中間線程按照業(yè)務(wù)特點設(shè)定,同步點操作使用多線程
同步點使用多線程是該類服務(wù)器的本質(zhì)特征。在同步操作的返回時間不能由本服務(wù)器控制的前提下,本服務(wù)器所能做的也就只能是加多線程數(shù),提供同步并發(fā)數(shù)。線程數(shù)的最優(yōu)配置取決于網(wǎng)絡(luò)層入口并發(fā)數(shù)以及同步操作返回的時間。簡單劃分可以網(wǎng)絡(luò)線程數(shù)=cpu個數(shù)/2.同步點線程數(shù)還取決于同步操作的代價,若為廉價的cache操作,則可適當(dāng)增多,若為昂貴的db操作,則要根據(jù)可以分配的連接數(shù)決定。
(2)減少人為產(chǎn)生的同步點
盡量減少訪問其他系統(tǒng)使用同步接口。
(3)優(yōu)化同步點
根據(jù)同步操作的特點優(yōu)化: 異步/增大緩存/批量等。
五 內(nèi)存操作/鎖機制/內(nèi)核態(tài)用戶態(tài)切換/日志操作
(1)內(nèi)存操作
內(nèi)存申請:減少內(nèi)存動態(tài)分配,推薦tcmalloc
內(nèi)存復(fù)制:CPU密集型,必須的內(nèi)存復(fù)制:(a)網(wǎng)絡(luò)讀:處從內(nèi)核態(tài)復(fù)制到用戶態(tài),僅1次 (b)網(wǎng)絡(luò)寫:異步內(nèi)存復(fù)制/用戶態(tài)到內(nèi)核態(tài) ,僅2次
IO密集型,內(nèi)存復(fù)制非關(guān)鍵點。
(2)鎖機制 CPU密集型:盡量無鎖. IO密集型: 非關(guān)鍵點
(3)內(nèi)核態(tài)用戶態(tài)切換
兩類服務(wù)器均相同,盡量減少內(nèi)核態(tài)/用戶態(tài)互相切換:每次調(diào)用系統(tǒng)調(diào)用盡可能讀取更多字符/僅可能減少不必要的系統(tǒng)調(diào)用(去除不必要的調(diào)用/通過緩存機制減少調(diào)用次數(shù))。
(4)日志操作 略
六 進(jìn)程vs線程vs協(xié)程
進(jìn)程和線程(略)
協(xié)程:和進(jìn)程/線程這種cpu調(diào)度單元不同,它更多是線程內(nèi)對象之間一種調(diào)度理念的優(yōu)化。協(xié)程對象有自己的堆棧,可以通過直接跳轉(zhuǎn)直接轉(zhuǎn)換執(zhí)行點,減少了內(nèi)存尋址操作。它特別適合用來優(yōu)化線程內(nèi)的某些基礎(chǔ)組件,包括:狀態(tài)機/調(diào)停者模式(或者線程內(nèi)隊列)。
在CPU密集型服務(wù)器的設(shè)計中,說道“線程是給那些不能將程序執(zhí)行序轉(zhuǎn)換成狀態(tài)機的笨人用的”,而有了協(xié)程,我們有了一種新的簡化編程的方法。將協(xié)程用于網(wǎng)絡(luò)層,可以手動實現(xiàn)類似select的功能,用于多對象參與的復(fù)雜中間狀態(tài),可以簡化編程。
但從整體性能角度看,協(xié)程則是雞肋的存在,從幾年前出現(xiàn)boost.Coroutine,到現(xiàn)在該項目停止開發(fā),boost引入更多其他方案asio/mpl/statechart,協(xié)程一路蹣跚。
七 總結(jié)
在當(dāng)前硬件體系架構(gòu)下,服務(wù)器性能的關(guān)鍵仍然是傳統(tǒng)的cpu/io/memory.
cpu密集型的服務(wù)器,需要最大限度充分利用所有cpu,以及盡量少的進(jìn)行內(nèi)存申請/內(nèi)存復(fù)制。
IO密集型服務(wù)器,需要最大限度提高io能力,為達(dá)到該目的,可以在非同步線程犧牲對cpu的利用率/犧牲對memory的高效使用,一切為提高io并發(fā)能力服務(wù)。
八 后記
特別感謝張杰同學(xué)代替我編譯探測程序代碼,讓我有時間碼點文字。