ET和LT:
LT一般用在單線程。
ET和EPOLLONESHOT配合用在多線程共享一個epoll環境下,EPOLLONESHOT標記觸發過的事件從epoll中移除,下次必須重新注冊,用來防止多線程同時取到同一個socket的事件產生沖突。
epoll_wait 第三個參數 取事件數量:
單線程模型當然盡可能一次多取一些效率高,多線程為了防止一個線程把所有事件取完其他線程饑餓,ACE實現是只取1個。
錯誤處理:
EAGIN | EINTR | EWOULDBLOCK 重試。
EPOLLERR | EPOLLHUP | EPOLLRDHUP 斷開連接。
驚群:
默認系統都會有這問題,據說新系統有修復不過還是處理一下比較好,一般解決方案是同時只有一個線程等待accept,可以單獨線程accept,將連接在分給其他工作線程。nginx是多進程模型,使用了基于共享內存的互斥鎖,使得同時只有一個工作進程的epoll含有accept的socket,通過這種方式實現連接數上的負載均衡(連接數少的工作進程得到accept鎖的概率高)。
為了避免大數據量io時,et模式下只處理一個fd,其他fd被餓死的情況發生。linux建議可以在fd聯系到的結構(一般都會自己封裝一個包含fd和讀寫緩沖的結構體)中增加ready位,然后epoll_wait觸發事件之后僅將其置位為ready模式,然后在下邊輪詢ready fd列表。
epoll實現:
epoll內部用了一個紅黑樹記錄添加的socket,用了一個雙向鏈表接收內核觸發的事件。
注冊的事件掛載在紅黑樹中(紅黑樹的插入時間效率是logN,其中n為樹的高度)。
掛載的事件會與設備(網卡)驅動建立回調關系,也就是說,當相應的事件發生時會調用這個回調方法。這個回調方法在內核中叫ep_poll_callback,它會將發生的事件添加到rdlist雙鏈表中。
使用mmap映射內存,減少內核態和用戶態的不同內存地址空間拷貝開銷。每次注冊新的事件到epoll中時,會把fd拷貝進內核,通過內核于用戶空間mmap同一塊內存保證了只會拷貝一次。(返回的時候不需要拷貝,select要)
執行epoll_ctl時,除了把socket放到紅黑樹上,還會給內核中斷處理程序注冊一個回調函數,告訴內核,如果這個句柄的中斷到了,就把它放到準備就緒list鏈表里。所以,當一個socket上有數據到了,內核在把網卡上的數據copy到內核中后就把socket插入到準備就緒鏈表里了。鏈表又是通過mmap映射的空間,所以在傳遞給用戶程序的時候不需要復制(這也是為什么比select效率高的原因,epoll_wait返回的只是就緒隊列,不需要輪詢 不需要復制完成的事件列表,select,poll實現需要自己不斷輪詢所有fd集合,直到設備就緒)。
epoll_wait最后會檢查socket,如果是 LT,并且這些socket上確實有未處理的事件時,又把該句柄放回到剛剛清空的準備就緒鏈表了(LT比ET低效的原因)。
可見,如果沒有大量的空閑,無效連接,epoll效率不比select高。
測試數據(僅是剛接觸go的時候好奇做的參考意義的測試):
同樣的環境,echo服務器測并發io,單線程epoll qps:45000左右,每連接/協程 go: 50000多,多線程epoll(開6個epoll,每個epoll開8線程,一共48線程):qps 70000多。