概述
邊緣觸發 是指每當狀態變化時發生一個io事件;
條件觸發 是只要滿足條件就發生一個io事件;
詳述
int select(int n, fd_set *rd_fds, fd_set *wr_fds, fd_set *ex_fds, struct timeval *timeout);
select用到了fd_set結構,此處有一個FD_SETSIZE決定fd_set的容量,FD_SETSIZE默認1024,可以通過ulimit -n或者setrlimit函數修改之。
int poll(struct pollfd *ufds, unsigned int nfds, int timeout);
作為select的替代品,poll的參數用struct pollfd數組(第一個參數)來取代fd_set,數組大小自己定義,這樣的話避免了FD_SETSIZE給程序帶來的麻煩。
每次的 select/poll操作,都需要建立當前線程的關心事件列表,并掛起此線程到等待隊列中 直到事件觸發或者timeout結束,同時select/poll返回后也需要對傳入的句柄列表做一次掃描來dispatch。隨著連接數增 加,select和poll的性能是嚴重非線性下降。
epoll(linux), kqueue(freebsd), /dev/poll(solaris):
作為針對select和poll的升級(可以這么理解:)),主要它們做了兩件事情
1. 避免了每次調用select/poll時kernel分析參數建立事件等待結構的開銷,kernel維護一個長期的事件關注列表,應用程序通過句柄修改這個列表和捕獲I/O事件。
2. 避免了select/poll返回后,應用程序掃描整個句柄表的開銷,Kernel直接返回具體的事件列表給應用程序。
同時還有兩種觸發機制:
水平觸發(level-triggered,也被稱為條件觸發)LT: 只要滿足條件,就觸發一個事件(只要有數據沒有被獲取,內核就不斷通知你)
邊緣觸發(edge-triggered)ET: 每當狀態變化時,觸發一個事件
“舉個讀socket的例子,假定經過長時間的沉默后,現在來了100個字節,這時無論邊緣觸發和條件觸發都會產生一個read ready notification通知應用程序可讀。應用程序讀了50個字節,然后重新調用api等待io事件。這時條件觸發的api會因為還有50個字節可讀從 而立即返回用戶一個read ready notification。而邊緣觸發的api會因為可讀這個狀態沒有發生變化而陷入長期等待。 因此在使用邊緣觸發的api時,要注意每次都要讀到socket返回EWOULDBLOCK為止,否則這個socket就算廢了。而使用條件觸發的api 時,如果應用程序不需要寫就不要關注socket可寫的事件,否則就會無限次的立即返回一個write ready notification。大家常用的select就是屬于條件觸發這一類,長期關注socket寫事件會出現CPU 100%的毛病。
epoll的優點:
1.支持一個進程打開大數目的socket描述符(FD)
select 最不能忍受的是一個進程所打開的FD是有一定限制的,由FD_SETSIZE設置,默認值是2048。對于那些需要支持的上萬連接數目的IM服務器來說顯 然太少了。這時候你一是可以選擇修改這個宏然后重新編譯內核,不過資料也同時指出這樣會帶來網絡效率的下降,二是可以選擇多進程的解決方案(傳統的 Apache方案),不過雖然linux上面創建進程的代價比較小,但仍舊是不可忽視的,加上進程間數據同步遠比不上線程間同步的高效,所以也不是一種完 美的方案。不過 epoll則沒有這個限制,它所支持的FD上限是最大可以打開文件的數目,這個數字一般遠大于2048,舉個例子,在1GB內存的機器上大約是10萬左 右,具體數目可以cat /proc/sys/fs/file-max察看,一般來說這個數目和系統內存關系很大。
2.IO效率不隨FD數目增加而線性下降
傳統的select/poll另一個致命弱點就是當你擁有一個很大的socket集合,不過由于網絡延時,任一時間只有部分的socket是"活躍"的, 但是select/poll每次調用都會線性掃描全部的集合,導致效率呈現線性下降。但是epoll不存在這個問題,它只會對"活躍"的socket進行 操作---這是因為在內核實現中epoll是根據每個fd上面的callback函數實現的。那么,只有"活躍"的socket才會主動的去調用 callback函數,其他idle狀態socket則不會,在這點上,epoll實現了一個"偽"AIO,因為這時候推動力在os內核。在一些 benchmark中,如果所有的socket基本上都是活躍的---比如一個高速LAN環境,epoll并不比select/poll有什么效率,相 反,如果過多使用epoll_ctl,效率相比還有稍微的下降。但是一旦使用idle connections模擬WAN環境,epoll的效率就遠在select/poll之上了。
3.使用mmap加速內核與用戶空間的消息傳遞。
這點實際上涉及到epoll的具體實現了。無論是select,poll還是epoll都需要內核把FD消息通知給用戶空間,如何避免不必要的內存拷貝就 很重要,在這點上,epoll是通過內核于用戶空間mmap同一塊內存實現的。而如果你想我一樣從2.5內核就關注epoll的話,一定不會忘記手工 mmap這一步的。
4.內核微調
這一點其實不算epoll的優點了,而是整個linux平臺的優點。也許你可以懷疑linux平臺,但是你無法回避linux平臺賦予你微調內核的能力。 比如,內核TCP/IP協議棧使用內存池管理sk_buff結構,那么可以在運行時期動態調整這個內存pool(skb_head_pool)的大小 --- 通過echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函數的第2個參數(TCP完成3次握手 的數據包隊列長度),也可以根據你平臺內存大小動態調整。更甚至在一個數據包面數目巨大但同時每個數據包本身大小卻很小的特殊系統上嘗試最新的NAPI網 卡驅動架構。 ?