• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆-4  評(píng)論-40  文章-117  trackbacks-0

            一、 介紹
            Epoll 是一種高效的管理socket的模型,相對(duì)于select和poll來說具有更高的效率和易用性。傳統(tǒng)的select以及poll的效率會(huì)因?yàn)?socket數(shù)量的線形遞增而導(dǎo)致呈二次乃至三次方的下降,而epoll的性能不會(huì)隨socket數(shù)量增加而下降。標(biāo)準(zhǔn)的linux-2.4.20內(nèi)核不支持epoll,需要打patch。本文主要從linux-2.4.32和linux-2.6.10兩個(gè)內(nèi)核版本介紹epoll。
            二、 Epoll的使用
            epoll用到的所有函數(shù)都是在頭文件sys/epoll.h中聲明的,下面簡要說明所用到的數(shù)據(jù)結(jié)構(gòu)和函數(shù):
            所用到的數(shù)據(jù)結(jié)構(gòu)
            typedef union epoll_data {
                            void ptr;
                            int fd;
                            __uint32_t u32;
                            __uint64_t u64;
                  } epoll_data_t;

                  struct epoll_event {
                            __uint32_t events;    / Epoll events /
                            epoll_data_t data;    / User data variable /
                  };
            結(jié)構(gòu)體epoll_event 被用于注冊(cè)所感興趣的事件和回傳所發(fā)生待處理的事件,其中epoll_data 聯(lián)合體用來保存觸發(fā)事件的某個(gè)文件描述符相關(guān)的數(shù)據(jù),例如一個(gè)client連接到服務(wù)器,服務(wù)器通過調(diào)用accept函數(shù)可以得到于這個(gè)client對(duì)應(yīng)的socket文件描述符,可以把這文件描述符賦給epoll_data的fd字段以便后面的讀寫操作在這個(gè)文件描述符上進(jìn)行。epoll_event 結(jié)構(gòu)體的events字段是表示感興趣的事件和被觸發(fā)的事件可能的取值為:EPOLLIN :表示對(duì)應(yīng)的文件描述符可以讀;
            EPOLLOUT:表示對(duì)應(yīng)的文件描述符可以寫;
            EPOLLPRI:表示對(duì)應(yīng)的文件描述符有緊急的數(shù)據(jù)可讀
            EPOLLERR:表示對(duì)應(yīng)的文件描述符發(fā)生錯(cuò)誤;
            EPOLLHUP:表示對(duì)應(yīng)的文件描述符被掛斷;
            EPOLLET:表示對(duì)應(yīng)的文件描述符設(shè)定為edge模式;
            所用到的函數(shù):
            1、epoll_create函數(shù)
                函數(shù)聲明:int epoll_create(int size)
                該函數(shù)生成一個(gè)epoll專用的文件描述符,其中的參數(shù)是指定生成描述符的最大范圍。在linux-2.4.32內(nèi)核中根據(jù)size大小初始化哈希表的大小,在linux2.6.10內(nèi)核中該參數(shù)無用,使用紅黑樹管理所有的文件描述符,而不是hash。
            2、epoll_ctl函數(shù)
                函數(shù)聲明:int epoll_ctl(int epfd, int op, int fd, struct epoll_event event)
                該函數(shù)用于控制某個(gè)文件描述符上的事件,可以注冊(cè)事件,修改事件,刪除事件。
                參數(shù):epfd:由 epoll_create 生成的epoll專用的文件描述符;
                            op:要進(jìn)行的操作例如注冊(cè)事件,可能的取值
            EPOLL_CTL_ADD 注冊(cè)、
            EPOLL_CTL_MOD 修改、
            EPOLL_CTL_DEL 刪除
            fd:關(guān)聯(lián)的文件描述符;
            event:指向epoll_event的指針;
            如果調(diào)用成功返回0,不成功返回-1
            3、epoll_wait函數(shù)
            函數(shù)聲明:int epoll_wait(int epfd,struct epoll_event   events,int maxevents,int timeout)
            該函數(shù)用于輪詢I/O事件的發(fā)生;
            參數(shù):
            epfd:由epoll_create 生成的epoll專用的文件描述符;
            epoll_event:用于回傳代處理事件的數(shù)組;
            maxevents:每次能處理的事件數(shù);
            timeout:等待I/O事件發(fā)生的超時(shí)值(ms);-1永不超時(shí),直到有事件產(chǎn)生才觸發(fā),0立即返回。
            返回發(fā)生事件數(shù)。-1有錯(cuò)誤。

            舉一個(gè)簡單的例子:

            C/C++ codeint main()
            {
                //聲明epoll_event結(jié)構(gòu)體的變量,ev用于注冊(cè)事件,數(shù)組用于回傳要處理的事件
                struct epoll_event ev,events[20];

                epfd=epoll_create(10000); //創(chuàng)建epoll句柄
               
                listenfd = socket(AF_INET, SOCK_STREAM, 0);
                //把socket設(shè)置為非阻塞方式
                setnonblocking(listenfd);
               
                bzero(&serveraddr, sizeof(serveraddr));
                serveraddr.sin_family = AF_INET;
                serveraddr.sin_addr.s_addr = INADDR_ANY;
                serveraddr.sin_port=htons(SERV_PORT);
                bind(listenfd,(struct sockaddr )&serveraddr, sizeof(serveraddr));
                listen(listenfd, 255);

                //設(shè)置與要處理的事件相關(guān)的文件描述符
                ev.data.fd=listenfd;
                //設(shè)置要處理的事件類型
                ev.events=EPOLLIN;
                //注冊(cè)epoll事件
                epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

                for ( ; ; )
                {
                  //等待epoll事件的發(fā)生
                  nfds=epoll_wait(epfd,events,20,1000);
                  //處理所發(fā)生的所有事件
                  for(i=0;i<nfds;++i)
                  {
                     if(events
            .data.fd==listenfd)
                     {
                            connfd = accept(listenfd,(struct sockaddr )&clientaddr, &clilen);
                            if(connfd<0)
                            {
                              perror("connfd<0");
                            }
                            setnonblocking(connfd);
                            //設(shè)置用于讀操作的文件描述符
                            ev.data.fd=connfd;
                            //設(shè)置用于注測(cè)的讀操作事件
                            ev.events=EPOLLIN|EPOLLET;
                            //注冊(cè)event
                            epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);
                     }
                     else if(events
            .events&EPOLLIN)
                     {
                            read_socket(events
            .data.fd);
                            ev.data.fd=events
            .data.fd;
                            ev.events=EPOLLIN|EPOLLOUT|EPOLLET;
                            epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
                     }
                     else if(events
            .events&EPOLLOUT)
                     {
                            write_socket(events
            .data.fd);
                            ev.data.fd=events
            .data.fd;
                            ev.events=EPOLLIN|EPOLLET; //ET模式
                        epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
                     }
                     else
                     {
                            perror("other event");
                     }
                  }
                }
            }


            Epoll的ET模式與LT模式
            ET(Edge Triggered)與LT(Level Triggered)的主要區(qū)別可以從下面的例子看出
            eg:
            1. 標(biāo)示管道讀者的文件句柄注冊(cè)到epoll中;
            2. 管道寫者向管道中寫入2KB的數(shù)據(jù);
            3. 調(diào)用epoll_wait可以獲得管道讀者為已就緒的文件句柄;
            4. 管道讀者讀取1KB的數(shù)據(jù)
            5. 一次epoll_wait調(diào)用完成
            如果是ET模式,管道中剩余的1KB被掛起,再次調(diào)用epoll_wait,得不到管道讀者的文件句柄,除非有新的數(shù)據(jù)寫入管道。如果是LT模式,只要管道中有數(shù)據(jù)可讀,每次調(diào)用epoll_wait都會(huì)觸發(fā)。

            另一點(diǎn)區(qū)別就是設(shè)為ET模式的文件句柄必須是非阻塞的。
            三、 Epoll的實(shí)現(xiàn)
            Epoll 的源文件在/usr/src/linux/fs/eventpoll.c,在module_init時(shí)注冊(cè)一個(gè)文件系統(tǒng) eventpoll_fs_type,對(duì)該文件系統(tǒng)提供兩種操作poll和release,所以epoll_create返回的文件句柄可以被poll、 select或者被其它epoll epoll_wait。對(duì)epoll的操作主要通過三個(gè)系統(tǒng)調(diào)用實(shí)現(xiàn):
            1. sys_epoll_create
            2. sys_epoll_ctl
            3. sys_epoll_wait
            下面結(jié)合源碼講述這三個(gè)系統(tǒng)調(diào)用。
            1.1 long sys_epoll_create (int size)
            該系統(tǒng)調(diào)用主要分配文件句柄、inode以及file結(jié)構(gòu)。在linux-2.4.32內(nèi)核中,使用hash保存所有注冊(cè)到該epoll的文件句柄,在該系統(tǒng)調(diào)用中根據(jù)size大小分配hash的大小。具體為不小于size,但小于2size的2的某次方。最小為2的9次方(512),最大為2的17次方(128 x 1024)。在linux-2.6.10內(nèi)核中,使用紅黑樹保存所有注冊(cè)到該epoll的文件句柄,size參數(shù)未使用。
            1.2 long sys_epoll_ctl(int epfd, int op, int fd, struct epoll_event event)
            1. 注冊(cè)句柄 op = EPOLL_CTL_ADD
            注冊(cè)過程主要包括:
            A.將fd插入到hash(或rbtree)中,如果原來已經(jīng)存在返回-EEXIST,
            B.給fd注冊(cè)一個(gè)回調(diào)函數(shù),該函數(shù)會(huì)在fd有事件時(shí)調(diào)用,在該函數(shù)中將fd加入到epoll的就緒隊(duì)列中。
            C.檢查fd當(dāng)前是否已經(jīng)有期望的事件產(chǎn)生。如果有,將其加入到epoll的就緒隊(duì)列中,喚醒epoll_wait。

            2. 修改事件 op = EPOLL_CTL_MOD
            修改事件只是將新的事件替換舊的事件,然后檢查fd是否有期望的事件。如果有,將其加入到epoll的就緒隊(duì)列中,喚醒epoll_wait。

            3. 刪除句柄 op = EPOLL_CTL_DEL
            將fd從hash(rbtree)中清除。
            1.3 long sys_epoll_wait(int epfd, struct epoll_event events, int maxevents,int timeout)
            如果epoll的就緒隊(duì)列為空,并且timeout非0,掛起當(dāng)前進(jìn)程,引起CPU調(diào)度。
            如果epoll的就緒隊(duì)列不空,遍歷就緒隊(duì)列。對(duì)隊(duì)列中的每一個(gè)節(jié)點(diǎn),獲取該文件已觸發(fā)的事件,判斷其中是否有我們期待的事件,如果有,將其對(duì)應(yīng)的epoll_event結(jié)構(gòu)copy到用戶events。

            revents = epi->file->f_op->poll(epi->file, NULL);
            epi->revents = revents & epi->event.events;
            if (epi->revents) {
            ……
            copy_to_user;
            ……
            }
            需要注意的是,在LT模式下,把符合條件的事件copy到用戶空間后,還會(huì)把對(duì)應(yīng)的文件重新掛接到就緒隊(duì)列。所以在LT模式下,如果一次epoll_wait某個(gè)socket沒有read/write完所有數(shù)據(jù),下次epoll_wait還會(huì)返回該socket句柄。
            四、 使用epoll的注意事項(xiàng)
            1. ET模式比LT模式高效,但比較難控制。
            2. 如果某個(gè)句柄期待的事件不變,不需要EPOLL_CTL_MOD,但每次讀寫后將該句柄modify一次有助于提高穩(wěn)定性,特別在ET模式。
            3. socket關(guān)閉后最好將該句柄從epoll中delete(EPOLL_CTL_DEL),雖然epoll自身有處理,但會(huì)使epoll的hash的節(jié)點(diǎn)數(shù)增多,影響搜索hash的速度。
              
            Q:網(wǎng)絡(luò)服務(wù)器的瓶頸在哪?
            A:IO效率。

            在大家苦苦的為在線人數(shù)的增長而導(dǎo)致的系統(tǒng)資源吃緊上的問題正在發(fā)愁的時(shí)候,Linux 2.6內(nèi)核中提供的System Epoll為我們提供了一套完美的解決方案。傳統(tǒng)的select以及poll的效率會(huì)因?yàn)樵诰€人數(shù)的線形遞增而導(dǎo)致呈二次乃至三次方的下降,這些直接導(dǎo)致了網(wǎng)絡(luò)服務(wù)器可以支持的人數(shù)有了個(gè)比較明顯的限制。

            自從Linux提供了/dev/epoll的設(shè)備以及后來2.6內(nèi)核中對(duì)/dev /epoll設(shè)備的訪問的封裝(System Epoll)之后,這種現(xiàn)象得到了大大的緩解,如果說幾個(gè)月前,大家還對(duì)epoll不熟悉,那么現(xiàn)在來說的話,epoll的應(yīng)用已經(jīng)得到了大范圍的普及。

            那么究竟如何來使用epoll呢?其實(shí)非常簡單。
            通過在包含一個(gè)頭文件#include 以及幾個(gè)簡單的API將可以大大的提高你的網(wǎng)絡(luò)服務(wù)器的支持人數(shù)。

            首先通過create_epoll(int maxfds)來創(chuàng)建一個(gè)epoll的句柄,其中maxfds為你epoll所支持的最大句柄數(shù)。這個(gè)函數(shù)會(huì)返回一個(gè)新的epoll句柄,之后的所有操作將通過這個(gè)句柄來進(jìn)行操作。在用完之后,記得用close()來關(guān)閉這個(gè)創(chuàng)建出來的epoll句柄。

            之后在你的網(wǎng)絡(luò)主循環(huán)里面,每一幀的調(diào)用epoll_wait(int epfd, epoll_event events, int max events, int timeout)來查詢所有的網(wǎng)絡(luò)接口,看哪一個(gè)可以讀,哪一個(gè)可以寫了。基本的語法為:
            nfds = epoll_wait(kdpfd, events, maxevents, -1);
            其中kdpfd為用epoll_create創(chuàng)建之后的句柄,events是一個(gè)epoll_event的指針,當(dāng)epoll_wait這個(gè)函數(shù)操作成功之后,epoll_events里面將儲(chǔ)存所有的讀寫事件。max_events是當(dāng)前需要監(jiān)聽的所有socket句柄數(shù)。最后一個(gè)timeout是 epoll_wait的超時(shí),為0的時(shí)候表示馬上返回,為-1的時(shí)候表示一直等下去,直到有事件范圍,為任意正整數(shù)的時(shí)候表示等這么長的時(shí)間,如果一直沒有事件,則范圍。一般如果網(wǎng)絡(luò)主循環(huán)是單獨(dú)的線程的話,可以用-1來等,這樣可以保證一些效率,如果是和主邏輯在同一個(gè)線程的話,則可以用0來保證主循環(huán)的效率。

            epoll_wait范圍之后應(yīng)該是一個(gè)循環(huán),遍利所有的事件:

            C/C++ codefor(n = 0; n < nfds; ++n) {
                        if(events[n].data.fd == listener) { //如果是主socket的事件的話,則表示有新連接進(jìn)入了,進(jìn)行新連接的處理。
                               client = accept(listener, (struct sockaddr ) &local,
                                             &addrlen);
                               if(client < 0){
                                 perror("accept");
                                 continue;
                               }
                               setnonblocking(client); // 將新連接置于非阻塞模式
                               ev.events = EPOLLIN | EPOLLET; // 并且將新連接也加入EPOLL的監(jiān)聽隊(duì)列。
            注意,這里的參數(shù)EPOLLIN | EPOLLET并沒有設(shè)置對(duì)寫socket的監(jiān)聽,如果有寫操作的話,這個(gè)時(shí)候epoll是不會(huì)返回事件的,如果要對(duì)寫操作也監(jiān)聽的話,應(yīng)該是EPOLLIN | EPOLLOUT | EPOLLET
                               ev.data.fd = client;
                               if (epoll_ctl(kdpfd, EPOLL_CTL_ADD, client, &ev) < 0) {
            //   設(shè)置好event之后,將這個(gè)新的event通過epoll_ctl加入到epoll的監(jiān)聽隊(duì)列里面,這里用EPOLL_CTL_ADD來加一個(gè)新的 epoll事件,通過EPOLL_CTL_DEL來減少一個(gè)epoll事件,通過EPOLL_CTL_MOD來改變一個(gè)事件的監(jiān)聽方式。
                                 fprintf(stderr, "epoll set insertion error: fd=d0,
                                           client);
                                 return -1;
                               }
                        }
                        else // 如果不是主socket的事件的話,則代表是一個(gè)用戶socket的事件,則來處理這個(gè)用戶socket的事情,比如說read(fd,xxx)之類的,或者一些其他的處理。
                               do_use_fd(events[n].data.fd);
            }



            對(duì),epoll的操作就這么簡單,總共不過4個(gè)API:epoll_create, epoll_ctl, epoll_wait和close。

             

             

            Linux 2.6內(nèi)核中提高網(wǎng)絡(luò)I/O性能的新方法

            1、為什么select是落后的?
            首先,在Linux內(nèi)核中,select所用到的FD_SET是有限的,即內(nèi)核中有個(gè)參數(shù)__FD_SETSIZE定義了每個(gè)FD_SET的句柄個(gè)數(shù),在我用的2.6.15-25-386內(nèi)核中,該值是1024,搜索內(nèi)核源代碼得到:
            include/linux/posix_types.h:#define __FD_SETSIZE 1024
            也就是說,如果想要同時(shí)檢測(cè)1025個(gè)句柄的可讀狀態(tài)是不可能用select實(shí)現(xiàn)的。或者同時(shí)檢測(cè)1025個(gè)句柄的可寫狀態(tài)也是不可能的。
            其次,內(nèi)核中實(shí)現(xiàn)select是用輪詢方法,即每次檢測(cè)都會(huì)遍歷所有FD_SET中的句柄,顯然,select函數(shù)執(zhí)行時(shí)間與FD_SET中的句柄個(gè)數(shù)有一個(gè)比例關(guān)系,即select要檢測(cè)的句柄數(shù)越多就會(huì)越費(fèi)時(shí)。
            當(dāng)然,在前文中我并沒有提及poll方法,事實(shí)上用select的朋友一定也試過poll,我個(gè)人覺得select和poll大同小異,個(gè)人偏好于用select而已。
            2、2.6內(nèi)核中提高I/O性能的新方法epoll
            epoll是什么?按照man手冊(cè)的說法:是為處理大批量句柄而作了改進(jìn)的poll。要使用epoll只需要這三個(gè)系統(tǒng)調(diào)用:epoll_create(2), epoll_ctl(2), epoll_wait(2)。
            當(dāng)然,這不是2.6內(nèi)核才有的,它是在2.5.44內(nèi)核中被引進(jìn)的(epoll(4) is a new API introduced in Linux kernel 2.5.44)

            epoll的優(yōu)點(diǎn)
            <1>支持一個(gè)進(jìn)程打開大數(shù)目的socket描述符(FD)
            select 最不能忍受的是一個(gè)進(jìn)程所打開的FD是有一定限制的,由FD_SETSIZE設(shè)置,默認(rèn)值是2048。對(duì)于那些需要支持的上萬連接數(shù)目的IM服務(wù)器來說顯然太少了。這時(shí)候你一是可以選擇修改這個(gè)宏然后重新編譯內(nèi)核,不過資料也同時(shí)指出這樣會(huì)帶來網(wǎng)絡(luò)效率的下降,二是可以選擇多進(jìn)程的解決方案(傳統(tǒng)的 Apache方案),不過雖然linux上面創(chuàng)建進(jìn)程的代價(jià)比較小,但仍舊是不可忽視的,加上進(jìn)程間數(shù)據(jù)同步遠(yuǎn)比不上線程間同步的高效,所以也不是一種完美的方案。不過 epoll則沒有這個(gè)限制,它所支持的FD上限是最大可以打開文件的數(shù)目,這個(gè)數(shù)字一般遠(yuǎn)大于2048,舉個(gè)例子,在1GB內(nèi)存的機(jī)器上大約是10萬左右,具體數(shù)目可以cat /proc/sys/fs/file-max察看,一般來說這個(gè)數(shù)目和系統(tǒng)內(nèi)存關(guān)系很大。

            <2>IO效率不隨FD數(shù)目增加而線性下降
            傳統(tǒng)的select/poll另一個(gè)致命弱點(diǎn)就是當(dāng)你擁有一個(gè)很大的socket集合,不過由于網(wǎng)絡(luò)延時(shí),任一時(shí)間只有部分的socket是"活躍"的,但是select/poll每次調(diào)用都會(huì)線性掃描全部的集合,導(dǎo)致效率呈現(xiàn)線性下降。但是epoll不存在這個(gè)問題,它只會(huì)對(duì)"活躍"的socket進(jìn)行操作---這是因?yàn)樵趦?nèi)核實(shí)現(xiàn)中epoll是根據(jù)每個(gè)fd上面的callback函數(shù)實(shí)現(xiàn)的。那么,只有"活躍"的socket才會(huì)主動(dòng)的去調(diào)用 callback函數(shù),其他idle狀態(tài)socket則不會(huì),在這點(diǎn)上,epoll實(shí)現(xiàn)了一個(gè)"偽"AIO,因?yàn)檫@時(shí)候推動(dòng)力在os內(nèi)核。在一些 benchmark中,如果所有的socket基本上都是活躍的---比如一個(gè)高速LAN環(huán)境,epoll并不比select/poll有什么效率,相反,如果過多使用epoll_ctl,效率相比還有稍微的下降。但是一旦使用idle connections模擬WAN環(huán)境,epoll的效率就遠(yuǎn)在select/poll之上了。
            <3>使用mmap加速內(nèi)核與用戶空間的消息傳遞。
            這點(diǎn)實(shí)際上涉及到epoll的具體實(shí)現(xiàn)了。無論是select,poll還是epoll都需要內(nèi)核把FD消息通知給用戶空間,如何避免不必要的內(nèi)存拷貝就很重要,在這點(diǎn)上,epoll是通過內(nèi)核于用戶空間mmap同一塊內(nèi)存實(shí)現(xiàn)的。而如果你想我一樣從2.5內(nèi)核就關(guān)注epoll的話,一定不會(huì)忘記手工 mmap這一步的。
            <4>內(nèi)核微調(diào)
            這一點(diǎn)其實(shí)不算epoll的優(yōu)點(diǎn)了,而是整個(gè)linux平臺(tái)的優(yōu)點(diǎn)。也許你可以懷疑linux平臺(tái),但是你無法回避linux平臺(tái)賦予你微調(diào)內(nèi)核的能力。比如,內(nèi)核TCP/IP協(xié)議棧使用內(nèi)存池管理sk_buff結(jié)構(gòu),那么可以在運(yùn)行時(shí)期動(dòng)態(tài)調(diào)整這個(gè)內(nèi)存pool(skb_head_pool)的大小 --- 通過echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函數(shù)的第2個(gè)參數(shù)(TCP完成3次握手的數(shù)據(jù)包隊(duì)列長度),也可以根據(jù)你平臺(tái)內(nèi)存大小動(dòng)態(tài)調(diào)整。更甚至在一個(gè)數(shù)據(jù)包面數(shù)目巨大但同時(shí)每個(gè)數(shù)據(jù)包本身大小卻很小的特殊系統(tǒng)上嘗試最新的NAPI網(wǎng)卡驅(qū)動(dòng)架構(gòu)。
            epoll的使用
            令人高興的是,2.6內(nèi)核的epoll比其2.5開發(fā)版本的/dev/epoll簡潔了許多,所以,大部分情況下,強(qiáng)大的東西往往是簡單的。唯一有點(diǎn)麻煩是epoll有2種工作方式:LT和ET。
            LT(level triggered)是缺省的工作方式,并且同時(shí)支持block和no-block socket.在這種做法中,內(nèi)核告訴你一個(gè)文件描述符是否就緒了,然后你可以對(duì)這個(gè)就緒的fd進(jìn)行IO操作。如果你不作任何操作,內(nèi)核還是會(huì)繼續(xù)通知你的,所以,這種模式編程出錯(cuò)誤可能性要小一點(diǎn)。傳統(tǒng)的select/poll都是這種模型的代表.
            ET (edge-triggered)是高速工作方式,只支持no-block socket。在這種模式下,當(dāng)描述符從未就緒變?yōu)榫途w時(shí),內(nèi)核通過epoll告訴你。然后它會(huì)假設(shè)你知道文件描述符已經(jīng)就緒,并且不會(huì)再為那個(gè)文件描述符發(fā)送更多的就緒通知,直到你做了某些操作導(dǎo)致那個(gè)文件描述符不再為就緒狀態(tài)了(比如,你在發(fā)送,接收或者接收請(qǐng)求,或者發(fā)送接收的數(shù)據(jù)少于一定量時(shí)導(dǎo)致了一個(gè)EWOULDBLOCK 錯(cuò)誤)。但是請(qǐng)注意,如果一直不對(duì)這個(gè)fd作IO操作(從而導(dǎo)致它再次變成未就緒),內(nèi)核不會(huì)發(fā)送更多的通知(only once),不過在TCP協(xié)議中,ET模式的加速效用仍需要更多的benchmark確認(rèn)。
            epoll只有epoll_create,epoll_ctl,epoll_wait 3個(gè)系統(tǒng)調(diào)用,具體用法請(qǐng)參考http://www.xmailserver.org/linux-patches/nio-improve.html ,
            在http://www.kegel.com/rn/也有一個(gè)完整的例子,大家一看就知道如何使用了
            Leader/follower模式線程pool實(shí)現(xiàn),以及和epoll的配合

            在Linux上開發(fā)網(wǎng)絡(luò)服務(wù)器的一些相關(guān)細(xì)節(jié):poll與epoll
              隨著2.6內(nèi)核對(duì)epoll的完全支持,網(wǎng)絡(luò)上很多的文章和示例代碼都提供了這樣一個(gè)信息:使用epoll代替?zhèn)鹘y(tǒng)的 poll能給網(wǎng)絡(luò)服務(wù)應(yīng)用帶來性能上的提升。但大多文章里關(guān)于性能提升的原因解釋的較少,這里我將試分析一下內(nèi)核(2.6.21.1)代碼中poll與 epoll的工作原理,然后再通過一些測(cè)試數(shù)據(jù)來對(duì)比具體效果。 POLL:

            先說poll,poll或select為大部分Unix/Linux程序員所熟悉,這倆個(gè)東西原理類似,性能上也不存在明顯差異,但select對(duì)所監(jiān)控的文件描述符數(shù)量有限制,所以這里選用poll做說明。
            poll是一個(gè)系統(tǒng)調(diào)用,其內(nèi)核入口函數(shù)為sys_poll,sys_poll幾乎不做任何處理直接調(diào)用do_sys_poll,do_sys_poll的執(zhí)行過程可以分為三個(gè)部分:
            1,將用戶傳入的pollfd數(shù)組拷貝到內(nèi)核空間,因?yàn)榭截惒僮骱蛿?shù)組長度相關(guān),時(shí)間上這是一個(gè)O(n)操作,這一步的代碼在do_sys_poll中包括從函數(shù)開始到調(diào)用do_poll前的部分。
            2,查詢每個(gè)文件描述符對(duì)應(yīng)設(shè)備的狀態(tài),如果該設(shè)備尚未就緒,則在該設(shè)備的等待隊(duì)列中加入一項(xiàng)并繼續(xù)查詢下一設(shè)備的狀態(tài)。查詢完所有設(shè)備后如果沒有一個(gè)設(shè)備就緒,這時(shí)則需要掛起當(dāng)前進(jìn)程等待,直到設(shè)備就緒或者超時(shí),掛起操作是通過調(diào)用schedule_timeout執(zhí)行的。設(shè)備就緒后進(jìn)程被通知繼續(xù)運(yùn)行,這時(shí)再次遍歷所有設(shè)備,以查找就緒設(shè)備。這一步因?yàn)閮纱伪闅v所有設(shè)備,時(shí)間復(fù)雜度也是O(n),這里面不包括等待時(shí)間。相關(guān)代碼在do_poll函數(shù)中。
            3,將獲得的數(shù)據(jù)傳送到用戶空間并執(zhí)行釋放內(nèi)存和剝離等待隊(duì)列等善后工作,向用戶空間拷貝數(shù)據(jù)與剝離等待隊(duì)列等操作的的時(shí)間復(fù)雜度同樣是O(n),具體代碼包括do_sys_poll函數(shù)中調(diào)用do_poll后到結(jié)束的部分。
            EPOLL:
            接下來分析epoll,與poll/select不同,epoll不再是一個(gè)單獨(dú)的系統(tǒng)調(diào)用,而是由epoll_create/epoll_ctl/epoll_wait三個(gè)系統(tǒng)調(diào)用組成,后面將會(huì)看到這樣做的好處。
            先來看sys_epoll_create(epoll_create對(duì)應(yīng)的內(nèi)核函數(shù)),這個(gè)函數(shù)主要是做一些準(zhǔn)備工作,比如創(chuàng)建數(shù)據(jù)結(jié)構(gòu),初始化數(shù)據(jù)并最終返回一個(gè)文件描述符(表示新創(chuàng)建的虛擬epoll文件),這個(gè)操作可以認(rèn)為是一個(gè)固定時(shí)間的操作。
            epoll是做為一個(gè)虛擬文件系統(tǒng)來實(shí)現(xiàn)的,這樣做至少有以下兩個(gè)好處:
            1,可以在內(nèi)核里維護(hù)一些信息,這些信息在多次epoll_wait間是保持的,比如所有受監(jiān)控的文件描述符。
            2, epoll本身也可以被poll/epoll;
            具體epoll的虛擬文件系統(tǒng)的實(shí)現(xiàn)和性能分析無關(guān),不再贅述。
            在sys_epoll_create中還能看到一個(gè)細(xì)節(jié),就是epoll_create的參數(shù)size在現(xiàn)階段是沒有意義的,只要大于零就行。

            接著是sys_epoll_ctl(epoll_ctl對(duì)應(yīng)的內(nèi)核函數(shù)),需要明確的是每次調(diào)用sys_epoll_ctl只處理一個(gè)文件描述符,這里主要描述當(dāng)op為EPOLL_CTL_ADD時(shí)的執(zhí)行過程,sys_epoll_ctl做一些安全性檢查后進(jìn)入ep_insert,ep_insert里將 ep_poll_callback做為回掉函數(shù)加入設(shè)備的等待隊(duì)列(假定這時(shí)設(shè)備尚未就緒),由于每次poll_ctl只操作一個(gè)文件描述符,因此也可以認(rèn)為這是一個(gè)O(1)操作

            ep_poll_callback函數(shù)很關(guān)鍵,它在所等待的設(shè)備就緒后被系統(tǒng)回掉,執(zhí)行兩個(gè)操作:

            1,將就緒設(shè)備加入就緒隊(duì)列,這一步避免了像poll那樣在設(shè)備就緒后再次輪詢所有設(shè)備找就緒者,降低了時(shí)間復(fù)雜度,由O(n)到O(1);
            2,喚醒虛擬的epoll文件;
            最后是sys_epoll_wait,這里實(shí)際執(zhí)行操作的是ep_poll函數(shù)。該函數(shù)等待將進(jìn)程自身插入虛擬epoll文件的等待隊(duì)列,直到被喚醒(見上面ep_poll_callback函數(shù)描述),最后執(zhí)行ep_events_transfer將結(jié)果拷貝到用戶空間。由于只拷貝就緒設(shè)備信息,所以這里的拷貝是一個(gè)O(1)操作。
            還有一個(gè)讓人關(guān)心的問題就是epoll對(duì)EPOLLET的處理,即邊沿觸發(fā)的處理,粗略看代碼就是把一部分水平觸發(fā)模式下內(nèi)核做的工作交給用戶來處理,直覺上不會(huì)對(duì)性能有太大影響,感興趣的朋友歡迎討論。
            POLL/EPOLL對(duì)比:
            表面上poll的過程可以看作是由一次epoll_create/若干次epoll_ctl/一次epoll_wait/一次close等系統(tǒng)調(diào)用構(gòu)成,實(shí)際上epoll將poll分成若干部分實(shí)現(xiàn)的原因正是因?yàn)榉?wù)器軟件中使用poll的特點(diǎn)(比如Web服務(wù)器):
            1,需要同時(shí)poll大量文件描述符;
            2,每次poll完成后就緒的文件描述符只占所有被poll的描述符的很少一部分。
            3,前后多次poll調(diào)用對(duì)文件描述符數(shù)組(ufds)的修改只是很小;
            傳統(tǒng)的poll函數(shù)相當(dāng)于每次調(diào)用都重起爐灶,從用戶空間完整讀入ufds,完成后再次完全拷貝到用戶空間,另外每次poll都需要對(duì)所有設(shè)備做至少做一次加入和刪除等待隊(duì)列操作,這些都是低效的原因。

            epoll將以上情況都細(xì)化考慮,不需要每次都完整讀入輸出ufds,只需使用epoll_ctl調(diào)整其中一小部分,不需要每次epoll_wait都執(zhí)行一次加入刪除等待隊(duì)列操作,另外改進(jìn)后的機(jī)制使的不必在某個(gè)設(shè)備就緒后搜索整個(gè)設(shè)備數(shù)組進(jìn)行查找,這些都能提高效率。另外最明顯的一點(diǎn),從用戶的使用來說,使用epoll不必每次都輪詢所有返回結(jié)果已找出其中的就緒部分,O(n)變O(1),對(duì)性能也提高不少。

            此外這里還發(fā)現(xiàn)一點(diǎn),是不是將epoll_ctl改成一次可以處理多個(gè)fd(像semctl那樣)會(huì)提高些許性能呢?特別是在假設(shè)系統(tǒng)調(diào)用比較耗時(shí)的基礎(chǔ)上。不過關(guān)于系統(tǒng)調(diào)用的耗時(shí)問題還會(huì)在以后分析。

            POLL/EPOLL測(cè)試數(shù)據(jù)對(duì)比:
            測(cè)試的環(huán)境:我寫了三段代碼來分別模擬服務(wù)器,活動(dòng)的客戶端,僵死的客戶端,服務(wù)器運(yùn)行于一個(gè)自編譯的標(biāo)準(zhǔn)2.6.11內(nèi)核系統(tǒng)上,硬件為 PIII933,兩個(gè)客戶端各自運(yùn)行在另外的PC上,這兩臺(tái)PC比服務(wù)器的硬件性能要好,主要是保證能輕易讓服務(wù)器滿載,三臺(tái)機(jī)器間使用一個(gè)100M交換機(jī)連接。
            服務(wù)器接受并poll所有連接,如果有request到達(dá)則回復(fù)一個(gè)response,然后繼續(xù)poll。
            活動(dòng)的客戶端(Active Client)模擬若干并發(fā)的活動(dòng)連接,這些連接不間斷的發(fā)送請(qǐng)求接受回復(fù)。
            僵死的客戶端(zombie)模擬一些只連接但不發(fā)送請(qǐng)求的客戶端,其目的只是占用服務(wù)器的poll描述符資源。
            測(cè)試過程:保持10個(gè)并發(fā)活動(dòng)連接,不斷的調(diào)整僵并發(fā)連接數(shù),記錄在不同比例下使用poll與epoll的性能差別。僵死并發(fā)連接數(shù)根據(jù)比例分別是:0,10,20,40,80,160,320,640,1280,2560,5120,10240。
            下圖中橫軸表示僵死并發(fā)連接與活動(dòng)并發(fā)連接之比,縱軸表示完成40000次請(qǐng)求回復(fù)所花費(fèi)的時(shí)間,以秒為單位。紅色線條表示poll數(shù)據(jù),綠色表示 epoll數(shù)據(jù)。可以看出,poll在所監(jiān)控的文件描述符數(shù)量增加時(shí),其耗時(shí)呈線性增長,而epoll則維持了一個(gè)平穩(wěn)的狀態(tài),幾乎不受描述符個(gè)數(shù)影響。
            在監(jiān)控的所有客戶端都是活動(dòng)時(shí),poll的效率會(huì)略高于epoll(主要在原點(diǎn)附近,即僵死并發(fā)連接為0時(shí),圖上不易看出來),究竟epoll實(shí)現(xiàn)比poll復(fù)雜,監(jiān)控少量描述符并非它的長處。

            posted on 2012-02-09 13:48 李陽 閱讀(20333) 評(píng)論(0)  編輯 收藏 引用 所屬分類: Linux
            777午夜精品久久av蜜臀| 国产∨亚洲V天堂无码久久久| 久久中文娱乐网| 久久亚洲国产精品123区| 日韩电影久久久被窝网| 亚洲欧洲日产国码无码久久99| 久久777国产线看观看精品| 亚洲精品成人久久久| AV无码久久久久不卡蜜桃| 欧美精品福利视频一区二区三区久久久精品 | 欧美亚洲色综久久精品国产| 久久国产精品一区二区| 久久香综合精品久久伊人| 亚洲嫩草影院久久精品| 亚洲欧美伊人久久综合一区二区 | 亚洲精品99久久久久中文字幕| 亚洲国产精品无码久久一线| 久久综合狠狠综合久久97色| 99久久国产综合精品麻豆| 国产69精品久久久久观看软件| 久久精品成人免费网站| 无码人妻久久一区二区三区蜜桃 | 国产精品久久久久久影院| 免费无码国产欧美久久18| 久久精品国产亚洲一区二区三区| 99久久精品国内| 国产精品9999久久久久| 久久久久无码精品国产不卡| 日韩欧美亚洲国产精品字幕久久久| 精品久久久久久综合日本| 欧洲成人午夜精品无码区久久| 大香伊人久久精品一区二区| 无码8090精品久久一区| 国产精品永久久久久久久久久| 中文精品久久久久国产网址| 久久精品国产99国产电影网 | 成人精品一区二区久久久| 久久99精品国产一区二区三区| 99国产精品久久| 国产99久久久久久免费看| 精品综合久久久久久88小说|