Write your own http server
author : Kevin Lynx
Why write your own?
看這個問題的人證明你知道什么是http server,世界上有很多各種規(guī)模的http server,為什么要自己實現(xiàn)一個?其實沒什么
理由。我自己問自己,感覺就是在自己娛樂自己,或者說只是練習下網(wǎng)絡編程,或者是因為某日我看到某個庫宣稱自己附帶一個小
型的http server時,我不知道是什么東西,于是就想自己去實現(xiàn)一個。
What's httpd ?
httpd就是http daemon,這個是類unix系統(tǒng)上的名稱,也就是http server。httpd遵循HTTP協(xié)議,響應HTTP客戶端的request,
然后返回response。
那么,什么是HTTP協(xié)議?最簡單的例子,就是你的瀏覽器與網(wǎng)頁服務器之間使用的應用層協(xié)議。雖然官方文檔說HTTP協(xié)議可以
建立在任何可靠傳輸?shù)膮f(xié)議之上,但是就我們所見到的,HTTP還是建立在TCP之上的。
httpd最簡單的response是返回靜態(tài)的HTML頁面。在這里我們的目標也只是一個響應靜態(tài)網(wǎng)頁的httpd而已(也許你愿意加入CGI
特性)。
More details about HTTP protocol
在這里有必要講解HTTP協(xié)議的更多細節(jié),因為我們的httpd就是要去解析這個協(xié)議。
關于HTTP協(xié)議的詳細文檔,可以參看rfc2616。但事實上對于實現(xiàn)一個簡單的響應靜態(tài)網(wǎng)頁的httpd來說,完全沒必要讀這么一
分冗長的文檔。在這里我推薦<HTTP Made Really Easy>,以下內容基本取自于本文檔。
- HTTP協(xié)議結構
HTTP協(xié)議無論是請求報文(request message)還是回應報文(response message)都分為四部分:
* 報文頭 (initial line )
* 0個或多個header line
* 空行(作為header lines的結束)
* 可選body
HTTP協(xié)議是基于行的協(xié)議,每一行以\r\n作為分隔符。報文頭通常表明報文的類型(例如請求類型),報文頭只占一行;header line
附帶一些特殊信息,每一個header line占一行,其格式為name:value,即以分號作為分隔;空行也就是一個\r\n;可選body通常
包含數(shù)據(jù),例如服務器返回的某個靜態(tài)HTML文件的內容。舉個例子,以下是一個很常見的請求報文,你可以截獲瀏覽器發(fā)送的數(shù)據(jù)
包而獲得:
1 GET /index.html HTTP/1.1
2 Accept-Language: zh-cn
3 Accept-Encoding: gzip, deflate
4 User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; MAXTHON 2.0)
5 Host: localhost
6 Connection: Keep-Alive
7
我為每一行都添加了行號,第1行就是initial line,2-6行是header lines,7行是一個header line的結束符,沒有顯示出來。
以下是一個回應報文:
1 HTTP/1.1 200 OK
2 Server: klhttpd/0.1.0
3 Content-Type: text/html
4 Content-Length: 67
5
6 <head><head><title>index.html</title></head><body>index.html</body>
第6行就是可選的body,這里是index.html這個文件的內容。
- HTTP request method
因為我們做的事服務器端,所以我們重點對請求報文做說明。首先看initial line,該行包含幾個字段,每個字段用空格分開,例
如以上的GET /index.html HTTP/1.1就可以分為三部分:GET、/index.html、HTTP/1.1。其中第一個字段GET就是所謂的request
method。它表明請求類型,HTTP有很多method,例如:GET、POST、HEAD等。
就我們的目標而言,我們只需要實現(xiàn)對GET和HEAD做響應即可。
GET是最普遍的method,表示請求一個資源。什么是資源?諸如HTML網(wǎng)頁、圖片、聲音文件等都是資源。順便提一句,HTTP協(xié)議
中為每一個資源設置一個唯一的標識符,就是所謂的URI(更寬泛的URL)。
HEAD與GET一樣,不過它不請求資源內容,而是請求資源信息,例如文件長度等信息。
- More detail
繼續(xù)說說initial line后面的內容:
對應于GET和HEAD兩個method,緊接著的字段就是資源名,其實從這里可以看出,也就是文件名(相對于你服務器的資源目錄),例
如這里的/index.html;最后一個字段表明HTTP協(xié)議版本號。目前我們只需要支持HTTP1.1和1.0,沒有多大的技術差別。
然后是header line。我們并不需要關注每一個header line。我只羅列有用的header line :
- Host : 對于HTTP1.1而言,請求報文中必須包含此header,如果沒有包含,服務器需要返回bad request錯誤信息。
- Date : 用于回應報文,用于客戶端緩存數(shù)據(jù)用。
- Content-Type : 用于回應報文,表示回應資源的文件類型,以MIME形式給出。什么是MIME?它們都有自己的格式,例如:
text/html, image/jpg, image/gif等。
- Content-Length : 用于回應報文,表示回應資源的文件長度。
body域很簡單,你只需要將一個文件全部讀入內存,然后附加到回應報文段后發(fā)送即可,即使是二進制數(shù)據(jù)。
- 回應報文
之前提到的一個回應報文例子很典型,我們以其為例講解。首先是initial line,第一個字段表明HTTP協(xié)議版本,可以直接以請求
報文為準(即請求報文版本是多少這里就是多少);第二個字段是一個status code,也就是回應狀態(tài),相當于請求結果,請求結果
被HTTP官方事先定義,例如200表示成功、404表示資源不存在等;最后一個字段為status code的可讀字符串,你隨便給吧。
回應報文中最好跟上Content-Type、Content-Length等header。
具體實現(xiàn)
正式寫代碼之前我希望你能明白HTTP協(xié)議的這種請求/回應模式,即客戶端發(fā)出一個請求,然后服務器端回應該請求。然后繼續(xù)
這個過程(HTTP1.1是長連接模式,而HTTP1.0是短連接,當服務器端返回第一個請求時,連接就斷開了)。
這里,我們無論客戶端,例如瀏覽器,發(fā)出什么樣的請求,請求什么資源,我們都回應相同的數(shù)據(jù):

/**//* 阻塞地接受一個客戶端連接 */
SOCKET con = accept( s, 0, 0 );

/**//* recv request */

char request[1024] =
{ 0 };
ret = recv( con, request, sizeof( request ), 0 );
printf( request );

/**//* whatever we recv, we send 200 response */

{
char content[] = "<head><head><title>index.html</title></head><body>index.html</body>";
char response[512];
sprintf( response, "HTTP/1.1 200 OK\r\nContent-Type: text/html\r\nContent-Length: %d\r\n\r\n%s", strlen( content ), content );
ret = send( con, response, strlen( response ), 0 );
}
closesocket( con );
程序以最簡單的阻塞模式運行,我們可以將重點放在協(xié)議的分析上。運行程序,在瀏覽器里輸入http://localhost:8080/index.html
,然后就可以看到瀏覽器正常顯示content中描述的HTML文件。假設程序在8080端口監(jiān)聽。
現(xiàn)在你基本上明白了整個工作過程,我們可以把代碼寫得更全面一點,例如根據(jù)GET的URI來載入對應的文件然后回應給客戶端。
其實這個很簡單,只需要從initial line里解析出(很一般的字符串解析)URI字段,然后載入對應的文件即可。例如以下函數(shù):
void http_response( SOCKET con, const char *request )


{

/**//* get the method */
char *token = strtok( request, " " );
char *uri = strtok( 0, " " );
char file[64];
sprintf( file, ".%s", uri );


{

/**//* load the file content */
FILE *fp = fopen( file, "rb" );
if( fp == 0 )

{

/**//* response 404 status code */
char response[] = "HTTP/1.1 404 NOT FOUND\r\n\r\n";
send( con, response, strlen( response ), 0 );
}
else

{

/**//* response the resource */

/**//* first, load the file */
int file_size ;
char *content;
char response[1024];
fseek( fp, 0, SEEK_END );
file_size = ftell( fp );
fseek( fp, 0, SEEK_SET );
content = (char*)malloc( file_size + 1 );
fread( content, file_size, 1, fp );
content[file_size] = 0;

sprintf( response, "HTTP/1.1 200 OK\r\nContent-Type: text/html\r\nContent-Length: %d\r\n\r\n%s", file_size, content );
send( con, response, strlen( response ), 0 );
free( content );
}
}
}


其他
要將這個簡易的httpd做完善,我們還需要注意很多細節(jié)。包括:對不支持的method返回501錯誤;對于HTTP1.1要求有Host這個
header;為了支持客戶端cache,需要添加Date header;支持HEAD請求等。
相關下載中我提供了一個完整的httpd library,純C的代碼,在其上加上一層資源載入即可實現(xiàn)一個簡單的httpd。在這里我將
對代碼做簡要的說明:
evbuffer.h/buffer.c : 取自libevent的buffer,用于緩存數(shù)據(jù);
klhttp-internal.h/klhttp-internal.c :主要用于處理/解析HTTP請求,以及創(chuàng)建回應報文;
klhttp-netbase.h/klhttp-netbase.c :對socket api的一個簡要封裝,使用select模型;
klhttp.h/klhttp.c :庫的最上層,應用層主要與該層交互,這一層主要集合internal和netbase。
test_klhttp.c :一個測試例子。
相關下載:
klhttpd
文中相關代碼
參考資料:
http://www.w3.org/Protocols/rfc2616/rfc2616.html
http://jmarshall.com/easy/http/
http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html