第一次寫關于技術的,可能看的人不多,罵爛的也不在少數,但是還是寫一點,可能對一些人有幫助,也提高自己的寫作水平,以后可以寫出更好的東西來。當然我在blog里面會堅持寫自己做過的東西,這起碼不會誤人子弟(高手直接跳過)。
是什么?
首先吹下水,告訴你什么是代理服務器(proxy)。代理服務器(Proxy),是一種特殊的網絡服務,允許客戶端通過它與另一個網絡服務進行非直接的連接。具體過程為:客戶端首先與代理服務器建立連接,接著發出一個對另外的目標服務器的文件或其它資源的連接請求,代理服務器通過與目標服務器連接或從緩存中取得請求的資源,并返回給客戶端。通常在這個過程中,代理服務器可能改變客戶端請求或服務器端響應的一些內容以滿足各種代理需要。
為什么需要?
當我們知道什么是代理服務器之后我們就會想代理服務器能干什么?總結如下:
1、提高訪問速度:代理服務器通過設置一個較大的緩沖區,當有外界的信息通過時,同時也將其保存到緩沖區中,當其他用戶再訪問相同的信息時, 則直接由緩沖區中取出信息,傳給用戶,以提高訪問速度。
2、控制對內部資源的訪問:如大學FTP,使用教育網內地址段免費代理服務器,就可以用于對教育網開放的各類FTP下載上傳,以及各類資料查詢共享等服務。暫時我還沒有找到我們學校內部的代理服務器。
3、過濾內容:例如限制對特定計算機的訪問,將一種語言的數據翻譯成另一種語言,或是防御代理服務器兩邊的攻擊性訪問。我們很多東西都被和諧掉了,不知道代理服務器是神是鬼。
4隱藏真實IP:上網者也可以通過代理服務器隱藏自己的IP,免受攻擊。當然黑客可能用這項功能來隱藏自己,讓你很難找到。
5、突破內容過濾機制,訪問個別過濾的網站。如果Google以后不能訪問的話看來我要找個代理服務器了。現在都很多優秀的網站我都訪問不了了。
怎么去做?
當我們搞清楚是什么和為什么需要時,我們就開始想怎么去做一個出來(當然有人覺得沒什么意思,也就沒有興致考慮怎么去做了)。
首先我們需要知道代理服務器是怎么去完成工作的。其實很簡單:
1>
獲得客戶端的請求
2>
轉發客戶端的請求
3>
獲得目標服務器的響應
4>
返回target的響應
當然剛開始我們不要去考慮太多復雜的內容,我們先要將上面的功能實現了。
接著我就來代碼了:
int main(int argc, char** argv)
{
cout<<"Demo HTTP Proxy Server ver. 0.1.0.0"<<endl;
cout<<"Developed by:Like Zhang"<<endl;
RunServer();
return 0;
}
主函數什么事情都沒有做,就是RunServer,將服務啟動。那開始看下server是怎么工作的:
文字描述(代碼太多,偽碼描述比較合適):
1> 準備服務器套接字,綁定套接字,讓套接字在一個端口上監聽
2> 然后申請N多的線程(就叫做<threadArray>),放到數組中
3> 然后就等待客戶端連接到服務器上(也就是accept了),一直等……
4> 如果等到有客戶端連接,那就將accept到的套接字放到響應隊列(就叫做<socketBuffer>吧)中,當然由于這個隊列是一個共享資源,使用互斥體保證它的安全---先加共享鎖,然后將套接字放入隊列,然后再釋放共享鎖。
5> <threadArray>里面的線程是怎樣工作的呢?接下來介紹線程函數
文字描述線程函數:
1>
首先加共享鎖,接著看下socketBuffer有沒有東西,如果沒有東西(也就是有沒有客戶來連接服務器)釋放共享鎖接著循環,如果有東西,那就將套接字彈出(記住釋放共享鎖),用這個套接字做事情。
2>
做什么事情呢?其實很簡單,就是將客戶端的請求拿過來,然后轉發出去。
3>
轉發出去之后接收目標服務器的響應,請求完了,轉發也完了,就將套接字關掉,線程函數返回。
但是這里遇到了一些問題:怎么去找到目標服務器?怎么去接受目標服務器的響應(性能考慮)?
熟悉HTTP協議的人都是知道的,在HTTP請求中就帶有請求的URL。所以我們只要解釋一下客戶端的請求就知道了。
而接受目標服務器的響應我們使用IO復用就行了。
講解完畢!
看下代碼:windows版本的是Like Zhang實現的,版權歸他所有。這里只做交流使用,如果Like Zhang需要撤下我會撤下。
Linux版本是我實現的,沒有實現IO復用,也沒有Windows的快(Linux開50個線程直接卡住)。
http-proxy
功能是實現了,但是還是有很多的不足,我從以下幾點描述:
1>性能:測試結果表明性能不高,特別是當客戶端也是多線程實現的時候,某個意義上說這個代理服務器沒有任何的性能提高和需要的價值。所以還要優化性能,主要是:內存、線程的復用IO上做優化。
2>提供的功能:就算是性能提高了,但是沒有提供吸引人的功能時也沒有存在的意義,所以還要提供一些實質上的功能:頁面緩存、過濾信息和安全保護機制。
3>設計:如果看過代碼可能知道這個東西的代碼很差,如果要擴展這個東西設計還是很重要的,比如我們要加入更多的功能,將這些功能差分開再進行編碼會爽很多。
性能改進建議:
1>
內存:要想實現一個高效的并發的服務器程序是需要很多的努力,在內存的管理上不能忽略,還有比如緩存頁面需要大量的內存使用,如果能對內存使用上做一些努力能獲得很高的性能提升。
2>
線程池:這個很重要,在線程的管理上一點都不能馬虎,動態的線程管理是很有必要的,當連接少時要申請少量的線程,當用戶增多,為了服務的質量要動態地去增加線程。
3>
緩存頁面,前面也提到要緩存頁面,可以想想如果在一點時間段很多人要訪問Google的網站(比如50個)我們緩存了Google的頁面我們就只要下載一次。當然加入這個功能的時候要深入的去了解下HTTP協議,比如怎么去替換掉緩存的頁面,如果目標的頁面更改了,我們還是要重新下載一次的。