第一次寫關(guān)于技術(shù)的,可能看的人不多,罵爛的也不在少數(shù),但是還是寫一點(diǎn),可能對(duì)一些人有幫助,也提高自己的寫作水平,以后可以寫出更好的東西來。當(dāng)然我在blog里面會(huì)堅(jiān)持寫自己做過的東西,這起碼不會(huì)誤人子弟(高手直接跳過)。
是什么?
首先吹下水,告訴你什么是代理服務(wù)器(proxy)。代理服務(wù)器(Proxy),是一種特殊的網(wǎng)絡(luò)服務(wù),允許客戶端通過它與另一個(gè)網(wǎng)絡(luò)服務(wù)進(jìn)行非直接的連接。具體過程為:客戶端首先與代理服務(wù)器建立連接,接著發(fā)出一個(gè)對(duì)另外的目標(biāo)服務(wù)器的文件或其它資源的連接請(qǐng)求,代理服務(wù)器通過與目標(biāo)服務(wù)器連接或從緩存中取得請(qǐng)求的資源,并返回給客戶端。通常在這個(gè)過程中,代理服務(wù)器可能改變客戶端請(qǐng)求或服務(wù)器端響應(yīng)的一些內(nèi)容以滿足各種代理需要。
為什么需要?
當(dāng)我們知道什么是代理服務(wù)器之后我們就會(huì)想代理服務(wù)器能干什么?總結(jié)如下:
1、提高訪問速度:代理服務(wù)器通過設(shè)置一個(gè)較大的緩沖區(qū),當(dāng)有外界的信息通過時(shí),同時(shí)也將其保存到緩沖區(qū)中,當(dāng)其他用戶再訪問相同的信息時(shí), 則直接由緩沖區(qū)中取出信息,傳給用戶,以提高訪問速度。
2、控制對(duì)內(nèi)部資源的訪問:如大學(xué)FTP,使用教育網(wǎng)內(nèi)地址段免費(fèi)代理服務(wù)器,就可以用于對(duì)教育網(wǎng)開放的各類FTP下載上傳,以及各類資料查詢共享等服務(wù)。暫時(shí)我還沒有找到我們學(xué)校內(nèi)部的代理服務(wù)器。
3、過濾內(nèi)容:例如限制對(duì)特定計(jì)算機(jī)的訪問,將一種語言的數(shù)據(jù)翻譯成另一種語言,或是防御代理服務(wù)器兩邊的攻擊性訪問。我們很多東西都被和諧掉了,不知道代理服務(wù)器是神是鬼。
4隱藏真實(shí)IP:上網(wǎng)者也可以通過代理服務(wù)器隱藏自己的IP,免受攻擊。當(dāng)然黑客可能用這項(xiàng)功能來隱藏自己,讓你很難找到。
5、突破內(nèi)容過濾機(jī)制,訪問個(gè)別過濾的網(wǎng)站。如果Google以后不能訪問的話看來我要找個(gè)代理服務(wù)器了。現(xiàn)在都很多優(yōu)秀的網(wǎng)站我都訪問不了了。
怎么去做?
當(dāng)我們搞清楚是什么和為什么需要時(shí),我們就開始想怎么去做一個(gè)出來(當(dāng)然有人覺得沒什么意思,也就沒有興致考慮怎么去做了)。
首先我們需要知道代理服務(wù)器是怎么去完成工作的。其實(shí)很簡(jiǎn)單:
1>
獲得客戶端的請(qǐng)求
2>
轉(zhuǎn)發(fā)客戶端的請(qǐng)求
3>
獲得目標(biāo)服務(wù)器的響應(yīng)
4>
返回target的響應(yīng)
當(dāng)然剛開始我們不要去考慮太多復(fù)雜的內(nèi)容,我們先要將上面的功能實(shí)現(xiàn)了。
接著我就來代碼了:
int main(int argc, char** argv)
{
cout<<"Demo HTTP Proxy Server ver. 0.1.0.0"<<endl;
cout<<"Developed by:Like Zhang"<<endl;
RunServer();
return 0;
}
主函數(shù)什么事情都沒有做,就是RunServer,將服務(wù)啟動(dòng)。那開始看下server是怎么工作的:
文字描述(代碼太多,偽碼描述比較合適):
1> 準(zhǔn)備服務(wù)器套接字,綁定套接字,讓套接字在一個(gè)端口上監(jiān)聽
2> 然后申請(qǐng)N多的線程(就叫做<threadArray>),放到數(shù)組中
3> 然后就等待客戶端連接到服務(wù)器上(也就是accept了),一直等……
4> 如果等到有客戶端連接,那就將accept到的套接字放到響應(yīng)隊(duì)列(就叫做<socketBuffer>吧)中,當(dāng)然由于這個(gè)隊(duì)列是一個(gè)共享資源,使用互斥體保證它的安全---先加共享鎖,然后將套接字放入隊(duì)列,然后再釋放共享鎖。
5> <threadArray>里面的線程是怎樣工作的呢?接下來介紹線程函數(shù)
文字描述線程函數(shù):
1>
首先加共享鎖,接著看下socketBuffer有沒有東西,如果沒有東西(也就是有沒有客戶來連接服務(wù)器)釋放共享鎖接著循環(huán),如果有東西,那就將套接字彈出(記住釋放共享鎖),用這個(gè)套接字做事情。
2>
做什么事情呢?其實(shí)很簡(jiǎn)單,就是將客戶端的請(qǐng)求拿過來,然后轉(zhuǎn)發(fā)出去。
3>
轉(zhuǎn)發(fā)出去之后接收目標(biāo)服務(wù)器的響應(yīng),請(qǐng)求完了,轉(zhuǎn)發(fā)也完了,就將套接字關(guān)掉,線程函數(shù)返回。
但是這里遇到了一些問題:怎么去找到目標(biāo)服務(wù)器?怎么去接受目標(biāo)服務(wù)器的響應(yīng)(性能考慮)?
熟悉HTTP協(xié)議的人都是知道的,在HTTP請(qǐng)求中就帶有請(qǐng)求的URL。所以我們只要解釋一下客戶端的請(qǐng)求就知道了。
而接受目標(biāo)服務(wù)器的響應(yīng)我們使用IO復(fù)用就行了。
講解完畢!
看下代碼:windows版本的是Like Zhang實(shí)現(xiàn)的,版權(quán)歸他所有。這里只做交流使用,如果Like Zhang需要撤下我會(huì)撤下。
Linux版本是我實(shí)現(xiàn)的,沒有實(shí)現(xiàn)IO復(fù)用,也沒有Windows的快(Linux開50個(gè)線程直接卡住)。
http-proxy
功能是實(shí)現(xiàn)了,但是還是有很多的不足,我從以下幾點(diǎn)描述:
1>性能:測(cè)試結(jié)果表明性能不高,特別是當(dāng)客戶端也是多線程實(shí)現(xiàn)的時(shí)候,某個(gè)意義上說這個(gè)代理服務(wù)器沒有任何的性能提高和需要的價(jià)值。所以還要優(yōu)化性能,主要是:內(nèi)存、線程的復(fù)用IO上做優(yōu)化。
2>提供的功能:就算是性能提高了,但是沒有提供吸引人的功能時(shí)也沒有存在的意義,所以還要提供一些實(shí)質(zhì)上的功能:頁面緩存、過濾信息和安全保護(hù)機(jī)制。
3>設(shè)計(jì):如果看過代碼可能知道這個(gè)東西的代碼很差,如果要擴(kuò)展這個(gè)東西設(shè)計(jì)還是很重要的,比如我們要加入更多的功能,將這些功能差分開再進(jìn)行編碼會(huì)爽很多。
性能改進(jìn)建議:
1>
內(nèi)存:要想實(shí)現(xiàn)一個(gè)高效的并發(fā)的服務(wù)器程序是需要很多的努力,在內(nèi)存的管理上不能忽略,還有比如緩存頁面需要大量的內(nèi)存使用,如果能對(duì)內(nèi)存使用上做一些努力能獲得很高的性能提升。
2>
線程池:這個(gè)很重要,在線程的管理上一點(diǎn)都不能馬虎,動(dòng)態(tài)的線程管理是很有必要的,當(dāng)連接少時(shí)要申請(qǐng)少量的線程,當(dāng)用戶增多,為了服務(wù)的質(zhì)量要?jiǎng)討B(tài)地去增加線程。
3>
緩存頁面,前面也提到要緩存頁面,可以想想如果在一點(diǎn)時(shí)間段很多人要訪問Google的網(wǎng)站(比如50個(gè))我們緩存了Google的頁面我們就只要下載一次。當(dāng)然加入這個(gè)功能的時(shí)候要深入的去了解下HTTP協(xié)議,比如怎么去替換掉緩存的頁面,如果目標(biāo)的頁面更改了,我們還是要重新下載一次的。