花了四天寫了個價格查詢的web體驗版,大致結(jié)構(gòu)是這樣的,前端web界面:

該web通過tcp連接后臺一個ppsserver,ppsserver調(diào)用一個ppsget.dll從一些配置好的網(wǎng)站現(xiàn)拉網(wǎng)頁分析產(chǎn)品價格等信息,說起來是很簡單的,要是畫出結(jié)構(gòu)圖來也是很簡單的,看看效果:


為了寫這個東西查了比價網(wǎng)等很多資料,看來看去覺得現(xiàn)在的一些比價網(wǎng)都把自己當購物門戶了,上面什么信息都有,數(shù)據(jù)都是緩存的,有的還隱藏原始鏈接,用戶點進去也都是緩存的數(shù)據(jù),不再鏈接到原始出處,看了幾個網(wǎng)站數(shù)據(jù)誤差較大,有個網(wǎng)站排在最前面價格最低的鏈接點進去之后發(fā)現(xiàn)根本沒有那個低價格,也不知道那個價格信息是什么時候的,或者根本就提取錯了。看了那么多比價網(wǎng)站,時間誤差最小的也超過10個小時,很令我失望,總之我的出發(fā)點和這些網(wǎng)站不同,我希望做一個界面很簡潔的、實時查詢的服務(wù),而且速度要求很快,一次查詢速度最好小于1秒,當然我現(xiàn)在技術(shù)預(yù)覽版離這個目標還差得很遠。界面簡潔使得用戶即使是使用手機也能得到很好的輸出,也不占用多少帶寬,我還希望前端接上條碼掃描功能,這樣很多不會輸入的人就可直接對著條碼就能查詢網(wǎng)店價格,多方便啊,呵呵。不過做這個功能發(fā)現(xiàn)技術(shù)不是大問題,我4天除了布好了架構(gòu)還做了5家網(wǎng)店的網(wǎng)頁分析,可見這些基本技術(shù)都不太難,最大的矛盾是實時查詢數(shù)據(jù)量太大,就算只查詢一個產(chǎn)品,分析5個網(wǎng)站的數(shù)據(jù)加在一起估計接近1M,這要是每秒有個幾百幾千人訪問那還得了啊,得要多大的帶寬才能撐得住啊,難怪看了那么多比價網(wǎng)站沒有一家提供實時查詢的,不是他們做不了實時查詢,的確是因為帶寬太大,所以我想接下來做一套分布式查詢模型,將很多無固定ip的機器接入ppscontrolserver,一起參與為用戶提供查詢服務(wù),今天在看mapreduce,希望自己不要閉門造車,其實很多年前就想做這個功能了,只是一直沒有下手,加上那個時候也沒有一套穩(wěn)定的網(wǎng)絡(luò)庫,現(xiàn)在條件都具備了,希望最近可以做一個簡單的分布式計算框架出來,那樣以后要做類似功能就容易了,可能只要加入一個簡單的dll發(fā)布一個計算命令就可以了。這個分布式計算模型做出來之后,傳統(tǒng)的比價網(wǎng)站就只能望俺項背了。