花了四天寫了個(gè)價(jià)格查詢的web體驗(yàn)版,大致結(jié)構(gòu)是這樣的,前端web界面:

該web通過tcp連接后臺(tái)一個(gè)ppsserver,ppsserver調(diào)用一個(gè)ppsget.dll從一些配置好的網(wǎng)站現(xiàn)拉網(wǎng)頁分析產(chǎn)品價(jià)格等信息,說起來是很簡(jiǎn)單的,要是畫出結(jié)構(gòu)圖來也是很簡(jiǎn)單的,看看效果:


為了寫這個(gè)東西查了比價(jià)網(wǎng)等很多資料,看來看去覺得現(xiàn)在的一些比價(jià)網(wǎng)都把自己當(dāng)購(gòu)物門戶了,上面什么信息都有,數(shù)據(jù)都是緩存的,有的還隱藏原始鏈接,用戶點(diǎn)進(jìn)去也都是緩存的數(shù)據(jù),不再鏈接到原始出處,看了幾個(gè)網(wǎng)站數(shù)據(jù)誤差較大,有個(gè)網(wǎng)站排在最前面價(jià)格最低的鏈接點(diǎn)進(jìn)去之后發(fā)現(xiàn)根本沒有那個(gè)低價(jià)格,也不知道那個(gè)價(jià)格信息是什么時(shí)候的,或者根本就提取錯(cuò)了。看了那么多比價(jià)網(wǎng)站,時(shí)間誤差最小的也超過10個(gè)小時(shí),很令我失望,總之我的出發(fā)點(diǎn)和這些網(wǎng)站不同,我希望做一個(gè)界面很簡(jiǎn)潔的、實(shí)時(shí)查詢的服務(wù),而且速度要求很快,一次查詢速度最好小于1秒,當(dāng)然我現(xiàn)在技術(shù)預(yù)覽版離這個(gè)目標(biāo)還差得很遠(yuǎn)。界面簡(jiǎn)潔使得用戶即使是使用手機(jī)也能得到很好的輸出,也不占用多少帶寬,我還希望前端接上條碼掃描功能,這樣很多不會(huì)輸入的人就可直接對(duì)著條碼就能查詢網(wǎng)店價(jià)格,多方便啊,呵呵。不過做這個(gè)功能發(fā)現(xiàn)技術(shù)不是大問題,我4天除了布好了架構(gòu)還做了5家網(wǎng)店的網(wǎng)頁分析,可見這些基本技術(shù)都不太難,最大的矛盾是實(shí)時(shí)查詢數(shù)據(jù)量太大,就算只查詢一個(gè)產(chǎn)品,分析5個(gè)網(wǎng)站的數(shù)據(jù)加在一起估計(jì)接近1M,這要是每秒有個(gè)幾百幾千人訪問那還得了啊,得要多大的帶寬才能撐得住啊,難怪看了那么多比價(jià)網(wǎng)站沒有一家提供實(shí)時(shí)查詢的,不是他們做不了實(shí)時(shí)查詢,的確是因?yàn)閹捥螅晕蚁虢酉聛碜鲆惶追植际讲樵兡P停瑢⒑芏酂o固定ip的機(jī)器接入ppscontrolserver,一起參與為用戶提供查詢服務(wù),今天在看mapreduce,希望自己不要閉門造車,其實(shí)很多年前就想做這個(gè)功能了,只是一直沒有下手,加上那個(gè)時(shí)候也沒有一套穩(wěn)定的網(wǎng)絡(luò)庫(kù),現(xiàn)在條件都具備了,希望最近可以做一個(gè)簡(jiǎn)單的分布式計(jì)算框架出來,那樣以后要做類似功能就容易了,可能只要加入一個(gè)簡(jiǎn)單的dll發(fā)布一個(gè)計(jì)算命令就可以了。這個(gè)分布式計(jì)算模型做出來之后,傳統(tǒng)的比價(jià)網(wǎng)站就只能望俺項(xiàng)背了。