2007/9-2007/12: 知識(shí)問答搜索項(xiàng)目
角色:項(xiàng)目經(jīng)理/規(guī)劃/技術(shù)設(shè)計(jì)/開發(fā) 人員:4位工程師 系統(tǒng)平臺(tái):FreeBSD pc server 開發(fā)語言和相關(guān)技術(shù):Java, Lucene, Hadoop
2007年9月至12月,帶領(lǐng)5位同事負(fù)責(zé)研發(fā)知識(shí)搜索平臺(tái),吸取了Lucene/Hadoop/Nutch開源項(xiàng)目的優(yōu)點(diǎn),設(shè)計(jì)并開發(fā)一套已擴(kuò)展的搜索平臺(tái),并在它基礎(chǔ)上設(shè)計(jì)并開發(fā)智能型搜索項(xiàng)目知識(shí)搜索,此搜索平臺(tái)也同時(shí)應(yīng)用于多個(gè)中小型垂直搜索產(chǎn)品中。在此項(xiàng)目中同時(shí)運(yùn)用了一些極限編程思想來管理項(xiàng)目過程。
2007/5-2007/6: 網(wǎng)絡(luò)字典1.0優(yōu)化項(xiàng)目
角色:技術(shù)設(shè)計(jì)/開發(fā) 人員:3位工程師 系統(tǒng)平臺(tái):FreeBSD pc server 開發(fā)語言和相關(guān)技術(shù):Vespa, C/C++, Perl, Java
參與網(wǎng)絡(luò)字典項(xiàng)目組改進(jìn)其索引和檢索性能和相關(guān)性等。
2006/10-2007/1: Hadoop小組及應(yīng)用項(xiàng)目
角色:小組組長/規(guī)劃/應(yīng)用項(xiàng)目設(shè)計(jì)開發(fā) 人員:6位工程師 均part-time 系統(tǒng)平臺(tái):Redhat Linux, 5 pc server 開發(fā)語言和相關(guān)技術(shù):Java, Hadoop
2006年8月2008年1月,任引擎研究小組組長,并負(fù)責(zé)與US同事合作并加入開源的hadoop項(xiàng)目,承擔(dān)部分任務(wù),同時(shí)負(fù)責(zé)公司hadoop cluster的建設(shè)及其應(yīng)用的推廣支持等。后期負(fù)責(zé)公司Vespa搜索引擎的源碼研究以及多重索引改造工作,編寫了其完整的索引結(jié)構(gòu)和檢索技術(shù)文檔。
這段時(shí)間在負(fù)責(zé)本部門team的工作同時(shí),開始任領(lǐng)導(dǎo)要求成立并負(fù)責(zé)hadoop小組虛擬團(tuán)隊(duì),與6位不同部門同事與US團(tuán)隊(duì)合作參與hadoop項(xiàng)目研發(fā)。在前期工作進(jìn)行比較順利,并成功建立了2個(gè)測試用cluster并完成幾個(gè)應(yīng)用項(xiàng)目。后期由于需要投入更多硬件資源和公司的戰(zhàn)略變化等原因不得不擱置最后暫停了本項(xiàng)目。本人希望能通過此項(xiàng)目深入理解分布式計(jì)算,并有實(shí)際應(yīng)用。
2007/2-2007/5: Vespa搜索引擎多重索引研究項(xiàng)目
角色:項(xiàng)目經(jīng)理/規(guī)劃/設(shè)計(jì)開發(fā) 人員:2位工程師 + 2位工程師part-time 系統(tǒng)平臺(tái):FreeBSD pc server 開發(fā)語言和相關(guān)技術(shù):C/C++, Vespa , Word segmentation and YWS
另外一個(gè)項(xiàng)目就是負(fù)責(zé)一個(gè)4人小組研究公司vespa搜索引擎源碼,并且進(jìn)行多重索引改造和測試等研究,同時(shí)完成部分引擎技術(shù)文檔和培訓(xùn)。不僅對vespa的架構(gòu)有了更充分認(rèn)識(shí),對其索引結(jié)構(gòu)和檢索算法也有了更深入理解。此項(xiàng)目的同時(shí)本人還在研究lucene源碼,并想完成一個(gè)系列文章貼在自己blog上,與同道中人交流,還在進(jìn)行中,本人希望能盡快更深入地理解搜索引擎技術(shù)以及在學(xué)習(xí)智能檢索,人工智能等方向有所成效。
2006/6-2006/12: 網(wǎng)頁搜索拼寫糾錯(cuò)2.0項(xiàng)目
角色:項(xiàng)目經(jīng)理/總體設(shè)計(jì)/基礎(chǔ)代碼設(shè)計(jì)開發(fā) 人員:3位工程師 系統(tǒng)平臺(tái):FreeBSD pc server 開發(fā)語言和相關(guān)技術(shù):C++, Php/extension, perl, Java, Hadoop
2006年3月至12月,帶領(lǐng)6位新同事負(fù)責(zé)相關(guān)搜索和拼寫糾錯(cuò)等產(chǎn)品,大部分是剛畢業(yè)學(xué)生,對自己有一定挑戰(zhàn),做了多種工作方式調(diào)整并如期成功發(fā)布了新版相關(guān)搜索和全新開發(fā)的拼寫糾錯(cuò)產(chǎn)品,質(zhì)量和穩(wěn)定性都達(dá)到了國內(nèi)領(lǐng)先水平。 這段時(shí)間的主要工作除了培養(yǎng)新人,具體的項(xiàng)目一個(gè)就是開發(fā)相關(guān)搜索3.0和4.0,重點(diǎn)解決成人詞識(shí)別等問題,并加入了詞性識(shí)別,同時(shí)完善了詞典管理工具等,使得相關(guān)搜索更加成熟。拼寫糾錯(cuò)是另一個(gè)全新開發(fā)的系統(tǒng),包括拼寫糾錯(cuò)和拼音推薦兩個(gè)模塊,此新版本在US同事設(shè)計(jì)的算法基礎(chǔ)下進(jìn)行全新設(shè)計(jì)和開發(fā),本人劃分了幾個(gè)獨(dú)立模塊:詞典管理和搜索基礎(chǔ)框架模塊,拼寫糾錯(cuò)模塊,拼音推薦模塊,管理系統(tǒng)模塊等與二位同事協(xié)同開發(fā),并第一次使用hadoop系統(tǒng)挖掘網(wǎng)絡(luò)日志計(jì)算出同現(xiàn)頻率等詞庫,同時(shí)開發(fā)出高效的詞庫批量review工具和批量測試工具,使得項(xiàng)目在預(yù)計(jì)時(shí)間內(nèi)按質(zhì)按要求成功完成并一次上線成功,一直穩(wěn)定運(yùn)行至今。
2005/12-2006/12: 網(wǎng)頁搜索相關(guān)搜索2.0項(xiàng)目
角色:項(xiàng)目經(jīng)理/總體設(shè)計(jì)/代碼設(shè)計(jì)開發(fā) 人員:4位工程師+1位工程(臺(tái)灣)+1位架構(gòu)師(美國) 系統(tǒng)平臺(tái):FreeBSD pc server 開發(fā)語言和相關(guān)技術(shù):C++, Php/extension, perl, Vespa Search Engine
2005年12月,接手相關(guān)搜索項(xiàng)目,并任項(xiàng)目經(jīng)理負(fù)責(zé)全新架構(gòu)的相關(guān)搜索的設(shè)計(jì)和開發(fā),與國內(nèi)外三地工程師聯(lián)合開發(fā),項(xiàng)目如期上線并達(dá)到了國內(nèi)同類產(chǎn)品前列,并創(chuàng)新加入多種技術(shù)如query分析,Re-rank等。 本人接手第一個(gè)項(xiàng)目是相關(guān)搜索1.0,由于在一些詞的相關(guān)性方面與國內(nèi)大搜索引擎公司還有較大差距,所以2.0重點(diǎn)解決相關(guān)性問題。本人首先熟悉目前系統(tǒng)的架構(gòu)和檢索算法,并考察競爭對手的特點(diǎn),得出幾條主要的不足之處,最重要的是中心詞識(shí)別問題,1.0版本在這方面改進(jìn)較少,所以重點(diǎn)分析加入了中心詞識(shí)別技術(shù),大大提高了相關(guān)性。另一個(gè)重點(diǎn)問題是數(shù)據(jù)量加大后的檢索效率問題,新版本引入了更先進(jìn)的vespa搜索引擎平臺(tái),使得2.0在各方面都有了很大提高,并成為網(wǎng)頁搜索內(nèi)部最重要的PV來源之一。 |