通過(guò)前面的三篇文章相信你已經(jīng)對(duì)神秘的搜索引擎有了一個(gè)感性的認(rèn)識(shí),和普通的php類似的腳本語(yǔ)言服務(wù)器類似,通過(guò)獲取前臺(tái)關(guān)鍵字,通過(guò)字典分詞,和事先建立建立好的倒排索引進(jìn)行相關(guān)性分析,得出查詢結(jié)構(gòu)格式化輸出結(jié)果。而這里的技術(shù)難點(diǎn)在于
1、字典的選取(事實(shí)上根據(jù)不同時(shí)代不同地方人們的語(yǔ)言習(xí)慣是不一樣的所以說(shuō)字典的最小元的取值是不同的)
2、倒排索引的建立(這里就要涉及到爬蟲(chóng)的抓取和索引的建立后面將重點(diǎn)介紹這2點(diǎn),搜索引擎的效率和服務(wù)質(zhì)量實(shí)效性瓶頸在這里)
3、相關(guān)性分析(對(duì)抓回來(lái)的文檔分詞建索引和用戶關(guān)鍵字分詞算法上要對(duì)應(yīng))
后面文章會(huì)重點(diǎn)介紹爬蟲(chóng)的抓取和索引的建立。