通過前面的三篇文章相信你已經對神秘的搜索引擎有了一個感性的認識,和普通的php類似的腳本語言服務器類似,通過獲取前臺關鍵字,通過字典分詞,和事先建立建立好的倒排索引進行相關性分析,得出查詢結構格式化輸出結果。而這里的技術難點在于
1、字典的選取(事實上根據不同時代不同地方人們的語言習慣是不一樣的所以說字典的最小元的取值是不同的)
2、倒排索引的建立(這里就要涉及到爬蟲的抓取和索引的建立后面將重點介紹這2點,搜索引擎的效率和服務質量實效性瓶頸在這里)
3、相關性分析(對抓回來的文檔分詞建索引和用戶關鍵字分詞算法上要對應)
后面文章會重點介紹爬蟲的抓取和索引的建立。