• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            學(xué)著站在巨人的肩膀上

            金融數(shù)學(xué),InformationSearch,Compiler,OS,

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              12 隨筆 :: 0 文章 :: 8 評(píng)論 :: 0 Trackbacks

            通過(guò)前面的三篇文章相信你已經(jīng)對(duì)神秘的搜索引擎有了一個(gè)感性的認(rèn)識(shí),和普通的php類似的腳本語(yǔ)言服務(wù)器類似,通過(guò)獲取前臺(tái)關(guān)鍵字,通過(guò)字典分詞,和事先建立建立好的倒排索引進(jìn)行相關(guān)性分析,得出查詢結(jié)構(gòu)格式化輸出結(jié)果。而這里的技術(shù)難點(diǎn)在于

            1、字典的選取(事實(shí)上根據(jù)不同時(shí)代不同地方人們的語(yǔ)言習(xí)慣是不一樣的所以說(shuō)字典的最小元的取值是不同的)

            2、倒排索引的建立(這里就要涉及到爬蟲(chóng)的抓取和索引的建立后面將重點(diǎn)介紹這2點(diǎn),搜索引擎的效率和服務(wù)質(zhì)量實(shí)效性瓶頸在這里)

            3、相關(guān)性分析(對(duì)抓回來(lái)的文檔分詞建索引和用戶關(guān)鍵字分詞算法上要對(duì)應(yīng))

            后面文章會(huì)重點(diǎn)介紹爬蟲(chóng)的抓取和索引的建立。

            posted on 2009-12-10 22:54 學(xué)者站在巨人的肩膀上 閱讀(996) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 中文文本信息處理

            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            国产精品一区二区久久| 国产成人久久精品一区二区三区| 久久综合久久自在自线精品自| 久久久久国产精品人妻| 久久精品毛片免费观看| 99久久精品国产综合一区| 久久精品国产一区二区三区日韩| 久久夜色精品国产| 久久天天躁狠狠躁夜夜躁2014| 亚洲成色WWW久久网站| 66精品综合久久久久久久| 久久99九九国产免费看小说| 国产精品久久久久久一区二区三区| 久久久免费观成人影院 | 久久精品99无色码中文字幕| 一本色道久久综合| 国产综合免费精品久久久| 日产精品久久久久久久| 久久久久亚洲精品男人的天堂| 2021精品国产综合久久| 偷偷做久久久久网站| 久久久久亚洲AV综合波多野结衣| 精品久久一区二区三区| 77777亚洲午夜久久多喷| 久久伊人影视| 久久亚洲国产成人精品无码区| 久久精品嫩草影院| 国产美女久久精品香蕉69| 亚洲色大成网站WWW久久九九| 久久只这里是精品66| 一本久久精品一区二区| 久久综合伊人77777| 久久免费视频6| 久久午夜免费视频| 囯产精品久久久久久久久蜜桃| 国产成人综合久久精品红| 99久久这里只精品国产免费| 日韩人妻无码一区二区三区久久99| 亚洲精品美女久久久久99小说 | 久久人人爽人人爽人人av东京热| 久久久久一本毛久久久|