• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 7, comments - 13, trackbacks - 0, articles - 37
               :: 首頁 :: 新隨筆 :: 聯系 ::  :: 管理

            分析百度

            Posted on 2008-10-16 15:28 歲月流逝 閱讀(86) 評論(0)  編輯 收藏 引用
            本結果是基于20000次以上的搜索分析百度而的來的,如有不當請指正,希望我們能夠一起來揭開百度分詞的面紗。 在大家的心目中可能百度的分詞是極其復雜的,他代表了中國分詞領域的最高水平,其實不然,簡單最好,裸體最美,當我們撥下百度的衣服,既然會發現百度的分詞是如此的簡單,可能正應了一個名人的某一句話:當用戶輸入查詢關鍵字的時候我們要準確的知道用戶在想什么!這正是百度所追求的,他把所有的工作都放在了處理用戶查詢關鍵字的時候。 本分析結果也是無意得到的。www.sj110.com搜價110是Handsome man Eunge帶領下的一個項目,因我是pwqzc老鼠,老鼠嗎,就是打點小洞,所以我負責詞庫這一塊,為了詞庫的精確,在處理詞庫的時候經常查詢百度,查多了,想多了,問題就出來了,竟然發現對百度的分詞稍微有了點了解,這個是我無意撞上的,就如一個送水的漢子,碰上了一個要水的少婦,而這個少婦的男人三年前出門至今未歸,此MM雞渴難耐,于是和那個送水的漢子發生了不該發生的事,呵呵,都是撞上的。 下面是我的一些分析結果,凡是我可以肯定的,我都注明了。 1.百度的蜘蛛爬到的文檔索引入庫的時候是只進行了簡單的分詞處理(我可以肯定),也就是只是簡單的把中文單個字單個字的分開,要證明這點很簡單,你只需要搜索“地”或者“書”或者“腦”。。。。。。等單個詞就可以了,當然,你也可以找一些莫名其妙的兩個字或者三個字組合在一起搜索百度看,你就會明白他入庫的時候只進行了簡單的把單個中文分開的處理。他把復雜的分詞邏輯放到了處理用戶輸入查詢關鍵字的時候。仔細一想,其實這樣做能夠最大限度的消除歧義!!! 2.當用戶輸入兩個字和三個字的詞進行搜索的時候百度也沒有進行任何處理的(我可以肯定),也只是把他們簡單的按照單個字分開,然后查詢的時候條件是這兩個字或者這三個字必須連接在一起,中間沒有任何其他的字。要證明這點也很簡單,大家只要輸入任意兩個字的詞或者三個字的詞進行搜索就可以了,甚至你可以搜索“甘新哦”,“春天氣”,“哦人無”等毫無意義的詞進行查詢,看是不是出來的搜索結果要么是沒有找到任何內容,要么是包括你輸入了的任何字,而且這些字都是連接在一起的,雖然這些字他們之間的組合是毫無意義,這也同時證明了百度在索引入庫的時候是只進行了簡單的按照單個中文分開。 3.百度如何處理四個字?我們輸入“李宇春天”搜索,結果是被分成了“李宇”和“春天”,這給我們帶來了兩個疑問:第一,如果李宇春已經收錄到了詞典里面,那么肯定肯定百度是正向分詞。第二,如果李宇春沒有被收錄到詞典里面,那么可能是正向分詞也可能是逆向分詞。那么到底是那種呢?我們先判斷百度處理查詢關鍵子的時候是逆向分詞還是正向分詞。我們再輸入“筆暢通行”來搜索他被分成了“暢通”,我想筆暢應該不會被收進詞典,按此分析應該是正向分詞;我們再輸入“筆暢通知”,很明顯被分成了“筆暢”和“通知”,這看起來是逆向分詞的結果,如果是正向的話那也會被分成“暢通”的;我們再輸入“桃李宇春”搜索,結果被分成了“桃李”和“宇春”,這看起來象正向分詞,當然這也不能夠證明就是逆向,因為如果李宇春沒有收進詞典,這逆向分詞也會得到同樣的結果。那么百度到底是正向還是逆向呢?我們拋開名字吧,因為我們還不感肯定象李宇宙春之類的詞是不是在百度的詞典里面,現在我們輸入“神彩票啊”,很明顯被分成了“彩票”,再輸入“光彩票啊”,很明顯也被風成了“彩票”,再輸入“啊中國家”,結果被分成了“國家”,再搜索“啊國家庭”,被風成了“家庭”,我們再輸入“風歲月亮”搜索,被分成了風歲和月亮,再輸入“風歲月球”,被分成了“分”,“歲月”和“球”,再輸入“風歲月份”,被分成了“分色”和“月份”,這樣的結果看起來真的很讓我們郁悶!!!極度郁悶!!更郁悶的是還在后頭啊,我輸入“筆暢通過”搜索,第一次的所有結果是全部把這四個字搜索出來,而且他們都是連接在一起的,而且這四個字之間沒有任何其他的字!!但是我們過幾分鐘再次搜索,結果竟然截然不同!!!“筆暢通過”被分成了“暢通”!!!!這里我不敢亂下結論,如果是我,那我應該怎么樣去處理四個字的關鍵字呢? 一,首先取這四個字去匹配詞典,如果匹配成功,則查詢條件如ABCD,返回的結果必須包含ABCD,且ABCD必須連接在一起,中間沒有任何其他字,在這里我首先假設索引入庫的時候是只進行了簡單的按照單個字切分,且搜索的時候能夠判斷索引文件里的A/B/C/D等文字中間有沒有其他的文字。 二,如果一匹配不成功,則截取前面兩個字匹配詞典,如果匹配成功,則如ABCD分成AB/CD,查詢結果必須包含AB和CD,AB之間不能夠有其他文字,CD之間也不能夠有其他文字,AB和CD之間可以出現其他文字;查詢結果可以包含ABCD全部連接在一起四個字之間沒有其他文字的結果,且其排序優先于AB/CD。 三,如果二匹配不成功,則截取最后面兩個字匹配字典,如果匹配成功,采取和上面二一樣的做法。 四,如果三匹配不成功,則截取中間兩個字匹配詞典,如果匹配成功,則如ABCD查詢的結果里面必須BC,且BC之間沒有其他文字,結果也可以包含BCD,結果也可以包含ABC,結果也可以包含ABCD,結果排序優先規則(從最優開始):ABCD全部連接在一起的結果------BCD全部連接在一起的結果或ABC全部連接在一起的結果------BC全部連接在一起的結果。 五,如果四匹配不成功,則可以肯定他是地名人名或者其他專有名詞或者這四個字連起來沒有任何意義,則采用一的方法。 暫時寫到這吧,其他的慢慢來 b6a03e3e
            成人资源影音先锋久久资源网| 人人妻久久人人澡人人爽人人精品 | 久久精品草草草| 99精品久久久久中文字幕| 久久香蕉一级毛片| 欧美久久亚洲精品| 色欲综合久久中文字幕网| 狠狠色丁香久久综合五月| 开心久久婷婷综合中文字幕| 久久精品国产免费观看三人同眠| 婷婷五月深深久久精品| 久久精品国产一区二区三区| 97精品伊人久久久大香线蕉| 国产精品gz久久久| 久久亚洲AV成人无码电影| 久久久91人妻无码精品蜜桃HD| 亚洲精品无码久久久久| 久久毛片免费看一区二区三区| 日产精品99久久久久久| 狠狠色丁香久久婷婷综合图片| Xx性欧美肥妇精品久久久久久| 人妻无码αv中文字幕久久琪琪布| 国产精品久久久久久久午夜片| av午夜福利一片免费看久久| 欧美国产成人久久精品| 久久精品无码专区免费| 久久国产精品国产自线拍免费| 久久人人爽人人爽人人AV| 性做久久久久久久久久久| 久久综合中文字幕| 狠狠色丁香婷婷久久综合不卡| 国内精品伊人久久久久av一坑| 亚洲欧美日韩久久精品第一区| 久久精品人妻中文系列| 久久婷婷午色综合夜啪| 亚洲伊人久久成综合人影院 | 国产V亚洲V天堂无码久久久| 久久久无码精品亚洲日韩京东传媒| 久久精品成人影院| 久久不见久久见免费影院www日本| 伊人久久免费视频|