• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 89  文章 - 118  trackbacks - 0
            <2011年7月>
            262728293012
            3456789
            10111213141516
            17181920212223
            24252627282930
            31123456

            留言簿(16)

            隨筆分類(56)

            隨筆檔案(89)

            文章分類

            推薦博客

            搜索

            •  

            最新隨筆

            最新評(píng)論

            閱讀排行榜

            檢索模型與搜索排序
            最重要的兩個(gè)因素,用戶查詢與網(wǎng)頁(yè)相關(guān)性,網(wǎng)頁(yè)鏈接情況
            檢索模型:用戶查詢與網(wǎng)頁(yè)相關(guān)性
            布爾模型,向量空間模型,概率模型,語(yǔ)言模型,機(jī)器學(xué)習(xí)排序算法

            布爾模型:數(shù)據(jù)基礎(chǔ)是集合論,搜索結(jié)果過(guò)于粗糙,無(wú)法量化搜索詞與文檔之前的相關(guān)性

            向量空間模型:把文檔看做是由T維特征組成的一個(gè)向量,最常用的是以單詞作為特征,實(shí)際應(yīng)用中,文檔的維度相當(dāng)高(成千上萬(wàn))
            將查詢和文檔之間的內(nèi)容相似性作為相關(guān)性的替代
            計(jì)算相似性,使用COSINE,計(jì)算查詢?cè)~特征權(quán)值與文檔中每個(gè)特征權(quán)值向量的點(diǎn)積
            特征權(quán)重:由詞頻Tf,逆文檔頻率IDF確定
            詞頻TfWtf=a+(1-a)*Tf/Max(Tf)
            a取0.4效果較好
            逆文檔頻率因子:文檔集合范圍的一種全局因子,特征單詞之間的相對(duì)重要性
            有研究者進(jìn)一步分析認(rèn)為:IDF代表了單詞帶有的信息量的多少(熵),其值越高,說(shuō)明其信息含量越多,越有價(jià)值
            IDFk=log(N/nk)
            N代表文檔集合中總共有多少個(gè)文檔,nk代表特征單詞k在其中多少個(gè)文檔中出現(xiàn)過(guò)
            Weight_word=Tf*IDF,特征權(quán)值越大,越可能是好的指示詞
            查詢?cè)~在某個(gè)文檔中的詞頻越高,在其他文檔中出現(xiàn)的詞頻越低,這個(gè)詞的權(quán)值越高
            向量空間模型是經(jīng)驗(yàn)型的模型,靠直覺(jué)和經(jīng)驗(yàn)不斷摸索完善,缺乏明確的理論指導(dǎo)改進(jìn)方向
            概率排序原理:給定一個(gè)用戶查詢,如果搜索系統(tǒng)能夠在搜索結(jié)果排序時(shí)按照文檔和用戶需求的相關(guān)性由高到低排序,那么這個(gè)搜索系統(tǒng)的準(zhǔn)確性是最優(yōu)的。
            將P(D|R)/P(D|NR)大小進(jìn)行降序排列,得到搜索相關(guān)性排序

            二元獨(dú)立模型

            二元假設(shè):一遍文檔在由特征進(jìn)行表示的時(shí)候,以特征“出現(xiàn)”和“不出現(xiàn)”兩種情況來(lái)表示
            詞匯獨(dú)立假:文檔中出現(xiàn)任意一個(gè)詞在文檔的分布概率不依賴于其他單詞是否出現(xiàn)

            BMI模型:基于二元假設(shè)推導(dǎo)而出,對(duì)于單詞特征,只考慮是否在文檔中出現(xiàn)過(guò),而了考慮單詞的權(quán)值
            P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)
            log( pi(1-si)/si(1-pi) )
            pi代表第i個(gè)單詞在相關(guān)文檔集合內(nèi)出現(xiàn)的概率,在二元假設(shè)下,可以用包含這個(gè)單詞的相關(guān)文檔個(gè)數(shù)ri除以相關(guān)文檔總數(shù)R來(lái)估算,pi=ri/R
            si代表第i個(gè)詞在不相關(guān)文檔集合內(nèi)出現(xiàn)的概率,可以用包含這個(gè)單詞的不相關(guān)文檔個(gè)數(shù)ni-ri,除以不相關(guān)文檔總數(shù)(N-R)來(lái)估算,si=(ni-ri)/(N-R)
            加上平滑處理
            log((ri+0.5)/(R-ri+0.5)
            /
            (ni-ri+0.5)/((N-R)-(ni-ri)+0.5))
            其含義:對(duì)于同時(shí)出現(xiàn)在用戶查詢Q和文檔D中的單詞,累加每個(gè)單詞的估值,其和就是文檔D和查詢相關(guān)性度量值

            BM25模型
            在BIM模型的基礎(chǔ)上,考慮了單詞在查詢中的權(quán)值及單詞在文檔中的權(quán)值,擬合出綜合上述考慮因素的公式,并通過(guò)引入一些經(jīng)驗(yàn)參數(shù)
            BM25模型是目前最成功的內(nèi)容排序模型
            http://hi.csdn.net/attachment/201011/30/0_12911307384w69.gif

            k1,k2,K均為經(jīng)驗(yàn)設(shè)置的參數(shù),fi是詞項(xiàng)在文檔中的頻率,qfi是詞項(xiàng)在查詢中的頻率。

            K1通常為1.2,通常為0-1000

            K的形式較為復(fù)雜

            K=http://hi.csdn.net/attachment/201011/30/0_1291130766F92C.gif 

            上式中,dl表示文檔的長(zhǎng)度,avdl表示文檔的平均長(zhǎng)度,b通常取0.75
            BM25F模型:是典型的BM25改進(jìn)算法
            將文檔內(nèi)容切換成不同的部分,為不同的部分賦予不同的權(quán)重
            語(yǔ)言模型方法:借鑒語(yǔ)音識(shí)別領(lǐng)域采用的語(yǔ)言模型技術(shù),將語(yǔ)言模型和信息檢索相互融合
            為每個(gè)文檔建立一個(gè)語(yǔ)言模型,語(yǔ)言模型代表了單詞或者單詞序列在文檔中的分布情況
            對(duì)于查詢中的單詞來(lái)說(shuō),每個(gè)單詞都對(duì)應(yīng)一個(gè)抽取概率,將這些單詞的抽取概率相乘就是文檔生成查詢的總體概率
            一般采用數(shù)據(jù)平滑方式解決數(shù)據(jù)稀疏問(wèn)題
            用戶提交查詢Q,文檔集合內(nèi)所有文檔都計(jì)算生成Q的概率,然后按照生成概率值由大到小排序,就是搜索結(jié)果
            HMM,隱馬爾科夫語(yǔ)言模型、相關(guān)模型、翻譯模型是在基本語(yǔ)言模型的改進(jìn)
            語(yǔ)言模型檢索方法效果略優(yōu)于精調(diào)參數(shù)的向量空間模型,與BM25等概率模型效果相當(dāng)
            通過(guò)理論推導(dǎo),可以得出:語(yǔ)言模型檢索方法的排序公司符合概率模型的概率排序原理,類似向量空間模型Tf*IDF
            機(jī)器學(xué)習(xí)排序
            為何興起較晚:
            1、其他模型和方法,考慮的因素較少,人工進(jìn)行公式擬合完全可行,效果尚可
            2、機(jī)器學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù),用戶點(diǎn)擊記錄可以當(dāng)做機(jī)器學(xué)習(xí)方法訓(xùn)練數(shù)據(jù)的一個(gè)替代品
            機(jī)器學(xué)習(xí)排序系統(tǒng)的4個(gè)步驟
            人工標(biāo)注訓(xùn)練數(shù)據(jù):用戶點(diǎn)擊記錄來(lái)模擬人工打分機(jī)制
            文檔特征抽取:查詢?cè)~在文檔中的詞頻、查詢?cè)~的IDF信息,網(wǎng)頁(yè)入鏈數(shù)量,網(wǎng)頁(yè)出鏈數(shù)量,網(wǎng)頁(yè)P(yáng)ageRank值,網(wǎng)頁(yè)URL長(zhǎng)度,查詢?cè)~的Proximity值(文檔中多大的窗口內(nèi)可以出現(xiàn)所有查詢?cè)~)
            學(xué)習(xí)分類函數(shù)
            在實(shí)際搜索系統(tǒng)中采用機(jī)器學(xué)習(xí)模型
            機(jī)器學(xué)習(xí)方法
            1、單文檔方法
            對(duì)單獨(dú)的一篇文檔轉(zhuǎn)換為特征向量,機(jī)器學(xué)習(xí)系統(tǒng)根據(jù)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的分類或回歸函數(shù)對(duì)文檔打分,打分結(jié)果為最后得分
            在訓(xùn)練過(guò)程中,當(dāng)打分大于一定的閾值,為相關(guān)文檔,否則為不相關(guān)文檔。
            2、文檔對(duì)方法
            通過(guò)訓(xùn)練,對(duì)文檔順序關(guān)系是否合理進(jìn)行判斷,判斷兩個(gè)文檔的得分
            使用SVM,BOOST,神經(jīng)網(wǎng)絡(luò),都可以做為學(xué)習(xí)方法
            缺點(diǎn),只考慮了兩個(gè)文檔對(duì)的相對(duì)先后順序,卻沒(méi)有考慮文檔出現(xiàn)的搜索列表中的位置
            不同的查詢,相關(guān)文檔數(shù)量差異很大,對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的效果造成評(píng)價(jià)困難
            3、文檔列表方法
            將每個(gè)查詢對(duì)應(yīng)的所有搜索結(jié)果列表作為一個(gè)訓(xùn)練實(shí)例
            通過(guò)搜索結(jié)果排列組合的概率分布,訓(xùn)練評(píng)分函數(shù)
            搜索質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn):對(duì)于搜索引擎更加關(guān)注精確率
            精確率:本次搜索結(jié)果中相關(guān)文檔所占本次搜索返回的所有文檔的比例
            招回率:本次搜索結(jié)果中相關(guān)文檔占整個(gè)集合中所有相關(guān)文檔的比例
            P@10指標(biāo):在搜索結(jié)果排名最先前的頭10個(gè)文檔中有多大比例是相關(guān)的
            MAP:AP兼顧了排在前列的相關(guān)性和系統(tǒng)招架率,MAP多組查詢的AP平均值
            posted on 2013-11-04 12:56 胡滿超 閱讀(596) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
            99久久免费国产精品特黄| 亚洲精品乱码久久久久久按摩| 久久综合综合久久狠狠狠97色88| 狠狠综合久久综合中文88| 久久青青色综合| 国产精品久久影院| 国产偷久久久精品专区| 久久99精品国产麻豆| 亚洲国产精品嫩草影院久久| 99久久中文字幕| 亚洲精品无码久久一线| 久久精品无码av| 久久国产一区二区| 一本一本久久A久久综合精品| 色成年激情久久综合| 亚洲国产精品无码久久久蜜芽| 久久国产免费| 欧美日韩中文字幕久久伊人| 久久久久久亚洲Av无码精品专口 | 青青热久久国产久精品 | 久久久国产一区二区三区| 亚洲AV无码久久精品色欲 | 久久婷婷国产综合精品| 思思久久99热免费精品6| 国产精品99久久久久久宅男| 久久久久人妻精品一区二区三区| 亚洲精品NV久久久久久久久久| 99久久精品九九亚洲精品| 九九久久99综合一区二区| 99久久99久久精品国产片果冻| 亚洲国产日韩欧美久久| 热久久国产欧美一区二区精品| 久久久久国色AV免费观看| 久久97久久97精品免视看秋霞 | 久久www免费人成看片| 99久久香蕉国产线看观香| 亚洲Av无码国产情品久久| 中文字幕久久精品| 漂亮人妻被中出中文字幕久久 | 伊人久久大香线蕉影院95| 91久久精品国产免费直播|