• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 89  文章 - 118  trackbacks - 0
            <2008年8月>
            272829303112
            3456789
            10111213141516
            17181920212223
            24252627282930
            31123456

            留言簿(16)

            隨筆分類(56)

            隨筆檔案(89)

            文章分類

            推薦博客

            搜索

            •  

            最新隨筆

            最新評(píng)論

            閱讀排行榜

            檢索模型與搜索排序
            最重要的兩個(gè)因素,用戶查詢與網(wǎng)頁(yè)相關(guān)性,網(wǎng)頁(yè)鏈接情況
            檢索模型:用戶查詢與網(wǎng)頁(yè)相關(guān)性
            布爾模型,向量空間模型,概率模型,語(yǔ)言模型,機(jī)器學(xué)習(xí)排序算法

            布爾模型:數(shù)據(jù)基礎(chǔ)是集合論,搜索結(jié)果過(guò)于粗糙,無(wú)法量化搜索詞與文檔之前的相關(guān)性

            向量空間模型:把文檔看做是由T維特征組成的一個(gè)向量,最常用的是以單詞作為特征,實(shí)際應(yīng)用中,文檔的維度相當(dāng)高(成千上萬(wàn))
            將查詢和文檔之間的內(nèi)容相似性作為相關(guān)性的替代
            計(jì)算相似性,使用COSINE,計(jì)算查詢?cè)~特征權(quán)值與文檔中每個(gè)特征權(quán)值向量的點(diǎn)積
            特征權(quán)重:由詞頻Tf,逆文檔頻率IDF確定
            詞頻TfWtf=a+(1-a)*Tf/Max(Tf)
            a取0.4效果較好
            逆文檔頻率因子:文檔集合范圍的一種全局因子,特征單詞之間的相對(duì)重要性
            有研究者進(jìn)一步分析認(rèn)為:IDF代表了單詞帶有的信息量的多少(熵),其值越高,說(shuō)明其信息含量越多,越有價(jià)值
            IDFk=log(N/nk)
            N代表文檔集合中總共有多少個(gè)文檔,nk代表特征單詞k在其中多少個(gè)文檔中出現(xiàn)過(guò)
            Weight_word=Tf*IDF,特征權(quán)值越大,越可能是好的指示詞
            查詢?cè)~在某個(gè)文檔中的詞頻越高,在其他文檔中出現(xiàn)的詞頻越低,這個(gè)詞的權(quán)值越高
            向量空間模型是經(jīng)驗(yàn)型的模型,靠直覺(jué)和經(jīng)驗(yàn)不斷摸索完善,缺乏明確的理論指導(dǎo)改進(jìn)方向
            概率排序原理:給定一個(gè)用戶查詢,如果搜索系統(tǒng)能夠在搜索結(jié)果排序時(shí)按照文檔和用戶需求的相關(guān)性由高到低排序,那么這個(gè)搜索系統(tǒng)的準(zhǔn)確性是最優(yōu)的。
            將P(D|R)/P(D|NR)大小進(jìn)行降序排列,得到搜索相關(guān)性排序

            二元獨(dú)立模型

            二元假設(shè):一遍文檔在由特征進(jìn)行表示的時(shí)候,以特征“出現(xiàn)”和“不出現(xiàn)”兩種情況來(lái)表示
            詞匯獨(dú)立假:文檔中出現(xiàn)任意一個(gè)詞在文檔的分布概率不依賴于其他單詞是否出現(xiàn)

            BMI模型:基于二元假設(shè)推導(dǎo)而出,對(duì)于單詞特征,只考慮是否在文檔中出現(xiàn)過(guò),而了考慮單詞的權(quán)值
            P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)
            log( pi(1-si)/si(1-pi) )
            pi代表第i個(gè)單詞在相關(guān)文檔集合內(nèi)出現(xiàn)的概率,在二元假設(shè)下,可以用包含這個(gè)單詞的相關(guān)文檔個(gè)數(shù)ri除以相關(guān)文檔總數(shù)R來(lái)估算,pi=ri/R
            si代表第i個(gè)詞在不相關(guān)文檔集合內(nèi)出現(xiàn)的概率,可以用包含這個(gè)單詞的不相關(guān)文檔個(gè)數(shù)ni-ri,除以不相關(guān)文檔總數(shù)(N-R)來(lái)估算,si=(ni-ri)/(N-R)
            加上平滑處理
            log((ri+0.5)/(R-ri+0.5)
            /
            (ni-ri+0.5)/((N-R)-(ni-ri)+0.5))
            其含義:對(duì)于同時(shí)出現(xiàn)在用戶查詢Q和文檔D中的單詞,累加每個(gè)單詞的估值,其和就是文檔D和查詢相關(guān)性度量值

            BM25模型
            在BIM模型的基礎(chǔ)上,考慮了單詞在查詢中的權(quán)值及單詞在文檔中的權(quán)值,擬合出綜合上述考慮因素的公式,并通過(guò)引入一些經(jīng)驗(yàn)參數(shù)
            BM25模型是目前最成功的內(nèi)容排序模型
            http://hi.csdn.net/attachment/201011/30/0_12911307384w69.gif

            k1,k2,K均為經(jīng)驗(yàn)設(shè)置的參數(shù),fi是詞項(xiàng)在文檔中的頻率,qfi是詞項(xiàng)在查詢中的頻率。

            K1通常為1.2,通常為0-1000

            K的形式較為復(fù)雜

            K=http://hi.csdn.net/attachment/201011/30/0_1291130766F92C.gif 

            上式中,dl表示文檔的長(zhǎng)度,avdl表示文檔的平均長(zhǎng)度,b通常取0.75
            BM25F模型:是典型的BM25改進(jìn)算法
            將文檔內(nèi)容切換成不同的部分,為不同的部分賦予不同的權(quán)重
            語(yǔ)言模型方法:借鑒語(yǔ)音識(shí)別領(lǐng)域采用的語(yǔ)言模型技術(shù),將語(yǔ)言模型和信息檢索相互融合
            為每個(gè)文檔建立一個(gè)語(yǔ)言模型,語(yǔ)言模型代表了單詞或者單詞序列在文檔中的分布情況
            對(duì)于查詢中的單詞來(lái)說(shuō),每個(gè)單詞都對(duì)應(yīng)一個(gè)抽取概率,將這些單詞的抽取概率相乘就是文檔生成查詢的總體概率
            一般采用數(shù)據(jù)平滑方式解決數(shù)據(jù)稀疏問(wèn)題
            用戶提交查詢Q,文檔集合內(nèi)所有文檔都計(jì)算生成Q的概率,然后按照生成概率值由大到小排序,就是搜索結(jié)果
            HMM,隱馬爾科夫語(yǔ)言模型、相關(guān)模型、翻譯模型是在基本語(yǔ)言模型的改進(jìn)
            語(yǔ)言模型檢索方法效果略優(yōu)于精調(diào)參數(shù)的向量空間模型,與BM25等概率模型效果相當(dāng)
            通過(guò)理論推導(dǎo),可以得出:語(yǔ)言模型檢索方法的排序公司符合概率模型的概率排序原理,類似向量空間模型Tf*IDF
            機(jī)器學(xué)習(xí)排序
            為何興起較晚:
            1、其他模型和方法,考慮的因素較少,人工進(jìn)行公式擬合完全可行,效果尚可
            2、機(jī)器學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù),用戶點(diǎn)擊記錄可以當(dāng)做機(jī)器學(xué)習(xí)方法訓(xùn)練數(shù)據(jù)的一個(gè)替代品
            機(jī)器學(xué)習(xí)排序系統(tǒng)的4個(gè)步驟
            人工標(biāo)注訓(xùn)練數(shù)據(jù):用戶點(diǎn)擊記錄來(lái)模擬人工打分機(jī)制
            文檔特征抽取:查詢?cè)~在文檔中的詞頻、查詢?cè)~的IDF信息,網(wǎng)頁(yè)入鏈數(shù)量,網(wǎng)頁(yè)出鏈數(shù)量,網(wǎng)頁(yè)P(yáng)ageRank值,網(wǎng)頁(yè)URL長(zhǎng)度,查詢?cè)~的Proximity值(文檔中多大的窗口內(nèi)可以出現(xiàn)所有查詢?cè)~)
            學(xué)習(xí)分類函數(shù)
            在實(shí)際搜索系統(tǒng)中采用機(jī)器學(xué)習(xí)模型
            機(jī)器學(xué)習(xí)方法
            1、單文檔方法
            對(duì)單獨(dú)的一篇文檔轉(zhuǎn)換為特征向量,機(jī)器學(xué)習(xí)系統(tǒng)根據(jù)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的分類或回歸函數(shù)對(duì)文檔打分,打分結(jié)果為最后得分
            在訓(xùn)練過(guò)程中,當(dāng)打分大于一定的閾值,為相關(guān)文檔,否則為不相關(guān)文檔。
            2、文檔對(duì)方法
            通過(guò)訓(xùn)練,對(duì)文檔順序關(guān)系是否合理進(jìn)行判斷,判斷兩個(gè)文檔的得分
            使用SVM,BOOST,神經(jīng)網(wǎng)絡(luò),都可以做為學(xué)習(xí)方法
            缺點(diǎn),只考慮了兩個(gè)文檔對(duì)的相對(duì)先后順序,卻沒(méi)有考慮文檔出現(xiàn)的搜索列表中的位置
            不同的查詢,相關(guān)文檔數(shù)量差異很大,對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的效果造成評(píng)價(jià)困難
            3、文檔列表方法
            將每個(gè)查詢對(duì)應(yīng)的所有搜索結(jié)果列表作為一個(gè)訓(xùn)練實(shí)例
            通過(guò)搜索結(jié)果排列組合的概率分布,訓(xùn)練評(píng)分函數(shù)
            搜索質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn):對(duì)于搜索引擎更加關(guān)注精確率
            精確率:本次搜索結(jié)果中相關(guān)文檔所占本次搜索返回的所有文檔的比例
            招回率:本次搜索結(jié)果中相關(guān)文檔占整個(gè)集合中所有相關(guān)文檔的比例
            P@10指標(biāo):在搜索結(jié)果排名最先前的頭10個(gè)文檔中有多大比例是相關(guān)的
            MAP:AP兼顧了排在前列的相關(guān)性和系統(tǒng)招架率,MAP多組查詢的AP平均值
            posted on 2013-11-04 12:56 胡滿超 閱讀(607) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
            成人资源影音先锋久久资源网| 亚洲午夜久久久影院| 欧美一区二区精品久久| 久久久久四虎国产精品| 久久播电影网| 国产A级毛片久久久精品毛片| 久久精品水蜜桃av综合天堂| 久久精品亚洲男人的天堂| 亚洲AV日韩AV永久无码久久| 久久综合狠狠综合久久激情 | 久久精品人人做人人妻人人玩| 国产精品久久永久免费| 久久亚洲日韩看片无码| 久久久久久国产精品美女| 无码精品久久久久久人妻中字| 久久亚洲欧洲国产综合| 草草久久久无码国产专区| AV无码久久久久不卡网站下载| 久久精品一本到99热免费| 久久夜色精品国产www| 国产福利电影一区二区三区久久久久成人精品综合 | 99久久99这里只有免费费精品 | 麻豆AV一区二区三区久久| 亚洲国产精品无码久久青草| 久久亚洲私人国产精品| 国产免费久久精品99re丫y| 超级碰久久免费公开视频| 久久久久久久97| 久久人人爽人人爽人人片AV麻豆| 久久久久久亚洲Av无码精品专口| 一本大道久久香蕉成人网| 精品久久久久久无码免费| 93精91精品国产综合久久香蕉 | 久久久久久国产精品无码下载 | 国产呻吟久久久久久久92| 久久精品黄AA片一区二区三区| 性做久久久久久久| 无码专区久久综合久中文字幕| 亚洲国产另类久久久精品黑人| 婷婷久久香蕉五月综合加勒比| 国产Av激情久久无码天堂|