??xml version="1.0" encoding="utf-8" standalone="yes"?>久久一本综合,97精品久久天干天天天按摩,久久青草国产手机看片福利盒子http://www.shnenglu.com/humanchao/category/20276.html知识改变命运Q学习成未来?/description>zh-cnWed, 28 Feb 2018 18:53:27 GMTWed, 28 Feb 2018 18:53:27 GMT60深入出LSHhttp://www.shnenglu.com/humanchao/archive/2018/02/24/215521.html胡满?/dc:creator>胡满?/author>Sat, 24 Feb 2018 05:10:00 GMThttp://www.shnenglu.com/humanchao/archive/2018/02/24/215521.htmlhttp://www.shnenglu.com/humanchao/comments/215521.htmlhttp://www.shnenglu.com/humanchao/archive/2018/02/24/215521.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/215521.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/215521.html阅读全文

]]>
q就是搜索引擎-W试6-链接分析http://www.shnenglu.com/humanchao/archive/2013/11/12/204224.html胡满?/dc:creator>胡满?/author>Tue, 12 Nov 2013 06:06:00 GMThttp://www.shnenglu.com/humanchao/archive/2013/11/12/204224.htmlhttp://www.shnenglu.com/humanchao/comments/204224.htmlhttp://www.shnenglu.com/humanchao/archive/2013/11/12/204224.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/204224.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/204224.html搜烦引擎在查找时主要考虑两方面因素:|页和查询的相关性、网늚重要?/span>
链接分析解决|页重要性的问题
|页中最重要的三个要素,出链QOut LinkQ,入链QIn LinksQ,锚文?/div>
链接分析法
1、随机游走模型:对直接蟩转和q程跌{两种用户览行ؓq行抽象的概忉|型,用户从当前网到达某|页的概?/div>
2、子集传播模型:把网划分ؓ若干子集Q给予子集内|页初始权|Ҏ链接关系Q按照一定方式将权g递到其他|页
不同子集传播模型在如下方面存在差异:
1Q如何定义特D子集合
2Q在定了特D子集合所h的性质后,如果对子集内的网赋初始?/span>
3Q从Ҏ子集合将其分g播到其他|页Ӟ采取何种传播方式
PageRank法
除了考虑到入链数量的影响Q还参考了|页质量因素
数量假设Q在Web图模型中Q如果一个页面节Ҏ收到的其他网|向的入链数量多Q那么这个页面越重要
质量假设Q质量高的页面会通过链接向其他页面传递更多的权重
法开始赋予每个网늛同的重要性得分,通过q代递归计算来更新每个页面节点的PageRank得分Q直到稳定ؓ?/div>
q程跌{Q解决链接陷q通用方式Q在|页向外传递分值时Q不限于向出链所指网传递,也可以以一定的概率向Q意其他网蟩转(虚拟边,权值通过虚拟边向外传递)
HITS(Hypertext Induced Topic Selection)法

Authority面Q某个领域或者某个话题相关的高质量网?/div>
Hub面Q指向很多Authority面
基本假设1Q一个好的Authority面会被很多好的Hub面指向
基本假设2Q一个好的Hub面会向向很好的Authority面
法步骤Q?/strong>
1、将查询提交l某个现有的搜烦引擎Q或索系l,提取排名靠前的结果(栚wQ?/div>
2、在栚w的基上,对其扩充Q凡是与栚w内网|直接链接指向关系的网都被扩充进来)
3、在栚w+扩充|页Q寻扑֥的Hub面与好的Authority面
4、初始情况下Q在没有更多可利用信息前Q把所有页面两个权值都讄?
5、以怺增强的关pȝ原则q行多轮q代计算Q每轮P代计更新每个页面的两个权|直到权值稳定ؓ?/div>
HITS法不仅在搜索引擎领域应用,在自然语a处理Q社交分析也有较好的效果
HITS法的不I计算效率较低、主题漂U,易被作弊者操U늻果,l果不稳定(d删除个别|页或者改变少数链接关p,Ҏ名媄响会很大Q?/div>
HITS法与PageRank法比较
1、HITS与用戯入查询相养IPageRank与查询无?/div>
2、HITS计算效率低,PageRankȝ计算Q在U直接用计结果,计算效率?/div>
3、HITS为局部计,适合在客LQ?span style="font-size: medium; ">PageRank为全局计算Q适合步骤在服务器?/span>
4、HITS适合处理具体用户查询Q?/span>PageRank处理适合处理宽泛?/span>用户查询
5、HITS法在计时Qؓ每个面计算两个分|PageRank只需计算一个分|在搜索引擎领域,更重要Authority权|其他应用领域Hub分g很重?/span>
6、从反作弊角度说Q?span style="font-size: medium; ">PageRank从机制上优于HITS
7?/span>PageRank比HITS计算q程更稳定,原因?/span>PageRank计算时的q程跌{

SALSA法
很多实验数据表明QSALSA是目前最好的链接分析法之一
计算程分两个阶D:
1、确定计对象集?/strong>Q与HITScM
1Q扩展网集合,在收到用h询后Q利用现有搜索引擎或索系l获取根集,q扩?/div>
2Q{换ؓ无向二分图,一个子集合Hub集合QAuthority集合
2、链接关pM播过E?/strong>Q在q一阶段采纳了随机游走模?/div>
在权g播过E中Q权值是被所有链接^均分配的
HITS模型x的是Hub?span style="font-size: medium; ">Authority之间的节点相互增强关p?/span>
SALSA实际上关注的是Hub-Hub?/span>Authority-Authority之间的节点关p?/span>
Authority集合内从某个节点i转移到另一个节点j的概率,i与j之间概率是不同的Q非对称
在二分图中,对于Authority集合内的某个节点来说Q一定可以通过Hub子集合的节点中{后再ơ返回本w?/span>
建立?/span>Authority节点关系囑֐Q即可利用随机游走模型来计算每个节点?/span>Authority权?/span>
SALSA搜索结合排序问题进一步{换ؓ?/strong>Authority节点矩阵的主U问?/strong>Q无需q代Q计速度?/span>
军_Authority权值的4个因?/strong>Q?/span>
1Q?/span>Authority子集合中包含的节ҎL
2Q网i所在连通图中的节点个数
3Q网i所在连通图中包含的入链L
4Q网i的入链个?/span>
SALSA法的特?/strong>Q?/div>
1、SALSA法无需像HITS法一栯P代计,计算速度?/span>
2、解决了HITS主题漂移的问题,搜烦质量优于HITS
主题敏感PageRank
该算法被Google使用在个性化搜烦服务中,非常适合作ؓ个性化搜烦的技术方?/div>
用户会对某些领域感兴,同时当浏览某个页面时Q这个页面也是与某个主题相关Q蟩转时Q更們֐于点d当前面主题cM的链?/div>
主题敏感PageRank是将用户兴趣Q页面主题及链接所指向|页与当前网主题的怼E度l合考虑而徏立模?/div>
该算法引?6U主题类型,对于某个|页来说Q对应某个主题类型都有相应的PageRank分?/div>
主题敏感的PageRank与主题相养I在接收到用户查询后,主题敏感PageRankq需要利用分cdQ计该查询隶属于事先定义好?6个主题的怼度,q在排序时利用此怼度信?/div>
计算程Q?/div>
1、离U的分类主题PageRank数D,计算|页对于16个分cȝ怼?/div>
     网划分ؓ两个集合Q一个ODP对应分类主题对应的所有网SQ剩下的|页为另一个集合T
     通过链接关系Q从S向T传递权重,卌网|属类别的概率
2、在U利用算好的PageRank分|来评估网和用户查询的相似度
     通过计算查询词所属类别的概率*|页所属类别的概率Q得Z者相x的分|q行排序
HillTop法
1、从量的互联网|页中通过一定的规则选出专家面子集合,q单独ؓ其徏立烦?/div>
2、接收用户发出的查询hӞҎ用户查询的主题,从专安面子集合中找出部分相x最强的专家面Q对每个专家面计算相关性得?/div>
3、根据目标页面(从烦引系l中中取到的面Q和q些专家面的链接关p?对目标页面进行排?/div>
4、整合相关专安面和得分较高的目标页面作为搜索结果,q回l用?/div>
从属l织面Q主机IP地址的前3个网D늛同,|站域名中的d名相?/div>
专家面
1、与某个主题相关的高质量面
2、这些页面的链接所指向的页面相互之间是非从属组l页?/span>
3、这些被指向的页面大多数是与专家面主题相近
HillTop可以与某个排序算法相l合Q不适合作ؓ一个独立的|页排序法来用,因ؓ当无法得C个够大的专安面时Q会q回I结果?/div>
步骤1Q专安面搜?/strong>
??千万|页中,{选出250万作Z安面,专家面特征:
1、页面中臛_包含K个出链,K可以Zؓ指定
2、K个出链指向的所有页面相互之间的关系Q都W合非从属组l页?/div>
对专安面单独徏索引Q且只对关键字段(Key Phrase)q行索引Q关键字D包?cM息:|页标题QH1标签内文字和URL锚文?/div>
关键字段有媄响范_可以支配Qualify的链接)Q依ơؓQ标?>H1标签->URL锚文?/div>
在计网|序时Q对查询字段在不同的关键字段中,会用不同的权?/div>
pȝ接收到用h询QQ将对专安面进行打分,主要考虑以下3cM息:
1、关键字D包含了多少?/div>
2、关键片D|w的cdQ即关键字段的类?/div>
3、用h询和关键词的失配率,卛_键字D中不属于查询的单词个数占关键片D|d词个数的比率
步骤2Q目标页面排?/strong>
Hilltop法包含的基本假设:一个目标页面如果是满用户查询的高质量搜烦l果Q其充分必要条g是该目标面有高质量专家面链接指向
Z证上q假讄成立QHilltop法在这个阶D需要对专家面的出链仔l进行甄别,以保证查询时Q选出那些和查询密切相关的目标面?/div>
在进行传递分g前,首先需要对链接关系q行整理Q?strong>能够获得专家面分值的目标面需要满以下两点要求:
条g1、至需要两个专安面有链接指向目标面Q且两个专家面不能是从属组l页?/div>
能够获得传递分值的目标面一定有多个专家面链接指向Q目标页面所获得的M播分值是每个有链接指向的专家面所传递的分g?/div>
条g2、专安面和所指向的目标页面不能是从属l织面
目标面权D步?/strong>Q?/div>
1、找C安面中那些能够支配面的关键片D集合S
2、统计S中包含用h询词的关键片D个数TQT大权D?/div>
3、专安面给目标面传递分|E*T,EZ安面本w在W一阶段计算得到的相兛_分,T为b步骤计算分?/div>
对于包含多个查询词的用户hQ则每个查询词单独计,多个查询词的传递分值篏?/div>
Hilltop法存在与HITS法cM的计效率问题,随着专家面集合的增?/div>
其他改进法
1、智能游走模?Intelligent Surfer Model)
判断|页包含的链接所指向的网内容和用户查询的相x,以此来改善链接分析效?/div>
2、偏|游走模?Biased Sufer Model)
游走模型考虑的是|页内容和用h询的相关性,而偏游走模型考虑的是链接指向的网内容和当前览|页内容之间的相似?/div>
3、PHITS法(Probability Analogy of HITS)
PHITS是对HITS法的直接改q?/span>PHITS法认ؓ不同链接其传递权值的能力应该是不同的Q?/span>PHITS需要计两个页面S和T之间链接的连接强?/span>
链接的强度依据页面S和T之间怼度确?/span>
4、BFS法(Backward Forward Step)
对SALSA法的扩展,对HITS法的限?/div>
解除了SALSA法只允许直接相ȝ|能有影响的限Ӟ只要|页S和T可通达Q即可对|页T施加影响Q如果网S距离|页T距离远Q那么网S的媄响就随着距离增大而呈现衰?/div>

]]>q就是搜索引擎-W试5-索模型与搜烦排序http://www.shnenglu.com/humanchao/archive/2013/11/04/204084.html胡满?/dc:creator>胡满?/author>Mon, 04 Nov 2013 04:56:00 GMThttp://www.shnenglu.com/humanchao/archive/2013/11/04/204084.htmlhttp://www.shnenglu.com/humanchao/comments/204084.htmlhttp://www.shnenglu.com/humanchao/archive/2013/11/04/204084.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/204084.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/204084.html索模型与搜烦排序
最重要的两个因素,用户查询与网늛x,|页链接情况
索模型:用户查询与网늛x?/span>
布尔模型Q向量空间模型,概率模型Q语a模型Q机器学习排序算?/span>

布尔模型Q数据基是集合论Q搜索结果过于粗p,无法量化搜烦词与文档之前的相x?/div>

向量I间模型Q把文档看做是由Tl特征组成的一个向量,最常用的是以单词作为特征,实际应用中,文档的维度相当高Q成千上万)
查询和文档之间的内容相似性作为相x的替代
计算怼性,使用COSINEQ计查询词特征权g文档中每个特征权值向量的点积
特征权重Q由词频TfQ逆文档频率IDF定
词频TfQ?/span>Wtf=a+(1-a)*Tf/Max(Tf)
a?.4效果较好
逆文档频率因?/strong>Q文档集合范围的一U全局因子Q特征单词之间的相对重要?/div>
有研I者进一步分析认为:IDF代表了单词带有的信息量的多少Q熵Q,其D高,说明其信息含量越多,有价?/div>
IDFk=log(N/nk)
N代表文档集合中d有多个文档Qnk代表特征单词k在其中多个文档中出现过
Weight_word=Tf*IDFQ特征权D大,可能是好的指示?/div>
查询词在某个文档中的词频高Q在其他文档中出现的词频低Q这个词的权D?/strong>
向量I间模型是经验型的模型,靠直觉和l验不断摸烦完善Q缺乏明的理论指导改进方向
概率排序原理Q给定一个用h询,如果搜烦pȝ能够在搜索结果排序时按照文档和用户需求的相关性由高到低排序,那么q个搜烦pȝ的准性是最优的?/div>
P(D|R)/P(D|NR)大小q行降序排列Q得到搜索相x排?/div>

二元独立模型

二元假设Q?/strong>一遍文档在q征进行表C的时候,以特?#8220;出现”?#8220;不出?#8221;两种情况来表C?/div>
词汇独立假:文档中出CQ意一个词在文档的分布概率不依赖于其他单词是否出现

BMI模型Q基于二元假设推D出Q对于单词特征,只考虑是否在文档中出现q,而了考虑单词的权?/span>
P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)
log( pi(1-si)/si(1-pi) )
pi代表Wi个单词在相关文档集合内出现的概率Q在二元假设下,可以用包含这个单词的相关文档个数ri除以相关文档LR来估,pi=ri/R
si代表Wi个词在不相关文档集合内出现的概率Q可以用包含q个单词的不相关文档个数ni-riQ除以不相关文档L(N-R)来估,si=(ni-ri)/(N-R)
加上qx处理
log((ri+0.5)/(R-ri+0.5)
/
(ni-ri+0.5)/((N-R)-(ni-ri)+0.5))
其含义:对于同时出现在用h询Q和文档D中的单词Q篏加每个单词的估|其和是文档D和查询相x度量?/div>

BM25模型
在BIM模型的基上,考虑了单词在查询中的权值及单词在文档中的权|拟合出综合上q考虑因素的公式,q过引入一些经验参?/div>
BM25模型是目前最成功的内Ҏ序模?/div>
http://hi.csdn.net/attachment/201011/30/0_12911307384w69.gif

k1,k2,K均ؓl验讄的参敎ͼfi是词在文档中的频率Q?/span>qfi是词在查询中的频率?/span>

K1通常?/span>1.2Q通常?/span>0-1000

K的Ş式较为复?/span>

K=http://hi.csdn.net/attachment/201011/30/0_1291130766F92C.gif 

上式中,dl表示文档的长度,avdl表示文档的^均长度,b通常?/span>0.75
BM25F模型Q是典型的BM25改进法
文档内容切换成不同的部分,Z同的部分赋予不同的权?/div>
语言模型ҎQ借鉴语音识别领域采用的语a模型技术,语a模型和信息检索相互融?/div>
为每个文档徏立一个语a模型Q语a模型代表了单词或者单词序列在文档中的分布情况
对于查询中的单词来说Q每个单词都对应一个抽取概率,这些单词的抽取概率怹是文档生成查询的M概率
一般采?strong>数据qx方式解决数据E疏问?/div>
用户提交查询QQ文档集合内所有文档都计算生成Q的概率,然后按照生成概率值由大到排序,是搜烦l果
HMMQ隐马尔U夫语言模型、相x型、翻译模型是在基本语a模型的改q?/div>
语言模型索方法效果略优于_调参数的向量空间模型,与BM25{概率模型效果相?/div>
通过理论推导Q可以得出:语言模型索方法的排序公司W合概率模型的概率排序原理,cM向量I间模型Tf*IDF
机器学习排序
Z兴v较晚Q?/div>
1、其他模型和ҎQ考虑的因素较,人工q行公式拟合完全可行Q效果尚?/div>
2、机器学习需要大量训l数据,用户点击记录可以当做机器学习Ҏ训练数据的一个替代品
机器学习排序pȝ?个步?/strong>Q?/div>
人工标注训练数据Q用L击记录来模拟人工打分机制
文档特征抽取Q查询词在文档中的词频、查询词的IDF信息Q网入链数量,|页出链数量Q网PageRank||页URL长度Q查询词的Proximity|文档中多大的H口内可以出现所有查询词Q?/span>
学习分类函数
在实际搜索系l中采用机器学习模型
机器学习Ҏ
1、单文档Ҏ
对单独的一文档{换ؓ特征向量Q机器学习系l根据从训练数据中学习到的分cL回归函数Ҏ档打分,打分l果为最后得?/div>
在训l过E中Q当打分大于一定的阈|为相x档,否则Z相关文档?/div>
2、文档对Ҏ
通过训练Q对文档序关系是否合理q行判断Q判断两个文档的得分
使用SVM,BOOST,经|络Q都可以做ؓ学习Ҏ
~点Q只考虑了两个文档对的相对先后顺序,却没有考虑文档出现的搜索列表中的位|?/div>
不同的查询,相关文档数量差异很大Q对机器学习pȝ的效果造成评h困难
3、文档列表方?/strong>
每个查询对应的所有搜索结果列表作Z个训l实?/div>
通过搜烦l果排列l合的概率分布,训练评分函数
搜烦质量评h标准Q对于搜索引擎更加关注精率
_率:本次搜烦l果中相x档所?strong>本次搜烦q回的所有文?/strong>的比?/div>
招回率:本次搜烦l果中相x档占整个集合中所有相x?/strong>的比?/span>
P@10指标Q在搜烦l果排名最先前的头10个文档中有多大比例是相关?/div>
MAPQAP兼顾了排在前列的相关性和pȝ招架率,MAP多组查询的APq_?/div>

]]>q就是搜索引擎-W试4-索引压羃http://www.shnenglu.com/humanchao/archive/2013/11/04/204083.html胡满?/dc:creator>胡满?/author>Mon, 04 Nov 2013 04:56:00 GMThttp://www.shnenglu.com/humanchao/archive/2013/11/04/204083.htmlhttp://www.shnenglu.com/humanchao/comments/204083.htmlhttp://www.shnenglu.com/humanchao/archive/2013/11/04/204083.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/204083.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/204083.html词典压羃Q减词典的内存占用
好的压羃法Q压~率Q压~速度Q解压速度Q最重要Q?/div>
一元编?/strong>
10
210
3110
41110
511110
Elias Gamma:
x=2^e+d
e+1:一元编?/div>
d:二元~码
Elias Delta:
x=2^e+d
e+1:再?span style="font-size: medium; ">Elias Gamma~码一?/span>
d:二元~码
Golomb & Rice
因子1=(X-1)/bQ因?+1Q一元编?/div>
因子2=(X-1) mod bQ用二元编码,~码宽度在log(b)
Golomb: b=0.69*Avg(序列q_?
RiceQ?的整数次q,所有小于Avg中最接近Avg的数?/div>
变长压羃法SimpleX
Simple9: 32位比特位Q?个比特ؓ理数据存储区,28个比特压~数据存储区
Simple9?8位有9U表CŞ?/div>
Simple16: 28位有16U表CŞ式,q且通过非当完全固定长度,解决数据区有费位的情况
PForDeltaQ目前解压速度最快的一U倒排文g压羃法
1Q对待编码的q箋K个数|一般ؓ128Q,定10%的大数数|Ҏ70%数定夺取的比特宽度,定整个序列
2Q对原始数据遍历Q将大数攄到尾端,q{换成链表l构的序?/div>
3、将所有数字压~到队列?/div>
文档~号重排?/strong>
|页的文档ID+单词词频信息Q文档ID使用D-Gapq行~码
内容越怼的网,在编排文档号时越盔R
量数据文本聚类速度较慢Q将URL怼的网聚合在一P假设同一个网站的很多面表达的主题内Ҏq似?/div>
静态烦引裁?/strong>Q主动抛弃一部分不重要的信息Q烦引项Q来辑ֈ数据压羃的效?/div>
以单词ؓ中心的烦引裁?/strong>Q?/div>
判断单词与文档的怼性,每个词典中的单词Q其对应的倒排排列中至保留K个烦引项Q还要保留若q富余项?/div>
实验证明Q如果首先对所有烦引项的原始得分减d分最低烦引项的得分,再采取(对K个项q行折扣Q乘一个折扣因子,得出阈值aQ剩下的大于a保留Q方法进行裁剪,效果会大大提?/div>
因ؓ
索引得分分差相关不大,比较集中在某个区_所以减掉得分最低项
以文档ؓ中心的烦引裁?/strong>Q更为常?/div>
在徏立烦引之前进行数据预处理Q把与文档主题表达不相关的单词抛弃,如停用词


]]>q就是搜索引擎-W试3-搜烦引擎索引http://www.shnenglu.com/humanchao/archive/2013/09/16/203260.html胡满?/dc:creator>胡满?/author>Mon, 16 Sep 2013 06:01:00 GMThttp://www.shnenglu.com/humanchao/archive/2013/09/16/203260.htmlhttp://www.shnenglu.com/humanchao/comments/203260.htmlhttp://www.shnenglu.com/humanchao/archive/2013/09/16/203260.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/203260.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/203260.html单词词典
1、哈希加链表
2、树形结构:B树或者B+?/div>
倒排列表Q?/div>
单词+文档P词频Q出现的位置
文档号一般采用差值存储,以节省空?/div>
建立索引
1、两遍文档遍历法
W一遍,攉全局l计信息Q文档数NQ每个文档包含不同单词数MQ每个单词在多少个文档中出现q的信息DFQ通过q些信息可以计算出最l烦引的大小
W二遍,在徏立好的内存中建立索引Q从盘d文档q解析文档是最消耗时间的步骤
2、排序法
始终在内存中分配固定大小的空_用来存放词典信息和烦引中间结果,当分配空间消耗光的时候,把中间结果写入磁盘,清空内存数据q行下一轮烦?/div>
中间l果排序Q排序前Q文档IDQ单词IDQ单词频?/div>
排序后,单词IDQ主键)Q文档IDQ次键)
合ƈ中间l果Q把中间l果文gq行合ƈQ按单词ID写入最l结果文?/div>
3、归q法
在中间结果排序完成以后,把字怿息也写入文档中,q样全额使用内存
在徏立中间烦引中Q实际单词,文档~号Q词?/div>
合ƈӞ针对每个单词的倒排列表q行合ƈQŞ成最l的词典信息
动态烦?/strong>
倒排索引Q词典在内存里,倒排列表存储在磁盘文件中
临时索引Q词典和倒排列表都在内存中,当有新文档加入时Q放C时烦引中
删除文档列表Q当文档内容被更ҎQ系l认为旧文档被删除,增加一新文档
当用戯入查询时Q先从找倒排索引+临时索引Q去掉删除文档列表中的文档结?/div>
索引更新{略
1、完全重建策略:当新增文档达C定数量后Q新老烦引合q建,适合文档集合,L商业搜烦引擎一般也采用此方式来l护
2、再合ƈ{略Q?span style="font-size: medium; ">当新增文档达C定数量后Q新老烦引合q建,此时老烦引还在被使用Q由于老烦引有序,所以合q策略执行较快,但是读老烦引,建新索引Q也需要较多IO旉Q比较耗时
3、原地更新策略:在徏立老烦引时Q在老烦引倒排列表中留有一定的余地Q新加入索引直接q加到预留空_实验数据表明Q更新效率比再合q策略低
4、؜合策略:单词根据不同性质q行分类Q对其烦引采取不同的索引更新{略Q长倒排列表单词采取原地更新{略Q读写开销大)Q短倒排列表采取再合q策略(d开销不算太大Q?/span>

查询处理
1、一ơ一文档Q找到包含关键字的所有文档集合,一ơ计一个文档的得分Q依ơ计所有文档,计算后一般采用优先队列对分数q行排序
2、一ơ一单词Q一ơ计一个单词的得分Qƈ把结果以文档~写为关键|以hash表存储得分,计算所有文档得分后Q对hash表进行排?/span>
跌指针
在存储倒排索引文档~号Ӟ通常使用跌指针节省I间Q蟩跃指针分块用根号L为长度效果较?/div>
多字D늃?/strong>Q对|页的不同区域进行字D划分,q行索引
1、多索引方式Q对每个不同的字D分别徏立烦?/div>
2、倒排列表方式Q把字段信息存储到倒排列表中
3、扩展列表方式,把每个字D出现的位置记录C张列表里Q倒排索引扑ֈ单词后,判断单词的位|是否在某字D范围中
短语查询Q本质上是如何在索引中维护单词顺序关pL位置信息
1、位|信息烦引,通过位置信息判断两个词是否ؓ短语关系Q适合常规短语
2、双词烦引,首词+下词Q只对计代价高的短语徏立双词烦引,一般短语通过常规手段辑ֈ目的
3、短语烦引,~点无法所有短语都建好索引Q从用户查询日志或网|w挖掘短语,适合热门短语
4、؜合方法,用户查询->短语索引->双词索引->常规索引
分布式烦引:多台机器协作完成索引
1、按文档划分Q每台机器负责对某个文档子集建立索引
2、按单词划分Q将单词分别传送给服务?Q计结果后Q再传送给服务?Q一ơ一单词的查询处理方?/div>

]]>q就是搜索引擎-W试2http://www.shnenglu.com/humanchao/archive/2013/09/13/203210.html胡满?/dc:creator>胡满?/author>Fri, 13 Sep 2013 03:10:00 GMThttp://www.shnenglu.com/humanchao/archive/2013/09/13/203210.htmlhttp://www.shnenglu.com/humanchao/comments/203210.htmlhttp://www.shnenglu.com/humanchao/archive/2013/09/13/203210.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/203210.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/203210.html二、网l抓?/strong>

|页面划分?个部分:
1、已下蝲
2、已q期
3、待下蝲
4、可知网集合,未下载,但可索引
5、不可知|页集合Q暗|网?/div>
爬虫分三U类型:
1、批量型Q有明确的抓取范围和目标Q当辑ֈq个目标后停止抓?/div>
2、增量型Q不断抓取,抓取C后定期更?/div>
3、垂直型Q抓取特定行业网?/div>
优秀爬虫的特性:高性能、可扩展Q良好的q发性)、健壮性、友好性(遵守Robot协议Q?/div>
评h爬虫质量的标准:覆盖率,时新性,重要?/div>
 
抓取{略Q优先选择重要|页q行抓取
1、宽度优先遍历策略,虽然机械Q但是效果好Q隐含了一些网优UU的假设
2、非完全PageRank{略Q对已下载网集合,加上待抓取URLQŞ成网集合,q行PageRank计算Q将待抓取按得分q行排序
3、OCIP{略Q在UK面重要性计,待下载页面都分配相同的cashQ下载后把页面拥有的现金q_l包含的链接Q?/div>
待抓取URL则根据手头现金排序,优先下蝲最充裕|页。计速度快,适合实时计算Q效果略优于宽度优先
4、大站优先策略,哪个|站{等下蝲的页面最多,则优先下载这些链接,效果略优于宽度优?/span>

|页更新{略
1、历史参考策略,q去频繁更新的网,来也会频繁更新Q利用泊松过E?/span>
抓取{略应该忽略掉广告或D{非重要区域的频J变化,集中在主题内容的变化探测和徏?/span>
2、用户体验策略,Ҏ索结果排名靠前,更新以后Ҏ索质量(排名Q的影响较大的页面进行更?/span>
3、聚cLL略,先对|页q行聚类Q对同一cȝ采用相同的更新频率
聚类特征Q?/span>
静态特征,面的内容,囄数量Q页面大,链接深度QPageRank?/span>
动态特征,随着旉的变?Q静态特征的变化情况
聚类抽样{略效果好于前述两种Q但是对亿计|页q行聚类Q难度较?/span>

暗网抓取
暗|数据从数据库中挖掘出来Q百度的“阿拉?#8221;计划是解决此问?/span>
查询l合QGoogle提出富含信息查询模板技术,使用富含信息查询模板q行查询Q获取有效的|页l果
富含信息查询模板Q对于某固定的查询模板来_如果l模板内每个属性都赋|形成不同的查询组合,其返回内容差异较大,则这个查询模板ؓ富含信息查询模板

分布式爬?/span>
M分布式:URL服务器容易成为整个系l的瓉
对等分布式:没有URL服务器存在,每台抓取服务器的分工成ؓ问题Q对|址的主域名q行哈希计算Q之后对m服务器数量取模,把计后的模和抓取服务器号匹?/span>
一致性哈希算法:网站主域名q行哈希Q映到0~2^32之间某个数|抓取服务器负责这个环状序列的一个片D늚抓取Q抓取内容由上一个服务器q行循环转发


]]>q就是搜索引擎-W试1http://www.shnenglu.com/humanchao/archive/2013/09/05/203023.html胡满?/dc:creator>胡满?/author>Thu, 05 Sep 2013 06:27:00 GMThttp://www.shnenglu.com/humanchao/archive/2013/09/05/203023.htmlhttp://www.shnenglu.com/humanchao/comments/203023.htmlhttp://www.shnenglu.com/humanchao/archive/2013/09/05/203023.html#Feedback0http://www.shnenglu.com/humanchao/comments/commentRss/203023.htmlhttp://www.shnenglu.com/humanchao/services/trackbacks/203023.html一、搜索引擎介l?/strong>

搜烦引擎发展阶段Q?/span>
1、分cȝ录的一?/span>
2、文本检索的一?/span>
3、链接分析的一?/span>
4、用户中心的一?/span>

搜烦引擎的三个目标:更全Q更快,更准

搜烦引擎?个核心问题:
1、用L正的需求是什么,搜烦词背后的含义
2、哪些信息是和用户需求真正相养I关键词匹?/span>
3、哪些信息是用户可以依赖的,q回l用户重要的Q可依赖的网?/span>

优秀的云存储与云计算机^台已l成为大型商业搜索引擎的核心竞争?/span>


]]>? 怎样量化评h搜烦引擎的结果质?/title><link>http://www.shnenglu.com/humanchao/archive/2012/12/19/196436.html</link><dc:creator>胡满?/dc:creator><author>胡满?/author><pubDate>Wed, 19 Dec 2012 03:03:00 GMT</pubDate><guid>http://www.shnenglu.com/humanchao/archive/2012/12/19/196436.html</guid><wfw:comment>http://www.shnenglu.com/humanchao/comments/196436.html</wfw:comment><comments>http://www.shnenglu.com/humanchao/archive/2012/12/19/196436.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/humanchao/comments/commentRss/196436.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/humanchao/services/trackbacks/196436.html</trackback:ping><description><![CDATA[<h2>转自Q?a >http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality</a><br /><br />前言</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">搜烦质量评估是搜索技术研I的基础性工作,也是核心工作之一。评PMetricsQ在搜烦技术研发中扮演着重要角色Q以至于M一U新Ҏ与他们的评h方式是融Z体的?/p><div style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><br />搜烦引擎l果的好坏与否,体现在业界所U的在相x(RelevanceQ上。相x的定义包括狭义和广义两斚wQ狭义的解释是:索结果和用户查询的相关程度。而从q义的层面,相关性可以理解ؓ为用h询的l合满意度。直观的来看Q从用户q入搜烦框的那一刻vQ到需求获得满ؓ止,q之间经历的q程顺畅,便P搜烦相关性就好。本文ȝ业界常用的相x评h标和量化评hҎ。供Ҏ感兴的朋友参考?/div><h2>Cranfield评h体系</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">A Cranfield-like approachq个名称来源于英国Cranfield UniversityQ因为在二十世纪五十q代该大学首先提Zq样一套评Ll:由查询样例集、正答案集、评指标构成的完整评测ҎQƈ从此立?#8220;评h”在信息检索研I中的核心地位?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Cranfield评h体系׃个环节组成:</p><ol style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><li>抽取代表性的查询词,l成一个规模适当的集?/li><li>针对查询样例集合Q从索系l的语料库中L对应的结果,q行标注Q通常人工q行Q?/li><li>查询词和带有标注信息的语料库输入检索系l,对系l反馈的索结果,使用预定义好的评仯公式,用数值化的方法来评h索系l结果和标注的理想结果的接近E度</li></ol><h2>查询词集合的选取</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Cranfield评hpȝ在各大搜索引擎公司内有广泛的应用。具体应用时Q首先需要解决的问题是构造一个测试用查询词集合?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">按照Andrei BroderQ曾在AltaVista/IBM/Yahoo任职Q的研究Q查询词可分?c:dcL询(NavigationalQ、信息类查询(Informational)、事务类查询(Transactional)。对应的比例分别?/p><pre style="overflow: auto; width: 964.25px; padding: 0px 0px 5px; font-size: 12px; line-height: 15px; font-family: 'Courier New', Courier; color: #222222; margin-top: 0px; margin-bottom: 0px; background-color: #fafafa; border: 2px solid #efefef; ">Navigational Q?12.3% Informational Q?62.0% Transactional Q?25.7% </pre><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Z使得评估W合U上实际情况Q通常查询词集合也会按比例q行选取。通常从线上用LQuery Log文g中自动抽取?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">另外查询集合的构造时Q除了上q查询类型外Q还可以考虑Query的频ơ,对热门queryQ高频查询)、长queryQ中低频Q分别占特定的比例?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">另外Q在抽取QueryӞ往往Query的长短也是一个待考虑的因素。因为短queryQ单term的查询)和长QueryQ多Term的查询)排序法往往会有一些不同?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">构成查询集合后,使用q些查询词,在不同系l(例如Ҏ癑ֺ和GoogleQ或不同技术间Q新旧两套Ranking法的环境)q行搜烦Qƈ对结果进行评分,以决定优劣?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">附图Q对同一QueryQ?#8220;C会保险?#8221;Q各大搜索引擎的l果C意图。下面具体谈谈评分的Ҏ?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image1.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image2.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image3.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image4.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image5.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image6.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><h2>Precision-recallQ准率-召回率方法)</h2><h3>计算Ҏ</h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">信息索领域最qؓ人知的评h标ؓPrecision-RecallQ准率-召回率)Ҏ。该Ҏ从提今已l历半个世纪Q至今在很多搜烦引擎公司的效果评C使用?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">֐思义Q这个方法由准确率和召回率这两个怺兌的统计量构成Q召回率QRecallQ衡量一个查询搜索到所有相x档的能力Q而准率QPrecisionQ衡量搜索系l排除不相关文档的能力。(通俗的解释一下:准确率就是算一你查询得到的结果中有多是靠谱的;而召回率表示所有靠ql果中,有多被你给扑֛来了Q。这两项是评h索效果的最基础指标Q其具体的计方法如下?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Precision-recallҎ假定对一个给定的查询Q对应一个被索的文档集合和一个不相关的文档集合。这里相x被假设Z元的Q用数学形式化方法来描述Q则是:</p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">A表示相关文档集合</p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><span style="text-decoration: overline; ">A</span>表示不相关集?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">B表示被检索到的文档集?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><span style="text-decoration: overline; ">B</span>表示未被索到的文档集?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">则单ơ查询的准确率和召回率可以用下述公式来表达:</p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img alt="" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image7.jpg" _href="img://image7.jpg" _p="true" style="border: 0px; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Q运符∩ 表示两个集合的交集。|x|W号表示集合x中的元素数量Q?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">从上面的定义不难看出Q召回率和准率的取D围均在[0,1]之间。那么不难想象,如果q个pȝ扑֛的相兌多,那么召回率越高,如果相关l果全部都给召回了,那么recall此时q?.0?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "></p><table cellspacing="0" cellpadding="0" border="1" style="color: #000000; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; text-align: start; background-color: #ffffff; "><tbody><tr><td width="156" valign="top" style="font-size: small; "> </td><td width="156" valign="top" style="font-size: small; "><p align="center">相关?/p></td><td width="156" valign="top" style="font-size: small; "><p align="center">不相?/p></td></tr><tr><td width="156" valign="top" style="font-size: small; "><p align="center">被检索到</p></td><td width="156" valign="top" style="font-size: small; "><p align="center">A∩ B</p></td><td width="156" valign="top" style="font-size: small; "><p align="center"><span style="text-decoration: overline; ">A</span>∩ B</p></td></tr><tr><td width="156" valign="top" style="font-size: small; "><p align="center">未被索到</p></td><td width="156" valign="top" style="font-size: small; "><p align="center">A∩<span style="text-decoration: overline; ">B</span></p></td><td width="156" valign="top" style="font-size: small; "><p align="center"><span style="text-decoration: overline; ">A</span>∩<span style="text-decoration: overline; ">B</span></p></td></tr></tbody></table><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "></p><h3>Precision-Recall曲线</h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">召回率和准确率分别反映了索系l的两个最重要的侧面,而这两个侧面又相互制U。因为大规模数据集合中,如果期望索到更多相关的文档,必然需?#8220;攑֮”索标准,因此会导致一些不相关l果淯来,从而准确率受到媄响。类似的Q期望提高准率Q将不相x档尽量去除时Q务必要执行?#8220;严格”的检索策略,q样也会使一些相关的文档被排除在外,使召回率下降?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">所以ؓ了更清晰的描qC者间的关p,通常我们Precison-Recall用曲U的方式l制出来Q可以简UCؓP-R diagram。常见的形式如下图所C。(通常曲线是一个逐步向下的走势,即随着Recall的提高,Precision逐步降低Q?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image8.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><h3>P-R的其它Ş?/h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">一些特定搜索应用,会更x搜烦l果中错误的l果。例如,搜烦引擎的反作弊pȝQAnti-Spam SystemQ会更关注检索结果中混入了多条作弊l果。学术界把这些错误结果称作假x(False PositiveQ结果,对这些应用,通常选择用虚报率QFalloutQ来l计Q?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img alt="" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image9.jpg" _href="img://image9.jpg" _p="true" style="border: 0px; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Fallout和Presion本质是完全相同的。只是分别从正反两方面来计算。实际上是P-R的一个变U?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">再回C图,Presion-Recall是一个曲U,用来比较两个Ҏ的效果往往不够直观Q能不能对两者进行综合,直接反映C个数g呢?为此IR学术界提ZF值度量(F -MeasureQ的Ҏ。F-Measure通过Presion和Recall的调和^均数来计,公式为:</p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image10.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">其中参数λε(0,1)调节pȝ对Precision和Recall的^衡程度。(通常?#955;=0.5Q此?nbsp;<img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image11-1.jpg" alt="" style="border: 0px; " />Q?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">q里使用调和q_数而不是通常的几何^均或术q_Q原因是调和q_数强调较数值的重要性,能敏感的反映数字的变化Q因此更适合用来反映索效果?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">使用F Measure的好处是只需要一个单一的数字就可以ȝpȝ的检索效果,便于比较不同搜烦pȝ的整体效果?/p><h2>P@NҎ</h2><h3>点击因素</h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">传统的Precision-Recallq不完全适用Ҏ索引擎的评估Q原因是搜烦引擎用户的点L式有其特D性,包括Q?/p><pre style="overflow: auto; width: 964.25px; padding: 0px 0px 5px; font-size: 12px; line-height: 15px; font-family: 'Courier New', Courier; color: #222222; margin-top: 0px; margin-bottom: 0px; background-color: #fafafa; border: 2px solid #efefef; ">A 60-65%的查询点M名列搜烦l果?0条的|页Q? B 20-25%的h会考虑点击名列11?0的网; C 仅有3-4%的会点击名列搜烦l果中列W?1到第30名的|页 </pre><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">也就是说Q绝大部分用h不愿意翻去看搜索引擎给出的后面的结果?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">而即使在搜烦l果的首(通常列出的是?0条结果)Q用L点击行ؓ也很有意思,我们通过下面的Google点击热图QHeat MapQ来观察Q这个热囑֜二维搜烦l果上通过光谱来Ş象的表达不同位置用户的点ȝ度。颜色约靠近U色表示点击强度高Q:</p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image12.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">从图中可以看出,搜烦l果的前3条吸引了大量的点击,属于热度最高的部分。也是_Ҏ苏引擎来_最前的几条l果是最关键的,军_了用L满意E度?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image13.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">康乃大学的研究人员通过eye tracking实验获得了更为精的Google搜烦l果的用戯为分析图。从q张图中可以看出Q第一条结果获得了56.38%的搜索流量,W二条和W三条结果的排名依次降低Q但q低于排名第一的结果。前三条l果的点L例大Uؓ11:3:2 。而前三条l果的ȝd乎分了搜烦量?0%?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">另外的一些有的l论是,点击量ƈ不是按照序依次递减的。排名第七位获得的点L最的Q原因可能在于用户在览q程中下拉页面到底部Q这时候就只显C最后三位排名网站,W七名便Ҏ被忽略。而首屏最后一个结果获得的注意力(2.55Q是大于倒数W二位的(1.45)Q原因是用户在翻前Q对最后一条结果印象相对较深。搜索结果页面第二页排名W一的网(xL?1位的l果Q所获得的点d有首|名第十网站的40%Q与首页的第一条结果相比,更是只有?/60?/100的点击量?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">因此在量化评估搜索引擎的效果Ӟ往往需要根据以上搜索用L行ؓ特点Q进行针Ҏ的设计?/p><h3>P@N的计方?/h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">P@N本n是Precision@N的简Uͼ指的是对特定的查询,考虑位置因素Q检前N条结果的准确率。例如对单次搜烦的结果中?,如果?ؓ相关文档Q则P@5 = 4/5 = 0.8 ?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">试通常会用一个查询集合(按照前文所q方法构造)Q包含若q条不同的查询词Q在实际使用P@Nq行评估Ӟ通常使用所有查询的P@N数据Q计算术^均|用来评判该系l的整体搜烦l果质量?/p><h3>N的选取</h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">对用h_通常只关注搜索结果最前若q条l果Q因此通常搜烦引擎的效果评估只x?、或者前3l果Q所以我们常用的N取gؓP@3或P@5{?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">对一些特定类型的查询应用Q如dcȝ查询QNavigational SearchQ,׃目标l果极ؓ明确Q因此在评估Ӟ会选择N=1Q即使用P@1Q。D个例子来_搜烦“新浪|?#8221;、或“新浪首页”Q如果首条结果不?新浪|(urlQ?a style="color: #0b59b2; ">www.sina.com.cn</a>Q,则直接判该次查询_ֺ不满需求,即P@1=0</p><h2>MRR</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">上述的P@NҎQ易于计和理解。但l心的读者一定会发现问题Q就是在前Nl果中,排序W?位和WN位的l果Q对准确率的影响是一L。但实际情况是,搜烦引擎的评h和排序位|极为相关的。即排第一的结果错误,和第10位的l果错误Q其严重E度有天壤之别。因此在评hpȝ中,需要引入位|这个因素?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">MRR是^均排序倒数QMean Reciprocal RankQ的UͼMRRҎ主要用于dcL索(Navigational SearchQ或问答cL索(Question AnsweringQ,q些索方法只需要一个相x档,对召回率不敏感,而是更关注搜索引擎检索到的相x档是否排在结果列表的前面。MRRҎ首先计算每一个查询的W一个相x档位|的倒数Q然后将所有倒数值求q_。例如一个包含三个查询词的测试集Q前5l果分别为:</p><pre style="overflow: auto; width: 964.25px; padding: 0px 0px 5px; font-size: 12px; line-height: 15px; font-family: 'Courier New', Courier; color: #222222; margin-top: 0px; margin-bottom: 0px; background-color: #fafafa; border: 2px solid #efefef; ">查询一l果Q?.AN 2.AR 3.AN 4.AN 5.AR 查询二结果:1.AN 2.AR 3.AR 4.AR 5.AN 查询三结果:1.AR 2.AN 3.AN 4.AN 5.AR </pre><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">其中AN表示不相关结果,AR表示相关l果。那么第一个查询的排序倒数QReciprocal RankQRR<sub>1</sub> = 1/2=0.5 Q第二个l果RR<sub>2</sub> = 1/2 = 0.5 Q?注意倒数的g变,即查询二获得的相关l果更多。同理,RR<sub>3</sub>= 1/1 = 1?对于q个试集合Q最lMRR=QRR<sub>1</sub>+RR<sub>2</sub>+RR<sub>3</sub>Q? 3 = 0.67</p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">然而对大部分检索应用来_只有一条结果无法满需求,对这U情况,需要更合适的Ҏ来计效果,其中最常用的是下述MAPҎ?/p><h2>MAP</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">MAPҎ是Mean Average PrecisonQ即q_准确率法的简U。其定义是求每个相关文档索出后的准确率的q_|即Average PrecisionQ的术q_|MeanQ。这里对准确率求了两ơ^均,因此UCؓMean Average Precision。(注:没叫Average Average Precision一是因为难听,二是因ؓ无法区分两次q_的意义)</p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">MAP 是反映系l在全部相关文档上性能的单值指标。系l检索出来的相关文档靠?rank 高)QMAP应该越高。如果系l没有返回相x档,则准率默认??/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">例如Q假设有两个主题Q?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">主题1?个相关网,主题2?个相关网c?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">某系l对于主?索出4个相关网,其rank分别?, 2, 4, 7Q?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">对于主题2索出3个相关网,其rank分别?,3,5?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">对于主题1Q^均准率MAP计算公式为:</p><pre style="overflow: auto; width: 964.25px; padding: 0px 0px 5px; font-size: 12px; line-height: 15px; font-family: 'Courier New', Courier; color: #222222; margin-top: 0px; margin-bottom: 0px; background-color: #fafafa; border: 2px solid #efefef; ">(1/1+2/2+3/4+4/7)/4=0.83?</pre><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">对于主题2Q^均准率MAP计算公式为:</p><pre style="overflow: auto; width: 964.25px; padding: 0px 0px 5px; font-size: 12px; line-height: 15px; font-family: 'Courier New', Courier; color: #222222; margin-top: 0px; margin-bottom: 0px; background-color: #fafafa; border: 2px solid #efefef; ">(1/1+2/3+3/5+0+0)/5=0.45?</pre><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">则MAP= (0.83+0.45)/2=0.64?#8221;</p><h2>DCGҎ</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">DCG是英文Discounted cumulative gain的简Uͼ中文可翻译ؓ“折扣增益?#8221;。DCGҎ的基本思想是:</p><ol style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><li>每条l果的相x分{来衡?/li><li>考虑l果所在的位置Q位|越靠前的则重要E度高</li><li>{高(卛_l果Q的l果位置靠前则值应该越高,否则l予惩罚</li></ol><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">我们首先来看W一条:相关性分U。这里比计算Precision时简单统?#8220;准确”?#8220;不准?#8221;要更为精l。我们可以将l果l分为多个等U。比如常用的3U:GoodQ好Q、FairQ一般)、BadQ差Q。对应的分值rel为:Good:3 / Fair:2 / Bad:1 。一些更为细致的评估使用5U分cLQVery GoodQ明昑֥Q、GoodQ好Q、FairQ一般)、BadQ差Q、Very BadQ明昑ַQ,可以对应分值rel讄为:Very Good:2 / Good:1 / Fair:0 / Bad:-1 / Very Bad: -2</p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">评判l果的标准可以根据具体的应用来确定,Very Good通常是指l果的主题完全相养Iq且|页内容丰富、质量很高。而具体到每条</p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image14.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">DCG的计公式ƈ不唯一Q理Z只要求对数折扣因子的qx性。我个h认ؓ下面的DCG公式更合理,了相x,W??条结果的折扣pL也更合理Q?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image15.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">此时DCG?个位|上l果的折扣因子(Discount factorQ数gؓQ?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "></p><table cellspacing="0" cellpadding="0" border="1" style="color: #000000; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; text-align: start; background-color: #ffffff; "><tbody><tr><td width="189" valign="top" style="font-size: small; "><p align="center">i</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">log<sub>2</sub> (i+1)</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">1/log<sub>2</sub> (i+1)</p></td></tr><tr><td width="189" valign="top" style="font-size: small; "><p align="center">1</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">1</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">1</p></td></tr><tr><td width="189" valign="top" style="font-size: small; "><p align="center">2</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">1.59</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">0.63</p></td></tr><tr><td width="189" valign="top" style="font-size: small; "><p align="center">3</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">2</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">0.5</p></td></tr><tr><td width="189" valign="top" style="font-size: small; "><p align="center">4</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">2.32</p></td><td width="189" valign="top" style="font-size: small; "><p align="center">0.43</p></td></tr></tbody></table><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">取以2为底的logg来自于经验公式,q不存在理论上的依据。实际上QLog的基数可以根据^滑的需求进行修改,当加大数值时Q例如用log<sub>5</sub> 代替log<sub>2</sub>Q,折扣因子降低更ؓq速,此时了前面结果的权重?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Z便于不同cd的queryl果之间横向比较Q以DCG为基Q一些评Ll还对DCGq行了归一Q这些方法统UCؓnDCGQ即 normalize DCGQ。最常用的计方法是通过除以每一个查询的理想值iDCGQideal DCGQ来q行归一Q公式ؓQ?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image16.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">求nDCG需要标定出理想情况的iDCGQ实际操作的时候是异常困难的,因ؓ每个人对“最好的l果”理解往往各不相同Q从量数据里选出最优结果是很困隄dQ但是比较两l结果哪个更好通常更容易,所以实践应用中Q通常选择l果Ҏ的方法进行评估?/p><h2>怎样实现自动化的评估Q?/h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">以上所介绍的搜索引擎量化评估指标,在Cranfield评估框架QCranfield Evaluation FrameworkQ中被广泛用。业界知名的TRECQ文本信息检索会议)׃直基于此cL法组l信息检索评和技术交。除了TREC外,一些针对不同应用设计的Cranfield评测论坛也在q行q行Q如 NTCIR、IREX{)?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">但Cranfield评估框架存在的问题是查询样例集合的标注上。利用手工标注答案的方式q行|络信息索的评h是一个既耗费人力、又耗费旉的过E,只有数大公司能够用。ƈ且由于搜索引擎算法改q、运营维护的需要,索效果评价反馈的旉需要尽量羃短,因此自动化的评测ҎҎ高评估效率十分重要。最常用的自动评估方法是A/B testingpȝ?/p><h3>A/B Testing</h3><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image17.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p align="center" style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><strong>A/B Testingpȝ</strong></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">A/B testingpȝ在用h索时Q由pȝ来自动决定用L分组PBucket idQ,通过自动抽取量导入不同分支Q得相应分l的用户看到的是不同产品版本Q或不同搜烦引擎Q提供的l果。用户在不同版本产品下的行ؓ被记录下来Q这些行为数据通过数据分析形成一pd指标Q而通过q些指标的比较,最后就形成了各版本之间C孰劣的结论?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">在指标计时Q又可细分ؓ两种ҎQ一U是Z专家评分的方法;一U是Z点击l计的方法?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">专家评分的方法通常由搜索核心技术研发和产品人员来进行,Ҏ预先讑֮的标准对A、B两套环境的结果给予评分,获取每个Query的结果对比,q根据nDCG{方法计整体质量?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">点击评分有更高的自动化程度,q里使用了一个假设:同样的排序位|,点击数量多的l果质量优于点击数量的l果。(即A2表示A试环境W?条结果,如果A2 > B2Q则表示A2质量更好Q。通俗的说Q相信群众(因ؓ众的眼睛是雪亮的)。在q个假设前提下,我们可以A/B环境前N条结果的点击率自动映ؓ评分Q通过l计大量的Query点击l果Q可以获得可靠的评分Ҏ?/p><h3>Interleaving Testing</h3><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">另外2003q由Thorsten Joachims {h提出的Interleaving testingҎ也被q泛使用。该Ҏ设计了一个元搜烦引擎Q用戯入查询词后,查询词在几个著名搜索引擎中的查询结果随机؜合反馈给用户Qƈ攉随后用户的结果点击行Z息.Ҏ用户不同的点d֐性,可以判断搜索引擎返回结果的优劣Q?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">如下图所C,算法A和B的结果交叉放|,q分量q行试Q记录用LM息。根据点d布来判断A和B环境的优劣?/p><p style="overflow-x: auto; width: 964.25px; overflow-y: hidden; font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><img border="0" _href="img://image1.jpg" _p="true" src="http://www.infoq.com/resource/articles/cyw-evaluate-seachengine-result-quality/zh/resources/image18.jpg" alt="" style="border: 0px; display: block; float: none; margin-left: auto; margin-right: auto; " /></p><p align="center" style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; "><strong>Interleaving Testing评估Ҏ</strong></p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">Joachims同时证明了Interleaving Testing评hҎ与传lCranfield评hҎ的结果具有较高的相关性。由于记录用户选择索结果的行ؓ是一个不耗费人力的过E,因此可以便捷的实现自动化的搜索效果评估?/p><h2>ȝ</h2><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">没有评估没有进?#8212;—Ҏ索效果的量化评测Q目的是准确的找出现有搜索系l的不Q没有哪个搜索系l是完美的)Q进而一步一个脚印对法、系l进行改q。本文ؓ大家ȝ了常用的评h框架和评h标。这些技术像一把把子Q度量着搜烦技术每一ơ前q的距离?/p><hr style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; " /><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">感谢<a style="color: #0b59b2; ">张凯?/a>?本文的审校?/p><p style="font-family: Lucida, 'Lucida Grande', Tahoma, sans-serif; font-size: 13px; line-height: 19px; background-color: #ffffff; ">lInfoQ中文站投E或者参与内容翻译工作,请邮件至<a href="mailto:editors@cn.infoq.com" style="color: #0b59b2; ">editors@cn.infoq.com</a>。也Ƣ迎大家加入?a target="_blank" style="color: #0b59b2; ">InfoQ中文站用戯论组</a>中与我们的编辑和其他读?朋友交流?/p><img src ="http://www.shnenglu.com/humanchao/aggbug/196436.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/humanchao/" target="_blank">胡满?/a> 2012-12-19 11:03 <a href="http://www.shnenglu.com/humanchao/archive/2012/12/19/196436.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss> <footer> <div class="friendship-link"> <p>лǵվܻԴȤ</p> <a href="http://www.shnenglu.com/" title="精品视频久久久久">精品视频久久久久</a> <div class="friend-links"> </div> </div> </footer> <a href="http://www.lskcop.cn" target="_blank">ۺþþ</a>| <a href="http://www.medicalonline.cn" target="_blank">ȾþùþƷ</a>| <a href="http://www.antispy.cn" target="_blank">Ʒþþþa</a>| <a href="http://www.carmap.com.cn" target="_blank">þþƷƷ</a>| <a href="http://www.211228.cn" target="_blank">һþaþþƷۺ</a>| <a href="http://www.lntyyp.cn" target="_blank">Ʒþþþþ</a>| <a href="http://www.hhyskj.com.cn" target="_blank">97þþƷҹһ</a>| <a href="http://www.nfnv.cn" target="_blank">Ʒһþ</a>| <a href="http://www.my1983.cn" target="_blank">þþþһ</a>| <a href="http://www.innas.cn" target="_blank">þþþþþ92</a>| <a href="http://www.lzcoxag.cn" target="_blank">þù㽶һƷ</a>| <a href="http://www.mfuq.cn" target="_blank">˾Ʒþþþ7777</a>| <a href="http://www.tb57.cn" target="_blank">Ըߺþþþþþþ</a>| <a href="http://www.jiangyuyun.cn" target="_blank">þó˹Ʒ</a>| <a href="http://www.dartools.cn" target="_blank">ھƷþþþþþþõӰ</a>| <a href="http://www.caribbeanlagoon.com.cn" target="_blank">þóӰԺƷ777</a>| <a href="http://www.oqiang.cn" target="_blank">þù㽶һƷ</a>| <a href="http://www.ab1987.cn" target="_blank">þۺ³³</a>| <a href="http://www.odostudio.cn" target="_blank">þþƷרѶ</a>| <a href="http://www.fj023.cn" target="_blank">þþžžƷ99Ʒ</a>| <a href="http://www.51peini.cn" target="_blank">þþƷһ</a>| <a href="http://www.yiyaosheji.cn" target="_blank">þ99Ʒŷ</a>| <a href="http://www.ccgangjiegou.cn" target="_blank">ŷպƷþ </a>| <a href="http://www.gjgwyks.cn" target="_blank">þӰ㶮</a>| <a href="http://www.eehqv.cn" target="_blank">Ʒպҹþ </a>| <a href="http://www.riseguide.com.cn" target="_blank">þˬˬƬAV </a>| <a href="http://www.dliif.cn" target="_blank">þ99Ʒһ</a>| <a href="http://www.in-lan.cn" target="_blank">þñۺϾþ</a>| <a href="http://www.ysaoyx.cn" target="_blank">һһþaaۺϾƷ</a>| <a href="http://www.diy800.cn" target="_blank">˾þü91</a>| <a href="http://www.1hkl.cn" target="_blank">ҹƷþþþþ</a>| <a href="http://www.czzhiyou.cn" target="_blank">þþþһƷɫav</a>| <a href="http://www.sf1768.cn" target="_blank">91Ʒþþþþ91</a>| <a href="http://www.fscre.cn" target="_blank">AŮAVۺϾþþ</a>| <a href="http://www.pi04.cn" target="_blank">þþƷav</a>| <a href="http://www.hthdw.cn" target="_blank">þùƷ</a>| <a href="http://www.jhgppeizi.com.cn" target="_blank">츾þþ</a>| <a href="http://www.ditiewang.com.cn" target="_blank">þþþӰԺС</a>| <a href="http://www.job126.cn" target="_blank">vĻþ þһ ľþþþר </a>| <a href="http://www.zjyffm.cn" target="_blank">99ƷȾþ޶</a>| <a href="http://www.xuzhou86.cn" target="_blank">ƷѾþþþùһ </a>| <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body>