深入��出LSH

Sat, 24 Feb 2018 05:10:00 GMT

摘要: 通过�q�篇文章我们主要回答以下几个问题�Q? 1. LSH解决问题的背景，即以囄��怼�性搜索�ؓ例，如何解决在�v量数据中�q�行�怼�性查找？ 2. 囑փ��怼�性查扄��q�带问题�Q�相似性度量，特征提取�Q? 3. LSH的数学分析，卛_��部敏感HASH函数的数学原理，通过与、或构造提升查扄��?.. 阅读全文

胡满��?/a> 2018-02-24 13:10 发表评论

�q�就是搜索引擎－�W�试6-链接分析

Tue, 12 Nov 2013 06:06:00 GMT

搜烦引擎在查找时主要考虑两方面因素：�|�页和查询的相关性、网��늚�重要�?/span>

链接分析解决�|�页重要性的问题

�|�页中最重要的三个要素，出链�Q�Out Link�Q�，入链�Q�In Links�Q�，锚文�?/div>

链接分析��法

1、随机游走模型：对直接蟩转和�q�程跌��{两种用户��览行�ؓ�q�行抽象的概忉|��型，用户从当前网��到达某�|�页的概�?/div>

2、子集传播模型：把网��划分�ؓ若干子集�Q�给予子集内�|�页初始权��|��Ҏ��链接关系�Q�按照一定方式将权��g��递到其他�|�页

不同子集传播模型在如下方面存在差异：

1�Q�如何定义特�D�子集合

2�Q�在��定了特�D�子集合所��h��的性质后，如果对子集内的网��赋初始�?/span>

3�Q�从�Ҏ��子集合将其分��g��播到其他�|�页�Ӟ��采取何种传播方式

PageRank��法

除了考虑到入链数量的影响�Q�还参考了�|�页质量因素

数量假设�Q�在Web图模型中�Q�如果一个页面节�Ҏ��收到的其他网��|��向的入链数量��多�Q�那么这个页面越重要

质量假设�Q�质量高的页面会通过链接向其他页面传递更多的权重

��法开始赋予每个网��늛�同的重要性得分，通过�q�代递归计算来更新每个页面节点的PageRank得分�Q�直到稳定�ؓ�?/div>

�q�程跌��{�Q�解决链接陷��q��通用方式�Q�在�|�页向外传递分值时�Q�不限于向出链所指网��传递，也可以以一定的概率向�Q意其他网��蟩转（虚拟边，权值通过虚拟边向外传递）

HITS(Hypertext Induced Topic Selection)��法

Authority��面�Q�某个领域或者某个话题相关的高质量网��?/div>

Hub��面�Q�指向很多Authority��面

基本假设1�Q�一个好的Authority��面会被很多好的Hub��面指向

基本假设2�Q�一个好的Hub��面会向向很好的Authority��面

��法步骤�Q?/strong>

1、将查询提交�l�某个现有的搜烦引擎�Q�或��索系�l�，提取排名靠前的结果（栚w��Q?/div>
2、在栚w��的基��上，对其扩充�Q�凡是与栚w��内网��|��直接链接指向关系的网��都被扩充进来）
3、在栚w��+扩充�|�页�Q�寻扑֥�的Hub��面与好的Authority��面
4、初始情况下�Q�在没有更多可利用信息前�Q�把所有页面两个权值都讄��?
5、以�怺�增强的关�pȝ��原则�q�行多轮�q�代计算�Q�每轮�P代计��更新每个页面的两个权��|��直到权值稳定�ؓ�?/div>
HITS��法不仅在搜索引擎领域应用，在自然语�a�处理�Q�社交分析也有较好的效果
HITS��法的不��I��计算效率较低、主题漂�U�，易被作弊者操�U늻�果，�l�果不稳定（��d��删除个别�|�页或者改变少数链接关�p�，�Ҏ��名媄响会很大�Q?/div>
HITS��法与PageRank��法比较
1、HITS与用戯��入查询相养I��PageRank与查询无�?/div>
2、HITS计算效率低，PageRank��ȝ��计算�Q�在�U�直接��用计��结果，计算效率�?/div>
3、HITS为局部计��，适合在客��L��Q?span style="font-size: medium; ">PageRank为全局计算�Q�适合步骤在服务器�?/span>
4、HITS适合处理具体用户查询�Q?/span>PageRank处理适合处理宽泛�?/span>用户查询
5、HITS��法在计��时�Q��ؓ每个��面计算两个分��|��PageRank只需计算一个分��|��在搜索引擎领域，更重要Authority权��|��其他应用领域Hub分��g��很重�?/span>
6、从反作弊角度说�Q?span style="font-size: medium; ">PageRank从机制上优于HITS
7�?/span>PageRank比HITS计算�q�程更稳定，原因�?/span>PageRank计算时的�q�程跌��{

SALSA��法
很多实验数据表明�Q�SALSA是目前最好的链接分析��法之一
计算��程分两个阶�D�：
1、确定计��对象集�?/strong>�Q�与HITS�c�M��
1�Q�扩展网��集合，在收到用��h��询后�Q�利用现有搜索引擎或��索系�l�获取根集，�q�扩�?/div>
2�Q��{换�ؓ无向二分图，一个子集合Hub集合�Q�Authority集合
2、链接关�p�M��播过�E?/strong>�Q�在�q�一阶段采纳了随机游走模�?/div>
在权��g��播过�E�中�Q�权值是被所有链接��^均分配的
HITS模型��x��的是Hub�?span style="font-size: medium; ">Authority之间的节点相互增强关�p?/span>
SALSA实际上关注的是Hub-Hub�?/span>Authority-Authority之间的节点关�p?/span>
Authority集合内从某个节点i转移到另一个节点j的概率，i与j之间概率是不同的�Q�非对称
在二分图中，对于Authority集合内的某个节点来说�Q�一定可以通过Hub子集合的节点中�{后再�ơ返回本�w?/span>
建立�?/span>Authority节点关系囑֐��Q�即可利用随机游走模型来计算每个节点�?/span>Authority权�?/span>
SALSA��搜索结合排序问题进一步�{换�ؓ�?/strong>Authority节点矩阵的主�U�问�?/strong>�Q�无需�q�代�Q�计��速度�?/span>
军_��Authority权值的4个因�?/strong>�Q?/span>
1�Q?/span>Authority子集合中包含的节�Ҏ��L��
2�Q�网��i所在连通图中的节点个数
3�Q�网��i所在连通图中包含的入链��L��
4�Q�网��i的入链个�?/span>
SALSA��法的特�?/strong>�Q?/div>
1、SALSA��法无需像HITS��法一栯��P代计��，计算速度�?/span>
2、解决了HITS主题漂移的问题，搜烦质量优于HITS
主题敏感PageRank
该算法被Google使用在个性化搜烦服务中，非常适合作�ؓ个性化搜烦的技术方�?/div>
用户会对某些领域感兴��，同时当浏览某个页面时�Q�这个页面也是与某个主题相关�Q�蟩转时�Q�更們֐�于点��d��当前��面主题�c�M��的链�?/div>
主题敏感PageRank是将用户兴趣�Q�页面主题及链接所指向�|�页与当前网��主题的�怼��E�度�l�合考虑而徏立模�?/div>
该算法引�?6�U�主题类型，对于某个�|�页来说�Q�对应某个主题类型都有相应的PageRank分�?/div>
主题敏感的PageRank与主题相养I��在接收到用户查询后，主题敏感PageRank�q�需要利用分�c�d��Q�计��该查询隶属于事先定义好�?6个主题的�怼�度，�q�在排序时利用此�怼�度信�?/div>
计算��程�Q?/div>
1、离�U�的分类主题PageRank数��D��，计算�|�页对于16个分�cȝ��怼��?/div>
��网��划分�ؓ两个集合�Q�一个ODP对应分类主题对应的所有网��S�Q�剩下的�|�页为另一个集合T
通过链接关系�Q�从S向T传递权重，卌��网��|��属类别的概率
2、在�U�利用算好的PageRank分��|��来评估网��和用户查询的相似度
通过计算查询词所属类别的概率*�|�页所属类别的概率�Q�得��Z��者相��x��的分��|��q�行排序
HillTop��法
1、从��量的互联网�|�页中通过一定的规则选出专家��面子集合，�q�单独�ؓ其徏立烦�?/div>
2、接收用户发出的查询��h��Ӟ��Ҏ��用户查询的主题，从专安��面子集合中找出部分相��x��最强的专家��面�Q�对每个专家��面计算相关性得�?/div>
3、根据目标页面（从烦引系�l�中中取到的��面�Q�和�q�些专家��面的链接关�p?对目标页面进行排�?/div>
4、整合相关专安��面和得分较高的目标页面作为搜索结果，�q�回�l�用�?/div>
从属�l�织��面�Q�主机IP地址的前3个网�D늛�同，�|�站域名中的��d��名相�?/div>
专家��面
1、与某个主题相关的高质量��面
2、这些页面的链接所指向的页面相互之间是非从属组�l�页�?/span>
3、这些被指向的页面大多数是与专家��面主题相近
HillTop可以与某个排序算法相�l�合�Q�不适合作�ؓ一个独立的�|�页排序��法来��用，因�ؓ当无法得��C��个��够大的专安��面时�Q�会�q�回�I�结果�?/div>
步骤1�Q�专安��面搜�?/strong>
�?�?千万�|�页中，�{�选出250万作��Z��安��面，专家��面特征:
1、页面中臛_��包含K个出链，K可以��Zؓ指定
2、K个出链指向的所有页面相互之间的关系�Q�都�W�合非从属组�l�页�?/div>
对专安��面单独徏索引�Q�且只对关键字段(Key Phrase)�q�行索引�Q�关键字�D�包�?�c�M��息：�|�页标题�Q�H1标签内文字和URL锚文�?/div>
关键字段有媄响范��_��可以支配Qualify的链接）�Q�依�ơ�ؓ�Q�标�?>H1标签->URL锚文�?/div>
在计��网��|��序时�Q�对查询字段在不同的关键字段中，会��用不同的权�?/div>
�pȝ��接收到用��h��询Q�Q�将对专安��面进行打分，主要考虑以下3�c�M��息：
1、关键字�D�包含了多少�?/div>
2、关键片�D�|��w�的�c�d��Q�即关键字段的类�?/div>
3、用��h��询和关键词的失配率，卛_��键字�D�中不属于查询的单词个数占关键片�D�|��d��词个数的比率
步骤2�Q�目标页面排�?/strong>
Hilltop��法包含的基本假设：一个目标页面如果是满��用户查询的高质量搜烦�l�果�Q�其充分必要条�g是该目标��面有高质量专家��面链接指向
��Z��证上�q�假讄��成立�Q�Hilltop��法在这个阶�D�需要对专家��面的出链仔�l�进行甄别，以保证查询时�Q�选出那些和查询密切相关的目标��面�?/div>
在进行传递分��g��前，首先需要对链接关系�q�行整理�Q?strong>能够获得专家��面分值的目标��面需要满��以下两点要求：
条�g1、至��需要两个专安��面有链接指向目标��面�Q�且两个专家��面不能是从属组�l�页�?/div>
能够获得传递分值的目标��面一定有多个专家��面链接指向�Q�目标页面所获得的��M��播分值是每个有链接指向的专家��面所传递的分��g��?/div>
条�g2、专安��面和所指向的目标页面不能是从属�l�织��面
目标��面权��D��步�?/strong>�Q?/div>
1、找��C��安��面中那些能够支配��面的关键片�D�集合S
2、统计S中包含用��h��询词的关键片�D�个数T�Q�T��大权��D��?/div>
3、专安��面给目标��面传递分��|��E*T,E��Z��安��面本�w�在�W�一阶段计算得到的相兛_��分，T为b步骤计算分�?/div>
对于包含多个查询词的用户��h��Q�则每个查询词单独计��，��多个查询词的传递分值篏�?/div>
Hilltop��法存在与HITS��法�c�M��的计��效率问题，随着专家��面集合的增�?/div>
其他改进��法
1、智能游走模�?Intelligent Surfer Model)
判断�|�页包含的链接所指向的网��内容和用户查询的相��x��，以此来改善链接分析效�?/div>
2、偏�|�游走模�?Biased Sufer Model)
��游走模型考虑的是�|�页内容和用��h��询的相关性，而偏游走模型考虑的是链接指向的网��内容和当前��览�|�页内容之间的相似�?/div>
3、PHITS��法(Probability Analogy of HITS)
PHITS是对HITS��法的直接改�q��?/span>PHITS��法认�ؓ不同链接其传递权值的能力应该是不同的�Q?/span>PHITS需要计��两个页面S和T之间链接的连接强�?/span>
链接的强度依据页面S和T之间�怼�度确�?/span>
4、BFS��法(Backward Forward Step)
对SALSA��法的扩展，对HITS��法的限�?/div>
解除了SALSA��法只允许直接相�ȝ��|��能有影响的限�Ӟ��只要�|�页S和T可通达�Q�即可对�|�页T施加影响�Q�如果网��S距离�|�页T距离��远�Q�那么网��S的媄响就随着距离增大而呈现衰�?/div>

胡满��?/a> 2013-11-12 14:06 发表评论

�q�就是搜索引擎－�W�试5-��索模型与搜烦排序

Mon, 04 Nov 2013 04:56:00 GMT

��索模型与搜烦排序
最重要的两个因素，用户查询与网��늛��x��，�|�页链接情况
��索模型：用户查询与网��늛��x�?/span>
布尔模型�Q�向量空间模型，概率模型�Q�语�a�模型�Q�机器学习排序算�?/span>

布尔模型�Q�数据基��是集合论�Q�搜索结果过于粗�p�，无法量化搜烦词与文档之前的相��x�?/div>

向量�I�间模型�Q�把文档看做是由T�l�特征组成的一个向量，最常用的是以单词作为特征，实际应用中，文档的维度相当高�Q�成千上万）
��查询和文档之间的内容相似性作为相��x��的替代
计算�怼�性，使用COSINE�Q�计��查询词特征权��g��文档中每个特征权值向量的点积
特征权重�Q�由词频Tf�Q�逆文档频率IDF��定
词频Tf�Q?/span>Wtf=a+(1-a)*Tf/Max(Tf)
a�?.4效果较好
逆文档频率因�?/strong>�Q�文档集合范围的一�U�全局因子�Q�特征单词之间的相对重要�?/div>
有研�I�者进一步分析认为：IDF代表了单词带有的信息量的多少�Q�熵�Q�，其��D��高，说明其信息含量越多，��有价�?/div>
IDFk=log(N/nk)
N代表文档集合中��d��有多��个文档�Q�nk代表特征单词k在其中多��个文档中出现过
Weight_word=Tf*IDF�Q�特征权��D��大，��可能是好的指示�?/div>
查询词在某个文档中的词频��高�Q�在其他文档中出现的词频��低�Q�这个词的权��D��?/strong>
向量�I�间模型是经验型的模型，靠直觉和�l�验不断摸烦完善�Q�缺乏明��的理论指导改进方向
概率排序原理�Q�给定一个用��h��询，如果搜烦�pȝ��能够在搜索结果排序时按照文档和用户需求的相关性由高到低排序，那么�q�个搜烦�pȝ��的准��性是最优的�?/div>
��P(D|R)/P(D|NR)大小�q�行降序排列�Q�得到搜索相��x��排�?/div>

二元独立模型

二元假设�Q?/strong>一遍文档在��q��征进行表�C�的时候，以特�?#8220;出现”�?#8220;不出�?#8221;两种情况来表�C?/div>
词汇独立假：文档中出��C�Q意一个词在文档的分布概率不依赖于其他单词是否出现

BMI模型�Q�基于二元假设推��D��出�Q�对于单词特征，只考虑是否在文档中出现�q�，而了考虑单词的权�?/span>
P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)
log( pi(1-si)/si(1-pi) )
pi代表�W�i个单词在相关文档集合内出现的概率�Q�在二元假设下，可以用包含这个单词的相关文档个数ri除以相关文档��L��R来估��，pi=ri/R
si代表�W�i个词在不相关文档集合内出现的概率�Q�可以用包含�q�个单词的不相关文档个数ni-ri�Q�除以不相关文档��L��(N-R)来估��，si=(ni-ri)/(N-R)
加上�q�x��处理
log((ri+0.5)/(R-ri+0.5)
/
(ni-ri+0.5)/((N-R)-(ni-ri)+0.5))
其含义：对于同时出现在用��h��询Q和文档D中的单词�Q�篏加每个单词的估��|��其和��是文档D和查询相��x��度量�?/div>

BM25模型
在BIM模型的基��上，考虑了单词在查询中的权值及单词在文档中的权��|��拟合出综合上�q�考虑因素的公式，�q��过引入一些经验参�?/div>
BM25模型是目前最成功的内�Ҏ��序模�?/div>
k₁,k₂,K均�ؓ�l�验讄��的参敎ͼ�f_i是词��在文档中的频率�Q?/span>qf_i是词��在查询中的频率�?/span>
K₁通常�?/span>1.2�Q�通常�?/span>0-1000
K的�Ş式较为复�?/span>
K=
上式中，dl表示文档的长度，avdl表示文档的��^均长度，b通常�?/span>0.75
BM25F模型�Q�是典型的BM25改进��法
��文档内容切换成不同的部分，��Z��同的部分赋予不同的权�?/div>
语言模型�Ҏ���Q�借鉴语音识别领域采用的语�a�模型技术，��语�a�模型和信息检索相互融�?/div>
为每个文档徏立一个语�a�模型�Q�语�a�模型代表了单词或者单词序列在文档中的分布情况
对于查询中的单词来说�Q�每个单词都对应一个抽取概率，��这些单词的抽取概率�怹��是文档生成查询的��M��概率
一般采�?strong>数据�q�x��方式解决数据�E�疏问�?/div>
用户提交查询Q�Q�文档集合内所有文档都计算生成Q的概率，然后按照生成概率值由大到��排序，��是搜烦�l�果
HMM�Q�隐马尔�U�夫语言模型、相��x��型、翻译模型是在基本语�a�模型的改�q?/div>
语言模型��索方法效果略优于�_�调参数的向量空间模型，与BM25�{�概率模型效果相�?/div>
通过理论推导�Q�可以得出：语言模型��索方法的排序公司�W�合概率模型的概率排序原理，�c�M��向量�I�间模型Tf*IDF
机器学习排序
��Z��兴�v较晚�Q?/div>
1、其他模型和�Ҏ��Q�考虑的因素较��，人工�q�行公式拟合完全可行�Q�效果尚�?/div>
2、机器学习需要大量训�l�数据，用户点击记录可以当做机器学习�Ҏ��训练数据的一个替代品
机器学习排序�pȝ��?个步�?/strong>�Q?/div>
人工标注训练数据�Q�用��L��击记录来模拟人工打分机制
文档特征抽取�Q�查询词在文档中的词频、查询词的IDF信息�Q�网��入链数量，�|�页出链数量�Q�网��PageRank��|��|�页URL长度�Q�查询词的Proximity��|��文档中多大的�H�口内可以出现所有查询词�Q?/span>
学习分类函数
在实际搜索系�l�中采用机器学习模型
机器学习�Ҏ��
1、单文档�Ҏ��
对单独的一��文档�{换�ؓ特征向量�Q�机器学习系�l�根据从训练数据中学习到的分�c�L��回归函数�Ҏ��档打分，打分�l�果为最后得�?/div>
在训�l�过�E�中�Q�当打分大于一定的阈��|��为相��x��档，否则��Z��相关文档�?/div>
2、文档对�Ҏ��
通过训练�Q�对文档��序关系是否合理�q�行判断�Q�判断两个文档的得分
使用SVM,BOOST,��经�|�络�Q�都可以做�ؓ学习�Ҏ��
�~�点�Q�只考虑了两个文档对的相对先后顺序，却没有考虑文档出现的搜索列表中的位�|?/div>
不同的查询，相关文档数量差异很大�Q�对机器学习�pȝ��的效果造成评�h困难
3、文档列表方�?/strong>
��每个查询对应的所有搜索结果列表作��Z��个训�l�实�?/div>
通过搜烦�l�果排列�l�合的概率分布，训练评分函数
搜烦质量评�h标准�Q�对于搜索引擎更加关注精��率
�_��率：本次搜烦�l�果中相��x��档所�?strong>本次搜烦�q�回的所有文�?/strong>的比�?/div>
招回率：本次搜烦�l�果中相��x��档占整个集合中所有相��x��?/strong>的比�?/span>
P@10指标�Q�在搜烦�l�果排名最先前的头10个文档中有多大比例是相关�?/div>
MAP�Q�AP兼顾了排在前列的相关性和�pȝ��招架率，MAP多组查询的AP�q�_��?/div>

胡满��?/a> 2013-11-04 12:56 发表评论

�q�就是搜索引擎－�W�试4-索引压羃

Mon, 04 Nov 2013 04:56:00 GMT

词典压羃�Q�减��词典的内存占用
好的压羃��法�Q�压�~�率�Q�压�~�速度�Q�解压速度�Q�最重要�Q?/div>
一元编�?/strong>
1 0
2 10
3 110
4 1110
5 11110
Elias Gamma:
x=2^e+d
e+1:一元编�?/div>
d:二元�~�码
Elias Delta:
x=2^e+d
e+1:再��?span style="font-size: medium; ">Elias Gamma�~�码一��?/span>
d:二元�~�码
Golomb & Rice
因子1=(X-1)/b�Q�因�?+1�Q�一元编�?/div>
因子2=(X-1) mod b�Q��用二元编码，�~�码宽度在log(b)
Golomb: b=0.69*Avg(序列�q�_��?
Rice�Q?的整数次�q�，所有小于Avg中最接近Avg的数�?/div>
变长压羃��法SimpleX
Simple9: 32位比特位�Q?个比特�ؓ��理数据存储区，28个比特压�~�数据存储区
Simple9�?8位有9�U�表�C��Ş�?/div>
Simple16: 28位有16�U�表�C��Ş式，�q�且通过非当��完全固定长度，解决数据区有��费位的情况
PForDelta�Q�目前解压速度最快的一�U�倒排文�g压羃��法
1�Q�对待编码的�q�箋K个数��|��一般�ؓ128�Q�，��定10%的大数数��|��Ҏ��70%��数��定夺取的比特宽度，��定整个序列
2�Q�对原始数据遍历�Q�将大数攄��到尾端，�q��{换成链表�l�构的序�?/div>
3、将所有数字压�~�到队列�?/div>
文档�~�号重排�?/strong>
�|�页的文档ID+单词词频信息�Q�文档ID使用D-Gap�q�行�~�码
��内容越�怼�的网��，在编排文档号时越盔R��
��量数据文本聚类速度较慢�Q�将URL�怼�的网��聚合在一��P��假设同一个网站的很多��面表达的主题内�Ҏ��q�似�?/div>
静态烦引裁�?/strong>�Q�主动抛弃一部分不重要的信息�Q�烦引项�Q�来辑ֈ�数据压羃的效�?/div>
以单词�ؓ中心的烦引裁�?/strong>�Q?/div>
判断单词与文档的�怼�性，每个词典中的单词�Q�其对应的倒排排列中至��保留K个烦引项�Q�还要保留若�q�富余项�?/div>
实验证明�Q�如果首先对所有烦引项的原始得分减��d��分最低烦引项的得分，再采取（对K个项�q�行折扣�Q�乘一个折扣因子，得出阈值a�Q�剩下的大于a保留�Q�方法进行裁剪，效果会大大提�?/div>
因�ؓ
索引��得分分差相关不大，比较集中在某个区��_��所以减掉得分最低项
以文档�ؓ中心的烦引裁�?/strong>�Q�更为常�?/div>
在徏立烦引之前进行数据预处理�Q�把与文档主题表达不相关的单词抛弃，如停用词

胡满��?/a> 2013-11-04 12:56 发表评论

�q�就是搜索引擎－�W�试3-搜烦引擎索引

Mon, 16 Sep 2013 06:01:00 GMT

单词词典
1、哈希加链表
2、树形结构：B树或者B+�?/div>
倒排列表�Q?/div>
单词+文档��P��词频�Q�出现的位置
文档号一般采用差值存储，以节省空�?/div>
建立索引
1、两遍文档遍历法
�W�一遍，攉��全局�l�计信息�Q�文档数N�Q�每个文档包含不同单词数M�Q�每个单词在多少个文档中出现�q�的信息DF�Q�通过�q�些信息可以计算出最�l�烦引的大小
�W�二遍，在徏立好的内存中建立索引�Q�从��盘��d��文档�q�解析文档是最消耗时间的步骤
2、排序法
始终在内存中分配固定大小的空��_��用来存放词典信息和烦引中间结果，当分配空间消耗光的时候，把中间结果写入磁盘，清空内存数据�q�行下一轮烦�?/div>
中间�l�果排序�Q�排序前�Q�文档ID�Q�单词ID�Q�单词频�?/div>
排序后，单词ID�Q�主键）�Q�文档ID�Q�次键）
合�ƈ中间�l�果�Q�把中间�l�果文�g�q�行合�ƈ�Q�按单词ID写入最�l�结果文�?/div>
3、归�q�法
在中间结果排序完成以后，把字�怿�息也写入文档中，�q�样全额使用内存
在徏立中间烦引中�Q�实际单词，文档�~�号�Q�词�?/div>
合�ƈ�Ӟ��针对每个单词的倒排列表�q�行合�ƈ�Q��Ş成最�l�的词典信息
动态烦�?/strong>
倒排索引�Q�词典在内存里，倒排列表存储在磁盘文件中
临时索引�Q�词典和倒排列表都在内存中，当有新文档加入时�Q�放��C��时烦引中
删除文档列表�Q�当文档内容被更�Ҏ��Q�系�l�认为旧文档被删除，增加一��新文档
当用戯��入查询时�Q�先从找倒排索引+临时索引�Q�去掉删除文档列表中的文档结�?/div>
索引更新�{�略
1、完全重建策略：当新增文档达��C��定数量后�Q�新老烦引合�q��建，适合��文档集合，��L��商业搜烦引擎一般也采用此方式来�l�护
2、再合�ƈ�{�略�Q?span style="font-size: medium; ">当新增文档达��C��定数量后�Q�新老烦引合�q��建，此时老烦引还在被使用�Q�由于老烦引有序，所以合�q�策略执行较快，但是读老烦引，建新索引�Q�也需要较多IO旉��Q�比较耗时
3、原地更新策略：在徏立老烦引时�Q�在老烦引倒排列表中留有一定的余地�Q�新加入索引直接�q�加到预留空��_��实验数据表明�Q�更新效率比再合�q�策略低
4、�؜合策略：��单词根据不同性质�q�行分类�Q�对其烦引采取不同的索引更新�{�略�Q�长倒排列表单词采取原地更新�{�略�Q�读写开销大）�Q�短倒排列表采取再合�q�策略（��d��开销不算太大�Q?/span>

查询处理
1、一�ơ一文档�Q�找到包含关键字的所有文档集合，一�ơ计��一个文档的得分�Q�依�ơ计��所有文档，计算后一般采用优先队列对分数�q�行排序
2、一�ơ一单词�Q�一�ơ计��一个单词的得分�Q��ƈ把结果以文档�~�写为关键��|��以hash表存储得分，计算所有文档得分后�Q�对hash表进行排�?/span>
跌��指针
在存储倒排索引文档�~�号�Ӟ��通常使用跌��指针节省�I�间�Q�蟩跃指针分块��用根号L为长度效果较�?/div>
多字�D늃��?/strong>�Q�对�|�页的不同区域进行字�D�划分，�q�行索引
1、多索引方式�Q�对每个不同的字�D�分别徏立烦�?/div>
2、倒排列表方式�Q�把字段信息存储到倒排列表��中
3、扩展列表方式，把每个字�D�出现的位置记录��C��张列表里�Q�倒排索引扑ֈ�单词后，判断单词的位�|�是否在某字�D�范围中
短语查询�Q�本质上是如何在索引中维护单词顺序关�p�L��位置信息
1、位�|�信息烦引，通过位置信息判断两个词是否�ؓ短语关系�Q�适合常规短语
2、双词烦引，首词+下词�Q�只对计��代价高的短语徏立双词烦引，一般短语通过常规手段辑ֈ�目的
3、短语烦引，�~�点无法��所有短语都建好索引�Q�从用户查询日志或网��|��w�挖掘短语，适合热门短语
4、�؜合方法，用户查询->短语索引->双词索引->常规索引
分布式烦引：多台机器协作完成索引
1、按文档划分�Q�每台机器负责对某个文档子集建立索引
2、按单词划分�Q�将单词分别传送给服务�?�Q�计��结果后�Q�再传送给服务�?�Q�一�ơ一单词的查询处理方�?/div>

胡满��?/a> 2013-09-16 14:01 发表评论

�q�就是搜索引擎－�W�试2

Fri, 13 Sep 2013 03:10:00 GMT

二、网�l�抓�?/strong>

�|�页��面划分�?个部分：
1、已下蝲
2、已�q�期
3、待下蝲
4、可知网��集合，未下载，但可索引
5、不可知�|�页集合�Q�暗�|�网��?/div>
爬虫分三�U�类型：
1、批量型�Q�有明确的抓取范围和目标�Q�当辑ֈ��q�个目标后停止抓�?/div>
2、增量型�Q�不断抓取，抓取��C��后定期更�?/div>
3、垂直型�Q�抓取特定行业网��?/div>
优秀爬虫的特性：高性能、可扩展�Q�良好的�q�发性）、健壮性、友好性（遵守Robot协议�Q?/div>
评�h爬虫质量的标准：覆盖率，时新性，重要�?/div>

抓取�{�略�Q�优先选择重要�|�页�q�行抓取
1、宽度优先遍历策略，虽然机械�Q�但是效果好�Q�隐含了一些网��优�U��U�的假设
2、非完全PageRank�{�略�Q�对已下载网��集合，加上待抓取URL�Q��Ş成网��集合，�q�行PageRank计算�Q�将待抓取按得分�q�行排序
3、OCIP�{�略�Q�在�U�K��面重要性计��，待下载页面都分配相同的cash�Q�下载后把页面拥有的现金�q�_��l�包含的链接�Q?/div>
待抓取URL则根据手头现金排序，优先下蝲最充裕�|�页。计��速度快，适合实时计算�Q�效果略优于宽度优先
4、大站优先策略，哪个�|�站�{�等下蝲的页面最多，则优先下载这些链接，效果略优于宽度优�?/span>

�|�页更新�{�略
1、历史参考策略，�q�去频繁更新的网��，��来也会频繁更新�Q�利用泊松过�E?/span>
抓取�{�略应该忽略掉广告或��D��{�非重要区域的频�J�变化，集中在主题内容的变化探测和徏�?/span>
2、用户体验策略，�Ҏ��索结果排名靠前，更新以后�Ҏ��索质量（排名�Q�的影响较大的页面进行更�?/span>
3、聚�c�L��L��略，先对�|�页�q�行聚类�Q�对同一�cȝ��采用相同的更新频率
聚类特征�Q?/span>
静态特征，��面的内容，囄��数量�Q�页面大��，链接深度�Q�PageRank�?/span>
动态特征，随着旉��的变�?�Q�静态特征的变化情况
聚类抽样�{�略效果好于前述两种�Q�但是对亿计�|�页�q�行聚类�Q�难度较�?/span>

暗网抓取
��暗�|�数据从数据库中挖掘出来�Q�百度的“阿拉�?#8221;计划��是解决此问�?/span>
查询�l�合�Q�Google提出富含信息查询模板技术，使用富含信息查询模板�q�行查询�Q�获取有效的�|�页�l�果
富含信息查询模板�Q�对于某固定的查询模板来��_��如果�l�模板内每个属性都赋��|��形成不同的查询组合，其返回内容差异较大，则这个查询模板�ؓ富含信息查询模板

分布式爬�?/span>
��M��分布式：URL服务器容易成为整个系�l�的瓉��
对等分布式：没有URL服务器存在，每台抓取服务器的分工成�ؓ问题�Q�对�|�址的主域名�q�行哈希计算�Q�之后对m服务器数量取模，把计��后的模和抓取服务器号匹�?/span>
一致性哈希算法：��网站主域名�q�行哈希�Q�映��到0~2^32之间某个数��|��抓取服务器负责这个环状序列的一个片�D늚�抓取�Q�抓取内容由上一个服务器�q�行循环转发

胡满��?/a> 2013-09-13 11:10 发表评论

�q�就是搜索引擎－�W�试1

Thu, 05 Sep 2013 06:27:00 GMT

一、搜索引擎介�l?/strong>

搜烦引擎发展阶段�Q?/span>
1、分�cȝ��录的一�?/span>
2、文本检索的一�?/span>
3、链接分析的一�?/span>
4、用户中心的一�?/span>

搜烦引擎的三个目标：更全�Q�更快，更准

搜烦引擎�?个核心问题：
1、用��L��正的需求是什么，搜烦词背后的含义
2、哪些信息是和用户需求真正相养I��关键词匹�?/span>
3、哪些信息是用户可以依赖的，�q�回�l�用户重要的�Q�可依赖的网��?/span>

优秀的云存储与云计算机��^台已�l�成为大型商业搜索引擎的核心竞争�?/span>

胡满��?/a> 2013-09-05 14:27 发表评论

Wed, 19 Dec 2012 03:03:00 GMT

转自�Q?a >http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality

前言
搜烦质量评估是搜索技术研�I�的基础性工作，也是核心工作之一。评��P��Metrics�Q�在搜烦技术研发中扮演着重要角色�Q�以至于��M��一�U�新�Ҏ��与他们的评�h方式是融��Z��体的�?/p>

搜烦引擎�l�果的好坏与否，体现在业界所�U�的在相��x��（Relevance�Q�上。相��x��的定义包括狭义和广义两斚w��Q�狭义的解释是：��索结果和用户查询的相关程度。而从�q�义的层面，相关性可以理解�ؓ为用��h��询的�l�合满意度。直观的来看�Q�从用户�q�入搜烦框的那一刻�v�Q�到需求获得满��ؓ止，�q�之间经历的�q�程��顺畅，��便��P��搜烦相关性就��好。本文�ȝ��业界常用的相��x��评��h��标和量化评�h�Ҏ��。供�Ҏ��感兴��的朋友参考�?/div>
Cranfield评�h体系
A Cranfield-like approach�q�个名称来源于英国Cranfield University�Q�因为在二十世纪五十�q�代该大学首先提��Z��q�样一套评��L��l�：由查询样例集、正��答案集、评��指标构成的完整评测�Ҏ��Q��ƈ从此��立�?#8220;评�h”在信息检索研�I�中的核心地位�?/p>
Cranfield评�h体系�׃��个环节组成：
抽取代表性的查询词，�l�成一个规模适当的集�?/li>
针对查询样例集合�Q�从��索系�l�的语料库中��L��对应的结果，�q�行标注�Q�通常人工�q�行�Q?/li>
��查询词和带有标注信息的语料库输入检索系�l�，对系�l�反馈的��索结果，使用预定义好的评仯��公式，用数值化的方法来评�h��索系�l�结果和标注的理想结果的接近�E�度
查询词集合的选取
Cranfield评�h�pȝ��在各大搜索引擎公司内有广泛的应用。具体应用时�Q�首先需要解决的问题是构造一个测试用查询词集合�?/p>
按照Andrei Broder�Q�曾在AltaVista/IBM/Yahoo任职�Q�的研究�Q�查询词可分�?�c�：��d��c�L��询（Navigational�Q�、信息类查询(Informational)、事务类查询(Transactional)。对应的比例分别�?/p>
Navigational �Q?12.3% Informational �Q?62.0% Transactional �Q?25.7%
��Z��使得评估�W�合�U�上实际情况�Q�通常查询词集合也会按比例�q�行选取。通常从线上用��L��Query Log文�g中自动抽取�?/p>
另外查询集合的构造时�Q�除了上�q�查询类型外�Q�还可以考虑Query的频�ơ，对热门query�Q�高频查询）、长��query�Q�中低频�Q�分别占特定的比例�?/p>
另外�Q�在抽取Query�Ӟ��往往Query的长短也是一个待考虑的因素。因为短query�Q�单term的查询）和长Query�Q�多Term的查询）排序��法往往会有一些不同�?/p>
构成查询集合后，使用�q�些查询词，在不同系�l�（例如�Ҏ��癑ֺ�和Google�Q�或不同技术间�Q�新旧两套Ranking��法的环境）�q�行搜烦�Q��ƈ对结果进行评分，以决定优劣�?/p>
附图�Q�对同一Query�Q?#8220;�C�会保险�?#8221;�Q�各大搜索引擎的�l�果�C�意图。下面具体谈谈评分的�Ҏ��?/p>
Precision-recall�Q�准��率-召回率方法）
计算�Ҏ��
信息��索领域最�q��ؓ人知的评��h��标�ؓPrecision-Recall�Q�准��率-召回率）�Ҏ��。该�Ҏ��从提��今已�l�历半个世纪�Q�至今在很多搜烦引擎公司的效果评��C��使用�?/p>
��֐�思义�Q�这个方法由准确率和召回率这两个�怺�兌��的统计量构成�Q�召回率�Q�Recall�Q�衡量一个查询搜索到所有相��x��档的能力�Q�而准��率�Q�Precision�Q�衡量搜索系�l�排除不相关文档的能力。（通俗的解释一下：准确率就是算一��你查询得到的结果中有多��是靠谱的；而召回率表示所有靠��q��l�果中，有多��被你给扑֛�来了�Q�。这两项是评��h��索效果的最基础指标�Q�其具体的计��方法如下�?/p>
Precision-recall�Ҏ��假定对一个给定的查询�Q�对应一个被��索的文档集合和一个不相关的文档集合。这里相��x��被假设��Z��元的�Q�用数学形式化方法来描述�Q�则是：
A表示相关文档集合
A表示不相关集�?/p>
B表示被检索到的文档集�?/p>
B表示未被��索到的文档集�?/p>
则单�ơ查询的准确率和召回率可以用下述公式来表达：
�Q�运��符∩ 表示两个集合的交集。|x|�W�号表示集合x中的元素数量�Q?/p>
从上面的定义不难看出�Q�召回率和准��率的取��D��围均在[0,1]之间。那么不难想象，如果�q�个�pȝ��扑֛�的相兌��多，那么召回率越高，如果相关�l�果全部都给召回了，那么recall此时��q��?.0�?/p>

相关�?/p>
不相�?/p>
被检索到
A∩ B
A∩ B
未被��索到
A∩B
A∩B
Precision-Recall曲线
召回率和准确率分别反映了��索系�l�的两个最重要的侧面，而这两个侧面又相互制�U�。因为大规模数据集合中，如果期望��索到更多相关的文档，必然需�?#8220;攑֮�”��索标准，因此会导致一些不相关�l�果淯��来，从而��准确率受到媄响。类似的�Q�期望提高准��率�Q�将不相��x��档尽量去除时�Q�务必要执行�?#8220;严格”的检索策略，�q�样也会使一些相关的文档被排除在外，使召回率下降�?/p>
所以�ؓ了更清晰的描�q�C��者间的关�p�，通常我们��Precison-Recall用曲�U�的方式�l�制出来�Q�可以简�U�CؓP-R diagram。常见的形式如下图所�C�。（通常曲线是一个逐步向下的走势，即随着Recall的提高，Precision逐步降低�Q?/p>
P-R的其它�Ş�?/h3>
一些特定搜索应用，会更��x��搜烦�l�果中错误的�l�果。例如，搜烦引擎的反作弊�pȝ��Q�Anti-Spam System�Q�会更关注检索结果中混入了多��条作弊�l�果。学术界把这些错误结果称作假��x��（False Positive�Q�结果，对这些应用，通常选择用虚报率�Q�Fallout�Q�来�l�计�Q?/p>
Fallout和Presion本质是完全相同的。只是分别从正反两方面来计算。实际上是P-R的一个变�U��?/p>
再回��C��图，Presion-Recall是一个曲�U�，用来比较两个�Ҏ��的效果往往不够直观�Q�能不能对两者进行综合，直接反映��C��个数��g��呢？为此IR学术界提��Z��F值度量（F -Measure�Q�的�Ҏ��。F-Measure通过Presion和Recall的调和��^均数来计��，公式为：
其中参数λε(0,1)调节�pȝ��对Precision和Recall的��^衡程度。（通常�?#955;=0.5�Q�此�?nbsp;�Q?/p>
�q�里使用调和�q�_��数而不是通常的几何��^均或��术�q�_��Q�原因是调和�q�_��数强调较��数值的重要性，能敏感的反映��数字的变化�Q�因此更适合用来反映��索效果�?/p>
使用F Measure的好处是只需要一个单一的数字就可以�ȝ��pȝ��的检索效果，便于比较不同搜烦�pȝ��的整体效果�?/p>
P@N�Ҏ��
点击因素
传统的Precision-Recall�q�不完全适用�Ҏ��索引擎的评估�Q�原因是搜烦引擎用户的点��L��式有其特�D�性，包括�Q?/p>
A 60-65%的查询点��M��名列搜烦�l�果�?0条的�|�页�Q? B 20-25%的�h会考虑点击名列11�?0的网��； C 仅有3-4%的会点击名列搜烦�l�果中列�W?1到第30名的�|�页
也就是说�Q�绝大部分用��h��不愿意翻��去看搜索引擎给出的后面的结果�?/p>
而即使在搜烦�l�果的首��（通常列出的是�?0条结果）�Q�用��L��点击行�ؓ也很有意思，我们通过下面的Google点击热图�Q�Heat Map�Q�来观察�Q�这个热囑֜�二维搜烦�l�果��上通过光谱来�Ş象的表达不同位置用户的点�ȝ��度。颜色约靠近�U�色表示点击强度��高�Q�：
从图中可以看出，搜烦�l�果的前3条吸引了大量的点击，属于热度最高的部分。也��是��_��Ҏ��苏引擎来��_��最前的几条�l�果是最关键的，军_��了用��L��满意�E�度�?/p>
康乃��大学的研究人员通过eye tracking实验获得了更为精��的Google搜烦�l�果的用戯��为分析图。从�q�张图中可以看出�Q�第一条结果获得了56.38%的搜索流量，�W�二条和�W�三条结果的排名依次降低�Q�但�q�低于排名第一的结果。前三条�l�果的点��L��例大�U��ؓ11:3:2 。而前三条�l�果的�ȝ��d��乎分��了搜烦��量�?0%�?/p>
另外的一些有��的�l�论是，点击量�ƈ不是按照��序依次递减的。排名第七位获得的点��L��最��的�Q�原因可能在于用户在��览�q�程中下拉页面到底部�Q�这时候就只显�C�最后三位排名网站，�W�七名便�Ҏ��被忽略。而首屏最后一个结果获得的注意力（2.55�Q�是大于倒数�W�二位的(1.45)�Q�原因是用户在翻��前�Q�对最后一条结果印象相对较深。搜索结果页面第二页排名�W�一的网��（��x��L��?1位的�l�果�Q�所获得的点��d��有首��|��名第十网站的40%�Q�与首页的第一条结果相比，更是只有�?/60�?/100的点击量�?/p>
因此在量化评估搜索引擎的效果�Ӟ��往往需要根据以上搜索用��L��行�ؓ特点�Q�进行针�Ҏ��的设计�?/p>
P@N的计��方�?/h3>
P@N本��n是Precision@N的简�U�ͼ�指的是对特定的查询，考虑位置因素�Q�检��前N条结果的准确率。例如对单次搜烦的结果中�?��，如果�?��ؓ相关文档�Q�则P@5 = 4/5 = 0.8 �?/p>
��试通常会��用一个查询集合（按照前文所�q�方法构造）�Q�包含若�q�条不同的查询词�Q�在实际使用P@N�q�行评估�Ӟ��通常使用所有查询的P@N数据�Q�计��算术��^均��|��用来评判该系�l�的整体搜烦�l�果质量�?/p>
N的选取
对用��h��_��通常只关注搜索结果最前若�q�条�l�果�Q�因此通常搜烦引擎的效果评估只��x��?、或者前3�l�果�Q�所以我们常用的N取��gؓP@3或P@5�{��?/p>
对一些特定类型的查询应用�Q�如��d��cȝ��查询�Q�Navigational Search�Q�，�׃��目标�l�果极�ؓ明确�Q�因此在评估�Ӟ��会选择N=1�Q�即使用P@1�Q�。�D个例子来��_��搜烦“新浪�|?#8221;、或“新浪首页”�Q�如果首条结果不�?新浪�|�（url�Q?a style="color: #0b59b2; ">www.sina.com.cn�Q�，则直接判该次查询�_�ֺ�不满��需求，即P@1=0
MRR
上述的P@N�Ҏ��Q�易于计��和理解。但�l�心的读者一定会发现问题�Q�就是在前N�l�果中，排序�W?位和�W�N位的�l�果�Q�对准确率的影响是一��L��。但实际情况是，搜烦引擎的评��h��和排序位�|�极为相关的。即排第一的结果错误，和第10位的�l�果错误�Q�其严重�E�度有天壤之别。因此在评�h�pȝ��中，需要引入位�|�这个因素�?/p>
MRR是��^均排序倒数�Q�Mean Reciprocal Rank�Q�的��U�ͼ�MRR�Ҏ��主要用于��d��c�L��索（Navigational Search�Q�或问答�c�L��索（Question Answering�Q�，�q�些��索方法只需要一个相��x��档，对召回率不敏感，而是更关注搜索引擎检索到的相��x��档是否排在结果列表的前面。MRR�Ҏ��首先计算每一个查询的�W�一个相��x��档位�|�的倒数�Q�然后将所有倒数值求�q�_��。例如一个包含三个查询词的测试集�Q�前5�l�果分别为：
查询一�l�果�Q?.AN 2.AR 3.AN 4.AN 5.AR 查询二结果：1.AN 2.AR 3.AR 4.AR 5.AN 查询三结果：1.AR 2.AN 3.AN 4.AN 5.AR
其中AN表示不相关结果，AR表示相关�l�果。那么第一个查询的排序倒数�Q�Reciprocal Rank�Q�RR₁ = 1/2=0.5 �Q�第二个�l�果RR₂ = 1/2 = 0.5 �Q?注意倒数的��g��变，即��查询二获得的相关�l�果更多。同理，RR₃= 1/1 = 1�?对于�q�个��试集合�Q�最�l�MRR=�Q�RR₁+RR₂+RR₃�Q? 3 = 0.67
然而对大部分检索应用来��_��只有一条结果无法满��需求，对这�U�情况，需要更合适的�Ҏ��来计��效果，其中最常用的是下述MAP�Ҏ��?/p>
MAP
MAP�Ҏ��是Mean Average Precison�Q�即�q�_��准确率法的简�U�。其定义是求每个相关文档��索出后的准确率的�q�_��|��即Average Precision�Q�的��术�q�_��|��Mean�Q�。这里对准确率求了两�ơ��^均，因此�U�CؓMean Average Precision。（注：没叫Average Average Precision一是因为难听，二是因�ؓ无法区分两次�q�_��的意义）
MAP 是反映系�l�在全部相关文档上性能的单值指标。系�l�检索出来的相关文档��靠�?rank ��高)�Q�MAP��应该越高。如果系�l�没有返回相��x��档，则准��率默认�?�?/p>
例如�Q�假设有两个主题�Q?/p>
主题1�?个相关网��，主题2�?个相关网��c�?/p>
某系�l�对于主�?��索出4个相关网��，其rank分别�?, 2, 4, 7�Q?/p>
对于主题2��索出3个相关网��，其rank分别�?,3,5�?/p>
对于主题1�Q��^均准��率MAP计算公式为：
(1/1+2/2+3/4+4/7)/4=0.83�?
对于主题2�Q��^均准��率MAP计算公式为：
(1/1+2/3+3/5+0+0)/5=0.45�?
则MAP= (0.83+0.45)/2=0.64�?#8221;
DCG�Ҏ��
DCG是英文Discounted cumulative gain的简�U�ͼ�中文可翻译�ؓ“折扣增益�?#8221;。DCG�Ҏ��的基本思想是：
每条�l�果的相��x��分�{��来衡�?/li>
考虑�l�果所在的位置�Q�位�|�越靠前的则重要�E�度��高
�{��高（卛_��l�果�Q�的�l�果位置��靠前则值应该越高，否则�l�予惩罚
我们首先来看�W�一条：相关性分�U�。这里比计算Precision时简单统�?#8220;准确”�?#8220;不准��?#8221;要更为精�l�。我们可以将�l�果�l�分为多个等�U�。比如常用的3�U�：Good�Q�好�Q�、Fair�Q�一般）、Bad�Q�差�Q�。对应的分值rel为：Good:3 / Fair:2 / Bad:1 。一些更为细致的评估使用5�U�分�c�L��Q�Very Good�Q�明昑֥��Q�、Good�Q�好�Q�、Fair�Q�一般）、Bad�Q�差�Q�、Very Bad�Q�明昑ַ��Q�，可以��对应分值rel讄��为：Very Good:2 / Good:1 / Fair:0 / Bad:-1 / Very Bad: -2
评判�l�果的标准可以根据具体的应用来确定，Very Good通常是指�l�果的主题完全相养I��q�且�|�页内容丰富、质量很高。而具体到每条
DCG的计��公式�ƈ不唯一�Q�理��Z��只要求对数折扣因子的�q�x��性。我个�h认�ؓ下面的DCG公式更合理，��了相��x��，�W?�?条结果的折扣�p�L��也更合理�Q?/p>
此时DCG�?个位�|�上�l�果的折扣因子（Discount factor�Q�数��gؓ�Q?/p>
i
log₂ (i+1)
1/log₂ (i+1)
1
1
1
2
1.59
0.63
3
2
0.5
4
2.32
0.43
取以2为底的log��g��来自于经验公式，�q�不存在理论上的依据。实际上�Q�Log的基数可以根据��^滑的需求进行修改，当加大数值时�Q�例如��用log₅ 代替log₂�Q�，折扣因子降低更�ؓ�q�速，此时��了前面结果的权重�?/p>
��Z��便于不同�c�d��的query�l�果之间横向比较�Q�以DCG为基��Q�一些评��L��l�还对DCG�q�行了归一�Q�这些方法统�U�CؓnDCG�Q�即 normalize DCG�Q�。最常用的计��方法是通过除以每一个查询的理想值iDCG�Q�ideal DCG�Q�来�q�行归一�Q�公式�ؓ�Q?/p>
求nDCG需要标定出理想情况的iDCG�Q�实际操作的时候是异常困难的，因�ؓ每个人对“最好的�l�果”理解往往各不相同�Q�从��量数据里选出最优结果是很困隄��d��Q�但是比较两�l�结果哪个更好通常更容易，所以实践应用中�Q�通常选择�l�果�Ҏ��的方法进行评估�?/p>
怎样实现自动化的评估�Q?/h2>
以上所介绍的搜索引擎量化评估指标，在Cranfield评估框架�Q�Cranfield Evaluation Framework�Q�中被广泛��用。业界知名的TREC�Q�文本信息检索会议）��׃��直基于此�c�L��法组�l�信息检索评��和技术交��。除了TREC外，一些针对不同应用设计的Cranfield评测论坛也在�q�行�q�行�Q�如 NTCIR、IREX�{�）�?/p>
但Cranfield评估框架存在的问题是查询样例集合的标注上。利用手工标注答案的方式�q�行�|�络信息��索的评�h是一个既耗费人力、又耗费旉��的过�E�，只有��数大公司能够��用。�ƈ且由于搜索引擎算法改�q�、运营维护的需要，��索效果评价反馈的旉��需要尽量羃短，因此自动化的评测�Ҏ��Ҏ��高评估效率十分重要。最常用的自动评估方法是A/B testing�pȝ��?/p>
A/B Testing
A/B Testing�pȝ��
A/B testing�pȝ��在用��h��索时�Q�由�pȝ��来自动决定用��L��分组��P��Bucket id�Q�，通过自动抽取��量导入不同分支�Q��得相应分�l�的用户看到的是不同产品版本�Q�或不同搜烦引擎�Q�提供的�l�果。用户在不同版本产品下的行�ؓ��被记录下来�Q�这些行为数据通过数据分析形成一�p�d��指标�Q�而通过�q�些指标的比较，最后就形成了各版本之间��C��孰劣的结论�?/p>
在指标计��时�Q�又可细分�ؓ两种�Ҏ��Q�一�U�是��Z��专家评分的方法；一�U�是��Z��点击�l�计的方法�?/p>
专家评分的方法通常由搜索核心技术研发和产品人员来进行，�Ҏ��预先讑֮�的标准对A、B两套环境的结果给予评分，获取每个Query的结果对比，�q�根据nDCG�{�方法计��整体质量�?/p>
点击评分有更高的自动化程度，�q�里使用了一个假设：同样的排序位�|�，点击数量多的�l�果质量优于点击数量��的�l�果。（即A2表示A��试环境�W?条结果，如果A2 > B2�Q�则表示A2质量更好�Q�。通俗的说�Q�相信群众（因�ؓ��众的眼睛是雪亮的）。在�q�个假设前提下，我们可以��A/B环境前N条结果的点击率自动映��ؓ评分�Q�通过�l�计大量的Query点击�l�果�Q�可以获得可靠的评分�Ҏ��?/p>
Interleaving Testing
另外2003�q�由Thorsten Joachims �{��h提出的Interleaving testing�Ҏ��也被�q�泛使用。该�Ҏ��设计了一个元搜烦引擎�Q�用戯��入查询词后，��查询词在几个著名搜索引擎中的查询结果随机�؜合反馈给用户�Q��ƈ攉��随后用户的结果点击行��Z��息．�Ҏ��用户不同的点��d��֐�性，��可以判断搜索引擎返回结果的优劣�Q?/p>
如下图所�C�，��算法A和B的结果交叉放�|�，�q�分��量�q�行��试�Q�记录用��L��M��息。根据点��d��布来判断A和B环境的优劣�?/p>
Interleaving Testing评估�Ҏ��
Joachims同时证明了Interleaving Testing评�h�Ҏ��与传�l�Cranfield评�h�Ҏ��的结果具有较高的相关性。由于记录用户选择��索结果的行�ؓ是一个不耗费人力的过�E�，因此可以便捷的实现自动化的搜索效果评估�?/p>
�ȝ��
没有评估��没有进�?#8212;—�Ҏ��索效果的量化评测�Q�目的是准确的找出现有搜索系�l�的不��Q�没有哪个搜索系�l�是完美的）�Q�进而一步一个脚印对��法、系�l�进行改�q�。本文�ؓ大家�ȝ��了常用的评�h框架和评��h��标。这些技术像一把把��子�Q�度量着搜烦技术每一�ơ前�q�的距离�?/p>
感谢张凯�?/a>�?本文的审校�?/p>
�l�InfoQ中文站投�E�或者参与内容翻译工作，请邮件至 editors@cn.infoq.com。也�Ƣ迎大家加入�?a target="_blank" style="color: #0b59b2; ">InfoQ中文站用戯��论组中与我们的编辑和其他读�?朋友交流�?/p>

胡满��?/a> 2012-12-19 11:03 发表评论

	相关�?/p>	不相�?/p>
被检索到	A∩ B	A∩ B
未被��索到	A∩B	A∩B

最新日韩在线,欧美激情中文字幕一区二区,欧美激情aⅴ一区二区三区

深入���出LSH

�q�就是搜索引擎－�W�试6-链接分析

�q�就是搜索引擎－�W�试5-���索模型与搜烦排序

�q�就是搜索引擎－�W�试4-索引压羃

�q�就是搜索引擎－�W�试3-搜烦引擎索引

�q�就是搜索引擎－�W�试2

�q�就是搜索引擎－�W�试1

转自�Q?a >http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality前言

Cranfield评�h体系

查询词集合的选取

Precision-recall�Q�准���率-召回率方法）

计算�Ҏ��

Precision-Recall曲线

P@N�Ҏ��

点击因素

N的选取

MRR

MAP

DCG�Ҏ��

A/B Testing

Interleaving Testing

�ȝ��

深入��出LSH

�q�就是搜索引擎－�W�试5-��索模型与搜烦排序

转自�Q?a >http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality

前言

Precision-recall�Q�准��率-召回率方法）