洋洋av久久久久久久一区,一区免费在线,亚洲精美视频

Sat, 09 Aug 2008 09:43:00 GMT

数学之美 �p�d��?-- 如何��定�|�页和查询的相关�?/a>

2006�q?�?7�?上午 09:53:00

发表者：吴军�Q�Google 研究�?

[我们已经谈过�?a target=_blank>如何自动下蝲�|�页�?a target=_blank>如何建立索引�?a target=_blank>如何衡量�|�页的质�?/font>(Page Rank)。我们今天谈谈如何确定一个网��和某个查询的相��x��。了解了�q�四个方面，一个有一定编�E�基��的读者应该可以写一个简单的搜烦引擎了，比如为您所在的学校或院�p�d��立一个小的搜索引擎。]

我们�q�是看上回的例子�Q�查扑օ��?#8220;原子能的应用”的网��c��我们第一步是在烦引中扑ֈ�包含�q�三个词的网��（详见关于布尔�q�算的系列）。现在�Q何一个搜索引擎都包含几十万甚��x��上百万个多少有点关系的网��c��那么哪个应该排在前面呢�Q�显然我们应该根据网��和查询“原子能的应用”的相��x��对�q�些�|�页�q�行排序。因此，�q�里的关键问题是如何度量�|�页和查询的相关性�?br>
我们知道�Q�短�?#8220;原子能的应用”可以分成三个关键词：原子能、的、应用。根据我们的直觉�Q�我们知道，包含�q�三个词多的�|�页应该比包含它们少的网��늛�兟뀂当�Ӟ��q�个办法有一个明昄��漏洞�Q�就是长的网��|��短的�|�页占便宜，因�ؓ长的�|�页�ȝ��来讲包含的关键词要多些。因此我们需要根据网��늚�长度�Q�对关键词的�ơ数�q�行归一化，也就是用关键词的�ơ数除以�|�页的��d��数。我们把�q�个商称�?#8220;关键词的频率”�Q�或�?#8220;单文本词汇频�?#8221;�Q�Term Frequency)�Q�比如，在某个一共有一千词的网��中“原子�?#8221;�?#8220;�?#8221;�?#8220;应用”分别出现�?2 �ơ�?5 ��?�?5 �ơ，那么它们的词频就分别�?0.002�?.035 �?0.005�?我们��这三个数相加，其和 0.042 ��是相应�|�页和查�?#8220;原子能的应用”
相关性的一个简单的度量。概括地�Ԍ��如果一个查询包含关键词 w1,w2,...,wN, 它们在一��特定网��中的词频分别是: TF1, TF2, ..., TFN�?�Q�TF: term frequency)�?那么�Q�这个查询和该网��늚�相关性就�?
TF1 + TF2 + ... + TFN�?br>
读者可能已�l�发��C��又一个漏�z�。在上面的例子中�Q�词“�?#8221;站了总词频的 80% 以上�Q�而它对确定网��늚�主题几乎没有用。我们称�q�种词叫“应删除词”�Q�Stopwords)�Q�也��是说在度量相关性是不应考虑它们的频率。在汉语中，应删除词�q�有“�?#8221;�?#8220;�?#8221;�?#8220;�?#8221;�?#8220;�?#8221;�?#8220;�?#8221;�{�等几十个。忽略这些应删除词后�Q�上�q�网��늚��怼�度就变成�?.007�Q�其�?#8220;原子�?#8221;贡献�?.002�Q?#8220;应用”贡献�?0.005�?br>
�l�心的读者可能还会发现另一个小的漏�z�。在汉语中，“应用”是个很通用的词�Q��?#8220;原子�?#8221;是个很专业的词，后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词�l�一个权重，�q�个权重的设定必��L��下面两个条�Ӟ��

1. 一个词预测主题能力��强�Q�权重就��大�Q�反之，权重��p��。我们在�|�页中看�?#8220;原子�?#8221;�q�个词，或多或少地能了解�|�页的主题。我们看�?#8220;应用”一�ơ，对主题基本上�q�是一无所知。因此，“原子�?#8220;的权重就应该比应用大�?br>
2. 应删除词的权重应该是零�?br>
我们很容易发玎ͼ�如果一个关键词只在很少的网��中出现�Q�我们通过它就�Ҏ��锁定搜烦目标�Q�它的权重也��应该大。反之如果一个词在大量网��中出现�Q�我们看到它仍然不很清楚要找什么内容，因此它应该小。概括地�Ԍ��假定一个关键词 �?�?�Q�ｗ个网��中出现�q�，那么 �Q�ｗ ��大�Q�ｗ的权重越��，反之亦然。在信息��索中�Q��用最多的权重�?#8220;逆文本频率指�?#8221; �Q�Inverse document frequency �~�写为ﾃ�Q��u�Q�，它的公式为ｌｏｇ�Q�Ｄ�Q�Ｄｗ）其中�Q�是全部�|�页数。比如，我们假定中文�|�页数是�Q�＝�Q�０亿，应删除词“�?#8221;在所有的�|�页中都出现�Q�即�Q�ｗ�Q�１�Q�亿�Q�那么它的ﾃ�Q��u�Q�log(10�?10亿）= log (1) = �Q�。假如专用词“原子�?#8221;在两百万个网��中出现�Q�即�Q�ｗ�Q�２�Q�０万，则它的权重ﾃ�Q��u�Q�log(500) =6.2。又假定通用�?#8220;应用”�Q�出现在五亿个网��中�Q�它的权重ﾃ�Q��u = log(2)
则只�?0.7。也��只��_��在网��中扑ֈ�一�?#8220;原子�?#8221;的比配相当于扑ֈ�九个“应用”的匹配。利�?IDF�Q�上�q�相��x��计��个公式��q��词频的简单求和变成了加权求和�Q�即 TF1*IDF1 +　TF2*IDF2 �Q?.. + TFN*IDFN。在上面的例子中�Q�该�|�页�?#8220;原子能的应用”的相��x��ؓ 0.0161�Q�其�?#8220;原子�?#8221;贡献�?0.0126�Q��?#8220;应用”只�A献了0.0035。这个比例和我们的直觉比较一致了�?br>
�Q�_�u�Q�ﾃ�Q��u�Q�term frequency/inverse document frequency) 的概念被公认��Z��息检索中最重要的发明。在搜烦、文献分�c�d��其他相关领域有广泛的应用。讲�?TF/IDF 的历史蛮有意思。IDF 的概忉|��早是剑桥大学的斯巴克�Q�琼斯[注：�Ҏ��两个姓］ (Karen Sparck Jones)提出来的。斯巴克�Q�琼�?�Q�９�Q�２ �q�在一��题为关键词�Ҏ��性的�l�计解释和她在文献检索中的应用的论文中提出ﾃ�Q��u。遗憄��是，�Ҏ��没有从理��Z��解释��Z��么权重ﾃ�Q��u 应该是对数函�?ｌｏｇ（�Q�／�Q�ｗ�Q�（而不是其它的函数�Q�比如��^�Ҏ��Q�，也没有在�q�个题目上作�q�一步深入研�IӞ��以至于在以后的很多文献中��Z��提到 �Q�_�u�Q�ﾃ�Q��u 时没有引用她的论文，�l�大多数人甚至不知道斯巴克－琼斯的�A献。同�q�罗��N��写了个两页�U�的解释�Q�解释得很不好。倒是后来康乃��大学的萨尔��（Salton)多次写文章、写书讨�?TF/IDF 在信息检索中的用途，加上萨尔��本人的大名�Q�信息检索的世界大奖��是以萨��顿的名字命名的�Q�。很多�h都引用萨��顿的书�Q�甚至以��个信息检索中最重要的概忉|��他提出的。当�Ӟ��世界�q�没有忘记斯巴克�Q�琼斯的贡献�Q?004�q�_��在纪忉|��献学学报创刊 60 周年之际�Q�该学报重印了斯巴克-琼斯的大作。罗��N��在同期期刊上写了篇文章�Q�用香农的信息论解释 IDF�Q�这回的解释是对的，但文章写的�ƈ不好、非常冗长（��十八��）�Q�把一个简单问题搞复杂了。其实，信息论的学者们已经发现�q�指出，其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵（Kullback-Leibler Divergence)�Q�详�?a target=_blank>上一�p�d��Q�。这��P��信息��索相��x��的度量�Q�又回到了信息论�?br>
现在的搜索引擎对 TF/IDF �q�行了不��细微的优化�Q��得相��x��的度量更加准确了。当�Ӟ��Ҏ��兴趣写一个搜索引擎的爱好者来�Ԍ��使用 TF/IDF ��p��够了�?如果我们�l�合上网��|��?Page Rank)�Q�那么给定一个查询，有关�|�页�l�合排名大致��q��x��和�|�页排名乘积军_��?

�?/a> 2008-08-09 17:43 发表评论

【�{】数学之��?�p�d�� 12 - 余��u定理和新�ȝ��分类

Sat, 09 Aug 2008 09:41:00 GMT

Google �Q�谷歌）中国的博客网志，走近我们的��品、技术和文化

数学之美 �p�d�� 12 - 余��u定理和新�ȝ��分类

2006�q?�?0�?上午 10:12:00

发表者：吴军�Q�Google 研究�?

余��u定理和新�ȝ��分类��g��是两件八杆子打不着的事�Q�但是它们确有紧密的联系。具体说�Q�新�ȝ��分类很大�E�度上依靠余弦定理�?br>
Google 的新��L��自动分类和整理的。所谓新�ȝ��分类无非是要把相似的新闻攑ֈ�一�c�M��。计��机其实��M��懂新闻，它只能快速计��。这��p��求我们设计一个算法来��出��L��两篇新闻的相似性。�ؓ了做到这一点，我们需要想办法用一�l�数字来描述一��新闅R�?br>
我们来看看怎样找一�l�数字，或者说一个向量来描述一��新闅R��回忆一下我们在“如何度量�|�页相关�?/font>”一文中介绍的TF/IDF 的概��c��对于一��新��M��的所有实词，我们可以计算出它们的单文本词汇频�?逆文本频率��|��TF/IDF)。不难想象，和新��M��题有关的那些实词频率高，TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如，词汇表有六万四千个词�Q�分别�ؓ

单词�~�号汉字�?br>------------------
1 �?br>2 �?br>3 阿斗
4 阿姨
...
789 服装
....
64000 做作

在一��新��M��Q�这 64,000 个词�?TF/IDF 值分别�ؓ

单词�~�号 TF/IDF �?br>==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075

如果单词表中的某个次在新��M��没有出现�Q�对应的��gؓ�Ӟ��那么�q?64,000 个数�Q�组成一�?4,000�l�的向量。我们就用这个向量来代表�q�篇新闻�Q��ƈ成�ؓ新闻的特征向量。如果两��新�ȝ��特征向量相近�Q�则对应的新��d��容相��|��它们应当归在一�c�，反之亦然�?br>
学过向量代数的�h都知道，向量实际上是多维�I�间中有方向的线�D�c��如果两个向量的方向一��_��卛_��角接�q�零�Q�那么这两个向量��q��q�。而要��定两个向量方向是否一��_��q�就要用��C��弦定理计��向量的夹角了�?br>
余��u定理�Ҏ��们每个�h都不陌生�Q�它描述了三角�Ş中�Q何一个夹角和三个边的关系�Q�换句话��_��l�定三角形的三条边，我们可以用余弦定理求��Z��角�Ş各个角的角度。假定三角�Ş的三条边�?a, b �?c�Q�对应的三个角�ؓ A, B �?C�Q�那么角 A 的余�?--

如果我们��三角�Ş的两�?b �?c 看成是两个向量，那么上述公式�{��h�?br>

其中分母表示两个向量 b �?c 的长度，分子表示两个向量的内�U�。�D一个具体的例子�Q�假如新�?X 和新�?Y 对应向量分别�?br>x1,x2,...,x64000 �?br>y1,y2,...,y64000,
那么它们夹角的余弦等于，

当两条新��d��量夹角的余��u�{�于一�Ӟ��q�两条新��d��全重复（用这个办法可以删除重复的�|�页�Q�；当夹角的余��u接近于一�Ӟ��两条新闻�怼��Q�从而可以归成一�c�；夹角的余弦越��，两条新闻��不相关�?br>

我们在中学学习余弦定理时�Q�恐怕很难想象它可以用来�Ҏ��闻进行分�c�R��在�q�里�Q�我们再一�ơ看到数学工��L��用途�?/div>

�?/a> 2008-08-09 17:41 发表评论

【�{】如何确定中文字�W�串的相似度

Sat, 09 Aug 2008 09:40:00 GMT

如何��定中文字符串的�怼��?/span>

作者：肖�L

个�h博客�Q?/span>http://blog.csdn.net/eaglet

Email�Q?a href="mailto:blog.eaglet@gmail.com">blog.eaglet@gmail.com

2007/4 南京

摘要

在数据挖掘的研究中，我们往往需要判断文章是否雷�?/span>,对类似文章或短句�q�行归类处理�{�，�q�其中就会遇到这��L��问题�Q�如何确定两个字�W�串之间的相似程度�?/span>

本文�l�合作者的实际工作�l�验和数据挖掘理论，�l�合中文字符串特性介�l�一套相对完整的�Ҏ��Q�以解决上述问题.�?/span>

分析

最��单的问题求解

字符串由一�l�不同含义的单词�l�成�Q�它不同于数值型变量�Q�可以用一个特定的数值来��定它的大小或位�|�，所以用何种方式来描�q�C��个字�W�串之间的距��，成�ؓ了一个值得探讨的问题�?/span>

通常情况下，用于分析的数据类型有如下几种�Q�区间标度遍历、二元变量、标�U�型变量、序数型变量、比例标度型变量、�؜合类型变量等�?/span>

�l�合�q�些变量�c�d��Q�本文认为字�W�串变量更适合于归�c�M��二元变量�Q�我们可以利用分词技术将字符串分成若�q�个单词�Q�每个独立的单词作�ؓ二元变量的一个属性。我们把所有单词设定�ؓ一个二元变量属性集�?/span>R�Q�字�W�串1和字�W�串2的单词包含于�q�个集合R。设q是字�W�串1和字�W�串2中都存在的单词的��L��Q?/span>s是字�W�串1中存在，字符�?/span>2中不存在的单词��L��Q?/span>r是字�W�串2中存在，字符�?/span>1中不存在的单词��L��Q?/span>t是字�W�串1和字�W�串2中都不存在的单词��L��。我们称 q,r,s,t为字�W�串比较中的4个状态分量�?/span> 如图1所�C�：

�׃��两个字符串都不存在的单词对两个字�W�串的比较没有�Q何作用，所以忽�?/span>t�Q�于是我们采用非恒定的相似度评�h�p�L��(Jaccard�p�L��)来描�q�C��个字�W�串见的相异度表�C�公式�ؓ

相异�?/span> = r+s / (q+r+s)�Q�不难推断，他们的�Ş似度公式�?/span>

�怼��?/span>=q/(q+r+s) 公式1

�?/span>1 字符串关�p�L��q?/span>

例如如下两个字符串串�Q?/font>

字符�?/span>1�Q�非对称变量

字符�?/span>2�Q�非对称�I�间

他们的二元属性关�p�表为：

字符�?/span>/属�?/span>	�?/font>	对称	变量	�I�间
非对�U�变�?/font>	Y	Y	Y	N
非对�U�空�?/font>	Y	Y	N	Y

Y 表示存在该单词属性，N表示不存在该单词属�?/span>

那么对应�?/font>

s = 1; q = 2; r = 1

两个字符串的�怼�度�ؓ 2/(1+2+1) = 50%

单词重复问题求解

前面讨论的问题是最��单的字符串比较问题，�q�个问题中单个字�W�串不存在重复的单词�Q�然而如果字�W�串中出现重复单词，采用上一节的公式套用后得到的�l�果往往不够理想�Q�比�?/font>

字符�?/span>1�Q�前�q�前�q?/span>

字符�?/span>2�Q�前�q?/span>

公式1�怼��?/span>=q/(q+r+s) 来计��，

q = 1 , r=s=0 �Q�得到的�怼�度�ؓ100%�Q�而实际上�q�两个字�W�串�q�不完全相同。�ؓ解决�q�个问题�Q�我们必��d��在不同位�|�出现的相同单词假设��Z��同单词，以其在字�W�串中出现的�ơ序作�ؓ区分�Q�这样其二元属性关�p�表如下�Q?/span>

字符�?/span>/属�?/span>	前进1	前进2
前进前进	Y	Y
前进	Y	N

相应�?/span> q = 1, s=1, r= 0

其相似度�?/span> 1/(1+1+0) = 50%

状态分量权�?/span>

在实际应用中�Q?/span>q,r,s三种状态分量�ƈ不一定是同等价值的�Q�它们往往�Ҏ��实际应用的需要存在不同的权重�Q�比如对于某些应用来��_��两个字符串中相同单词数量比不同单词数量更能说明字�W�串的相似程度，那么我们必须��?/span>q的权重提高，重新计算�怼��E�度�?/span>

我们讑֯��?/span>q,r,s三个变量的权重分别是Kq, Kr, Ks �Q�则公式1 演进�?/span>

�怼��?/span>=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式2

回到上面问题�Q�对于上一节的两个字符�Ԍ��如果我们讄��Kq = 2 ,Kr=Ks=1�Q�则更加公式2

它们的相似度�?/span> 2*1/ (2*1+1*1+1*0) = 66.7%

同义词问�?/span>

在语�a�中，同义词是�l�常遇到的问题，如果两个字符串中存在同义词，其相似度又如何计��呢�?/font>

对于同义词问题，我们要从分词�q�程中来解决。首先我们需要构��Z��个同义词对照表，��同义词对应��C��个等价单词，在对字符串分词后对字�W�串中的所有单词到同义词表中查找，如果存在�Q�则替换为对应的�{��h单词�Q�这样分词后�Q�两个字�W�串中的同义词就指向了相同的单词�?/font>

比如存在同义词表如下�Q?/font>

单词	�{��h�?/font>
也许	也许
或许	也许
可能	也许

字符�?/span>1�Q�他也许不来�?/span>

字符�?/span>2�Q�他可能不来�?/span>

分词后二元属性关�p�表如下�Q?/font>

字符�?/span>/属�?/span>	�?/font>	也许	不来	�?/font>
他也�怸�来了	Y	Y	Y	Y
他可能不来了	Y	Y	Y	Y

不难看出�Q�两个字�W�串的相似度�?/span> 100%

同音不同�?/span>

在中文网�l�环境中�Q�由于大多数�|�络文章的作者都是采用拼韌��入法输入汉字�Q�经�怼�出现输入同音不同义的文字错误�Q��ؓ了纠正这�U�错误，我们可以考虑采用汉语拼音的方式进行分词，也可以综合分词，也就是先正常分词�Q�在拼音分词�Q�字�W�串的分词结果去两者的�q��?/font>

��节

��定字符串相似度的方法很多，本文�Ҏ��作者多�q�从事数据挖掘工作的�l�验�l�合数据挖掘理论提出的相兌��x��案，可以较好的解决中文字�W�串分析中的�怼�度比较问题。但技术的发展是不断前�q�的�Q�相信未来还会有更好的方法来解决中文字符串相似度比较问题。读者如果有更好的想法或者发现本文算法中的不��I��非常�Ƣ迎和本文作者联�p�R�?/font>

参考文�?/font>

《数据挖掘概念与技术�?/span> 机械工业出版�C?/span> Jiawei Han, Micheline Kamber

�?/a> 2008-08-09 17:40 发表评论