??xml version="1.0" encoding="utf-8" standalone="yes"?>欧美精品久久久久久久自慰,国产精品久久久久AV福利动漫,综合久久给合久久狠狠狠97色http://www.shnenglu.com/qywyh/category/7803.html?>blogzh-cnSat, 09 Aug 2008 10:05:27 GMTSat, 09 Aug 2008 10:05:27 GMT60【{】数学之?pd?-- 如何定|页和查询的相关?/title><link>http://www.shnenglu.com/qywyh/articles/58388.html</link><dc:creator>?/dc:creator><author>?/author><pubDate>Sat, 09 Aug 2008 09:43:00 GMT</pubDate><guid>http://www.shnenglu.com/qywyh/articles/58388.html</guid><wfw:comment>http://www.shnenglu.com/qywyh/comments/58388.html</wfw:comment><comments>http://www.shnenglu.com/qywyh/articles/58388.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/qywyh/comments/commentRss/58388.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/qywyh/services/trackbacks/58388.html</trackback:ping><description><![CDATA[<h3><a name=115137628966847870>数学之美 pd?-- 如何定|页和查询的相关?/a></h3> <p class=byline-timestamp><span id=time115137628966847870 twffan="done">2006q??7?上午 09:53:00</span></p> <script language=javascript> uT("time115137628966847870"); </script> <div style="CLEAR: both" twffan="done"></div> <font color=#666666><span id="l9jnbvl" class=byline-author twffan="done">发表者:吴军QGoogle 研究?</span><br><br></font>[我们已经谈过?a target=_blank><u><font color=#0000ff>如何自动下蝲|页</font></u></a>?a target=_blank><u><font color=#0000ff>如何建立索引</font></u></a>?a target=_blank><u><font color=#0000ff>如何衡量|页的质?/font></u></a>(Page Rank)。我们今天谈谈如何确定一个网和某个查询的相x。了解了q四个方面,一个有一定编E基的读者应该可以写一个简单的搜烦引擎了,比如为您所在的学校或院pd立一个小的搜索引擎。]<br><br>我们q是看上回的例子Q查扑օ?#8220;原子能的应用”的网c我们第一步是在烦引中扑ֈ包含q三个词的网(详见关于<a target=_blank><u><font color=#0000ff>布尔q算</font></u></a>的系列)。现在Q何一个搜索引擎都包含几十万甚x上百万个多少有点关系的网c那么哪个应该排在前面呢Q显然我们应该根据网和查询“原子能的应用”的相x对q些|页q行排序。因此,q里的关键问题是如何度量|页和查询的相关性?br><br>我们知道Q短?#8220;原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉Q我们知道,包含q三个词多的|页应该比包含它们少的网늛兟뀂当Ӟq个办法有一个明昄漏洞Q就是长的网|短的|页占便宜,因ؓ长的|页ȝ来讲包含的关键词要多些。因此我们需要根据网늚长度Q对关键词的ơ数q行归一化,也就是用关键词的ơ数除以|页的d数。我们把q个商称?#8220;关键词的频率”Q或?#8220;单文本词汇频?#8221;QTerm Frequency)Q比如,在某个一共有一千词的网中“原子?#8221;?#8220;?#8221;?#8220;应用”分别出现?2 ơ?5 ??5 ơ,那么它们的词频就分别?0.002?.035 ?0.005?我们这三个数相加,其和 0.042 是相应|页和查?#8220;原子能的应用”<br>相关性的一个简单的度量。概括地Ԍ如果一个查询包含关键词 w1,w2,...,wN, 它们在一特定网中的词频分别是: TF1, TF2, ..., TFN?QTF: term frequency)?那么Q这个查询和该网늚相关性就?<br>TF1 + TF2 + ... + TFN?br><br>读者可能已l发C又一个漏z。在上面的例子中Q词“?#8221;站了总词频的 80% 以上Q而它对确定网늚主题几乎没有用。我们称q种词叫“应删除词”QStopwords)Q也是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词q有“?#8221;?#8220;?#8221;?#8220;?#8221;?#8220;?#8221;?#8220;?#8221;{等几十个。忽略这些应删除词后Q上q网늚怼度就变成?.007Q其?#8220;原子?#8221;贡献?.002Q?#8220;应用”贡献?0.005?br><br>l心的读者可能还会发现另一个小的漏z。在汉语中,“应用”是个很通用的词Q?#8220;原子?#8221;是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词l一个权重,q个权重的设定必L下面两个条Ӟ<br><br>1. 一个词预测主题能力强Q权重就大Q反之,权重p。我们在|页中看?#8220;原子?#8221;q个词,或多或少地能了解|页的主题。我们看?#8220;应用”一ơ,对主题基本上q是一无所知。因此,“原子?#8220;的权重就应该比应用大?br><br>2. 应删除词的权重应该是零?br><br>我们很容易发玎ͼ如果一个关键词只在很少的网中出现Q我们通过它就Ҏ锁定搜烦目标Q它的权重也应该大。反之如果一个词在大量网中出现Q我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地Ԍ假定一个关键词 ??Qw 个网中出现q,那么 Qw 大Qw 的权重越,反之亦然。在信息索中Q用最多的权重?#8220;逆文本频率指?#8221; QInverse document frequency ~写为テQuQ,它的公式为logQDQDw)其中Q是全部|页数。比如,我们假定中文|页数是Q=Q0亿,应删除词“?#8221;在所有的|页中都出现Q即QwQ1Q亿Q那么它的テQuQlog(10?10亿)= log (1) = Q。假如专用词“原子?#8221;在两百万个网中出现Q即QwQ2Q0万,则它的权重テQuQlog(500) =6.2。又假定通用?#8220;应用”Q出现在五亿个网中Q它的权重テQu = log(2)<br>则只?0.7。也只_在网中扑ֈ一?#8220;原子?#8221;的比配相当于扑ֈ九个“应用”的匹配。利?IDFQ上q相x计个公式q词频的简单求和变成了加权求和Q即 TF1*IDF1 + TF2*IDF2 Q?.. + TFN*IDFN。在上面的例子中Q该|页?#8220;原子能的应用”的相xؓ 0.0161Q其?#8220;原子?#8221;贡献?0.0126Q?#8220;应用”只A献了0.0035。这个比例和我们的直觉比较一致了?br><br>Q_uQテQuQterm frequency/inverse document frequency) 的概念被公认Z息检索中最重要的发明。在搜烦、文献分cd其他相关领域有广泛的应用。讲?TF/IDF 的历史蛮有意思。IDF 的概忉|早是剑桥大学的斯巴克Q琼斯[注:Ҏ两个姓] (Karen Sparck Jones)提出来的。斯巴克Q琼?Q9Q2 q在一题为关键词Ҏ性的l计解释和她在文献检索中的应用的论文中提出テQu。遗憄是,Ҏ没有从理Z解释Z么权重テQu 应该是对数函?log(Q/QwQ(而不是其它的函数Q比如^ҎQ,也没有在q个题目上作q一步深入研IӞ以至于在以后的很多文献中Z提到 Q_uQテQu 时没有引用她的论文,l大多数人甚至不知道斯巴克-琼斯的A献。同q罗N写了个两页U的解释Q解释得很不好。倒是后来康乃大学的萨尔(Salton)多次写文章、写书讨?TF/IDF 在信息检索中的用途,加上萨尔本人的大名Q信息检索的世界大奖是以萨顿的名字命名的Q。很多h都引用萨顿的书Q甚至以个信息检索中最重要的概忉|他提出的。当Ӟ世界q没有忘记斯巴克Q琼斯的贡献Q?004q_在纪忉|献学学报创刊 60 周年之际Q该学报重印了斯巴克-琼斯的大作。罗N在同期期刊上写了篇文章Q用香农的信息论解释 IDFQ这回的解释是对的,但文章写的ƈ不好、非常冗长(十八)Q把一个简单问题搞复杂了。其实,信息论的学者们已经发现q指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)Q详?a target=_blank><u><font color=#0000ff>上一pd</font></u></a>Q。这P信息索相x的度量Q又回到了信息论?br><br>现在的搜索引擎对 TF/IDF q行了不细微的优化Q得相x的度量更加准确了。当ӞҎ兴趣写一个搜索引擎的爱好者来Ԍ使用 TF/IDF p够了?如果我们l合上网|?Page Rank)Q那么给定一个查询,有关|页l合排名大致qx和|页排名乘积军_? <img src ="http://www.shnenglu.com/qywyh/aggbug/58388.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/qywyh/" target="_blank">?/a> 2008-08-09 17:43 <a href="http://www.shnenglu.com/qywyh/articles/58388.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>【{】数学之?pd 12 - 余u定理和新ȝ分类http://www.shnenglu.com/qywyh/articles/58387.html?/dc:creator>?/author>Sat, 09 Aug 2008 09:41:00 GMThttp://www.shnenglu.com/qywyh/articles/58387.htmlhttp://www.shnenglu.com/qywyh/comments/58387.htmlhttp://www.shnenglu.com/qywyh/articles/58387.html#Feedback0http://www.shnenglu.com/qywyh/comments/commentRss/58387.htmlhttp://www.shnenglu.com/qywyh/services/trackbacks/58387.html

Google Q谷歌)中国的博客网志,走近我们的品、技术和文化

数学之美 pd 12 - 余u定理和新ȝ分类



余u定理和新ȝ分类g是两件八杆子打不着的事Q但是它们确有紧密的联系。具体说Q新ȝ分类很大E度上依靠余弦定理?br>
Google 的新L自动分类和整理的。所谓新ȝ分类无非是要把相似的新闻攑ֈ一cM。计机其实M懂新闻,它只能快速计。这p求我们设计一个算法来出L两篇新闻的相似性。ؓ了做到这一点,我们需要想办法用一l数字来描述一新闅R?br>
我们来看看怎样找一l数字,或者说一个向量来描述一新闅R回忆一下我们在“如何度量|页相关?/font>”一文中介绍的TF/IDF 的概c对于一新M的所有实词,我们可以计算出它们的单文本词汇频?逆文本频率|TF/IDF)。不难想象,和新M题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词Q分别ؓ

单词~号 汉字?br>------------------
1 ?br>2 ?br>3 阿斗
4 阿姨
...
789 服装
....
64000 做作

在一新MQ这 64,000 个词?TF/IDF 值分别ؓ

单词~号 TF/IDF ?br>==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075


如果单词表中的某个次在新M没有出现Q对应的gؓӞ那么q?64,000 个数Q组成一?4,000l的向量。我们就用这个向量来代表q篇新闻Qƈ成ؓ新闻的特征向量。如果两新ȝ特征向量相近Q则对应的新d容相|它们应当归在一c,反之亦然?br>
学过向量代数的h都知道,向量实际上是多维I间中有方向的线Dc如果两个向量的方向一_卛_角接q零Q那么这两个向量qq。而要定两个向量方向是否一_q就要用C弦定理计向量的夹角了?br>
余u定理Ҏ们每个h都不陌生Q它描述了三角Ş中Q何一个夹角和三个边的关系Q换句话_l定三角形的三条边,我们可以用余弦定理求Z角Ş各个角的角度。假定三角Ş的三条边?a, b ?cQ对应的三个角ؓ A, B ?CQ那么角 A 的余?--



如果我们三角Ş的两?b ?c 看成是两个向量,那么上述公式{h?br>


其中分母表示两个向量 b ?c 的长度,分子表示两个向量的内U。D一个具体的例子Q假如新?X 和新?Y 对应向量分别?br>x1,x2,...,x64000 ?br>y1,y2,...,y64000,
那么它们夹角的余弦等于,



当两条新d量夹角的余u{于一Ӟq两条新d全重复(用这个办法可以删除重复的|页Q;当夹角的余u接近于一Ӟ两条新闻怼Q从而可以归成一c;夹角的余弦越,两条新闻不相关?br>


我们在中学学习余弦定理时Q恐怕很难想象它可以用来Ҏ闻进行分cR在q里Q我们再一ơ看到数学工L用途?/div>

]]>【{】如何确定中文字W串的相似度http://www.shnenglu.com/qywyh/articles/58386.html?/dc:creator>?/author>Sat, 09 Aug 2008 09:40:00 GMThttp://www.shnenglu.com/qywyh/articles/58386.htmlhttp://www.shnenglu.com/qywyh/comments/58386.htmlhttp://www.shnenglu.com/qywyh/articles/58386.html#Feedback0http://www.shnenglu.com/qywyh/comments/commentRss/58386.htmlhttp://www.shnenglu.com/qywyh/services/trackbacks/58386.html如何定中文字符串的怼?/span>

 

作者:肖L

个h博客Q?/span>http://blog.csdn.net/eaglet

EmailQ?a href="mailto:blog.eaglet@gmail.com">blog.eaglet@gmail.com

2007/4 南京

 

摘要

在数据挖掘的研究中,我们往往需要判断文章是否雷?/span>,对类似文章或短句q行归类处理{,q其中就会遇到这L问题Q如何确定两个字W串之间的相似程度?/span>

本文l合作者的实际工作l验和数据挖掘理论,l合中文字符串特性介l一套相对完整的ҎQ以解决上述问题.?/span>

 

分析

     最单的问题求解

       字符串由一l不同含义的单词l成Q它不同于数值型变量Q可以用一个特定的数值来定它的大小或位|,所以用何种方式来描qC个字W串之间的距,成ؓ了一个值得探讨的问题?/span>

       通常情况下,用于分析的数据类型有如下几种Q区间标度遍历、二元变量、标U型变量、序数型变量、比例标度型变量、؜合类型变量等?/span>

       l合q些变量cdQ本文认为字W串变量更适合于归cM二元变量Q我们可以利用分词技术将字符串分成若q个单词Q每个独立的单词作ؓ二元变量的一个属性。我们把所有单词设定ؓ一个二元变量属性集?/span>RQ字W串1和字W串2的单词包含于q个集合R。设q是字W串1和字W串2中都存在的单词的LQ?/span>s是字W串1中存在,字符?/span>2中不存在的单词LQ?/span>r是字W串2中存在,字符?/span>1中不存在的单词LQ?/span>t是字W串1和字W串2中都不存在的单词L。我们称 q,r,s,t为字W串比较中的4个状态分量?/span> 如图1所C:

׃两个字符串都不存在的单词对两个字W串的比较没有Q何作用,所以忽?/span>tQ于是我们采用非恒定的相似度评hpL(JaccardpL)来描qC个字W串见的相异度表C公式ؓ

相异?/span> = r+s / (q+r+s)Q不难推断,他们的Ş似度公式?/span>

怼?/span>=q/(q+r+s) 公式1

 

 

 

?/span>1 字符串关pLq?/span>

 

 

例如如下两个字符串串Q?/font>

字符?/span>1Q非对称变量

字符?/span>2Q非对称I间

他们的二元属性关p表为:

字符?/span>/属?/span>

?/font>

对称

变量

I间

非对U变?/font>

Y

Y

Y

N

非对U空?/font>

Y

Y

N

Y

 

Y 表示存在该单词属性,N表示不存在该单词属?/span>

那么对应?/font>

s = 1; q = 2; r = 1

两个字符串的怼度ؓ 2/(1+2+1) = 50%

 

单词重复问题求解

前面讨论的问题是最单的字符串比较问题,q个问题中单个字W串不存在重复的单词Q然而如果字W串中出现重复单词,采用上一节的公式套用后得到的l果往往不够理想Q比?/font>

字符?/span>1Q前q前q?/span>

字符?/span>2Q前q?/span>

公式1怼?/span>=q/(q+r+s) 来计,

q = 1 , r=s=0 Q得到的怼度ؓ100%Q而实际上q两个字W串q不完全相同。ؓ解决q个问题Q我们必d在不同位|出现的相同单词假设Z同单词,以其在字W串中出现的ơ序作ؓ区分Q这样其二元属性关p表如下Q?/span>

字符?/span>/属?/span>

前进1

前进2

前进前进

Y

Y

前进

Y

N

相应?/span> q = 1, s=1, r= 0

其相似度?/span> 1/(1+1+0) = 50%

 

状态分量权?/span> 

在实际应用中Q?/span>q,r,s三种状态分量ƈ不一定是同等价值的Q它们往往Ҏ实际应用的需要存在不同的权重Q比如对于某些应用来_两个字符串中相同单词数量比不同单词数量更能说明字W串的相似程度,那么我们必须?/span>q的权重提高,重新计算怼E度?/span>

我们讑֯?/span>q,r,s三个变量的权重分别是Kq, Kr, Ks Q则公式1 演进?/span>

怼?/span>=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式2

回到上面问题Q对于上一节的两个字符Ԍ如果我们讄Kq = 2 ,Kr=Ks=1Q则更加公式2

它们的相似度?/span> 2*1/ (2*1+1*1+1*0) = 66.7%

 

同义词问?/span>

在语a中,同义词是l常遇到的问题,如果两个字符串中存在同义词,其相似度又如何计呢?/font>

对于同义词问题,我们要从分词q程中来解决。首先我们需要构Z个同义词对照表,同义词对应C个等价单词,在对字符串分词后对字W串中的所有单词到同义词表中查找,如果存在Q则替换为对应的{h单词Q这样分词后Q两个字W串中的同义词就指向了相同的单词?/font>

比如存在同义词表如下Q?/font>

 

单词

{h?/font>

也许

也许

或许

也许

可能

也许

 

 

字符?/span>1Q他也许不来?/span>

字符?/span>2Q他可能不来?/span>

 

分词后二元属性关p表如下Q?/font>

字符?/span>/属?/span>

?/font>

也许

不来

?/font>

他也怸来了

Y

Y

Y

Y

他可能不来了

Y

Y

Y

Y

 

不难看出Q两个字W串的相似度?/span> 100%

同音不同?/span>

在中文网l环境中Q由于大多数|络文章的作者都是采用拼韌入法输入汉字Q经怼出现输入同音不同义的文字错误Qؓ了纠正这U错误,我们可以考虑采用汉语拼音的方式进行分词,也可以综合分词,也就是先正常分词Q在拼音分词Q字W串的分词结果去两者的q?/font>

 

定字符串相似度的方法很多,本文Ҏ作者多q从事数据挖掘工作的l验l合数据挖掘理论提出的相兌x案,可以较好的解决中文字W串分析中的怼度比较问题。但技术的发展是不断前q的Q相信未来还会有更好的方法来解决中文字符串相似度比较问题。读者如果有更好的想法或者发现本文算法中的不I非常Ƣ迎和本文作者联pR?/font>

 

参考文?/font>

《数据挖掘概念与技术?/span> 机械工业出版C?/span> Jiawei Han, Micheline Kamber



]]>
avttþþƷ| Ʒþþþaaaa| ֻоƷþ| ɫ8ŷ˾þۺϵ| þùƷӰԺ| ŷһþþƷ| 97þó˾Ʒվ| þþþseɫ͵͵޾Ʒav| Ʒþþþ| ƷŮþøվ| պƷþþþþ| avþþƷ| þþۺ| þþþþþþþѾƷ| MM131޹Ůþ| ˳ŷþ| ŷƷһþ| 91Ʒۿ91þþþþ| Ʒһþ| ľþþƷ| þþþþþþ| þþƷƷ| 2021˾Ʒþ| ɫ꼤þۺ| þùƷþþ| Ʒþþþþþ| ƷþùƷ99| ˾þþƷ| þùƷHDAV| 99þѹۺϾƷ| þþþþ| ۲˾þþƷٸAV| ޹ƷþõӰŷ| þþƷƷ޾Ʒ | ۺϾþþþ| ¶ۺϼ¾þ| ŷۺϾþþ| պAVþһ | ĻѾþ| Ůþþùһ| þ޾ƷĻ|