??xml version="1.0" encoding="utf-8" standalone="yes"?>欧美精品久久久久久久自慰,国产精品久久久久AV福利动漫,综合久久给合久久狠狠狠97色 http://www.shnenglu.com/qywyh/category/7803.html?>blog zh-cn Sat, 09 Aug 2008 10:05:27 GMT Sat, 09 Aug 2008 10:05:27 GMT 60 【{】数学之?pd?-- 如何定|页和查询的相关?/title> http://www.shnenglu.com/qywyh/articles/58388.html?/dc:creator>?/author>Sat, 09 Aug 2008 09:43:00 GMT http://www.shnenglu.com/qywyh/articles/58388.html http://www.shnenglu.com/qywyh/comments/58388.html http://www.shnenglu.com/qywyh/articles/58388.html#Feedback 0 http://www.shnenglu.com/qywyh/comments/commentRss/58388.html http://www.shnenglu.com/qywyh/services/trackbacks/58388.html 数学之美 pd?-- 如何定|页和查询的相关?/a>
2006q??7?上午 09:53:00
发表者:吴军QGoogle 研究? [我们已经谈过?a target=_blank>如何自动下蝲|页 ?a target=_blank>如何建立索引 ?a target=_blank>如何衡量|页的质?/font> (Page Rank)。我们今天谈谈如何确定一个网和某个查询的相x。了解了q四个方面,一个有一定编E基的读者应该可以写一个简单的搜烦引擎了,比如为您所在的学校或院pd立一个小的搜索引擎。] 我们q是看上回的例子Q查扑օ?#8220;原子能的应用”的网c我们第一步是在烦引中扑ֈ包含q三个词的网(详见关于布尔q算 的系列)。现在Q何一个搜索引擎都包含几十万甚x上百万个多少有点关系的网c那么哪个应该排在前面呢Q显然我们应该根据网和查询“原子能的应用”的相x对q些|页q行排序。因此,q里的关键问题是如何度量|页和查询的相关性?br> 我们知道Q短?#8220;原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉Q我们知道,包含q三个词多的|页应该比包含它们少的网늛兟뀂当Ӟq个办法有一个明昄漏洞Q就是长的网|短的|页占便宜,因ؓ长的|页ȝ来讲包含的关键词要多些。因此我们需要根据网늚长度Q对关键词的ơ数q行归一化,也就是用关键词的ơ数除以|页的d数。我们把q个商称?#8220;关键词的频率”Q或?#8220;单文本词汇频?#8221;QTerm Frequency)Q比如,在某个一共有一千词的网中“原子?#8221;?#8220;?#8221;?#8220;应用”分别出现?2 ơ?5 ??5 ơ,那么它们的词频就分别?0.002?.035 ?0.005?我们这三个数相加,其和 0.042 是相应|页和查?#8220;原子能的应用” 相关性的一个简单的度量。概括地Ԍ如果一个查询包含关键词 w1,w2,...,wN, 它们在一特定网中的词频分别是: TF1, TF2, ..., TFN?QTF: term frequency)?那么Q这个查询和该网늚相关性就? TF1 + TF2 + ... + TFN?br> 读者可能已l发C又一个漏z。在上面的例子中Q词“?#8221;站了总词频的 80% 以上Q而它对确定网늚主题几乎没有用。我们称q种词叫“应删除词”QStopwords)Q也是说在度量相关性是不应考虑它们的频率。在汉语中,应删除词q有“?#8221;?#8220;?#8221;?#8220;?#8221;?#8220;?#8221;?#8220;?#8221;{等几十个。忽略这些应删除词后Q上q网늚怼度就变成?.007Q其?#8220;原子?#8221;贡献?.002Q?#8220;应用”贡献?0.005?br> l心的读者可能还会发现另一个小的漏z。在汉语中,“应用”是个很通用的词Q?#8220;原子?#8221;是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词l一个权重,q个权重的设定必L下面两个条Ӟ 1. 一个词预测主题能力强Q权重就大Q反之,权重p。我们在|页中看?#8220;原子?#8221;q个词,或多或少地能了解|页的主题。我们看?#8220;应用”一ơ,对主题基本上q是一无所知。因此,“原子?#8220;的权重就应该比应用大?br> 2. 应删除词的权重应该是零?br> 我们很容易发玎ͼ如果一个关键词只在很少的网中出现Q我们通过它就Ҏ锁定搜烦目标Q它的权重也应该大。反之如果一个词在大量网中出现Q我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地Ԍ假定一个关键词 ??Qw 个网中出现q,那么 Qw 大Qw 的权重越,反之亦然。在信息索中Q用最多的权重?#8220;逆文本频率指?#8221; QInverse document frequency ~写为テQuQ,它的公式为logQDQDw)其中Q是全部|页数。比如,我们假定中文|页数是Q=Q0亿,应删除词“?#8221;在所有的|页中都出现Q即QwQ1Q亿Q那么它的テQuQlog(10?10亿)= log (1) = Q。假如专用词“原子?#8221;在两百万个网中出现Q即QwQ2Q0万,则它的权重テQuQlog(500) =6.2。又假定通用?#8220;应用”Q出现在五亿个网中Q它的权重テQu = log(2) 则只?0.7。也只_在网中扑ֈ一?#8220;原子?#8221;的比配相当于扑ֈ九个“应用”的匹配。利?IDFQ上q相x计个公式q词频的简单求和变成了加权求和Q即 TF1*IDF1 + TF2*IDF2 Q?.. + TFN*IDFN。在上面的例子中Q该|页?#8220;原子能的应用”的相xؓ 0.0161Q其?#8220;原子?#8221;贡献?0.0126Q?#8220;应用”只A献了0.0035。这个比例和我们的直觉比较一致了?br> Q_uQテQuQterm frequency/inverse document frequency) 的概念被公认Z息检索中最重要的发明。在搜烦、文献分cd其他相关领域有广泛的应用。讲?TF/IDF 的历史蛮有意思。IDF 的概忉|早是剑桥大学的斯巴克Q琼斯[注:Ҏ两个姓] (Karen Sparck Jones)提出来的。斯巴克Q琼?Q9Q2 q在一题为关键词Ҏ性的l计解释和她在文献检索中的应用的论文中提出テQu。遗憄是,Ҏ没有从理Z解释Z么权重テQu 应该是对数函?log(Q/QwQ(而不是其它的函数Q比如^ҎQ,也没有在q个题目上作q一步深入研IӞ以至于在以后的很多文献中Z提到 Q_uQテQu 时没有引用她的论文,l大多数人甚至不知道斯巴克-琼斯的A献。同q罗N写了个两页U的解释Q解释得很不好。倒是后来康乃大学的萨尔(Salton)多次写文章、写书讨?TF/IDF 在信息检索中的用途,加上萨尔本人的大名Q信息检索的世界大奖是以萨顿的名字命名的Q。很多h都引用萨顿的书Q甚至以个信息检索中最重要的概忉|他提出的。当Ӟ世界q没有忘记斯巴克Q琼斯的贡献Q?004q_在纪忉|献学学报创刊 60 周年之际Q该学报重印了斯巴克-琼斯的大作。罗N在同期期刊上写了篇文章Q用香农的信息论解释 IDFQ这回的解释是对的,但文章写的ƈ不好、非常冗长(十八)Q把一个简单问题搞复杂了。其实,信息论的学者们已经发现q指出,其实 IDF 的概念就是一个特定条件下、关键词的概率分布的交叉熵(Kullback-Leibler Divergence)Q详?a target=_blank>上一pd Q。这P信息索相x的度量Q又回到了信息论?br> 现在的搜索引擎对 TF/IDF q行了不细微的优化Q得相x的度量更加准确了。当ӞҎ兴趣写一个搜索引擎的爱好者来Ԍ使用 TF/IDF p够了?如果我们l合上网|?Page Rank)Q那么给定一个查询,有关|页l合排名大致qx和|页排名乘积军_?
]]> 【{】数学之?pd 12 - 余u定理和新ȝ分类 http://www.shnenglu.com/qywyh/articles/58387.html?/dc:creator>?/author>Sat, 09 Aug 2008 09:41:00 GMT http://www.shnenglu.com/qywyh/articles/58387.html http://www.shnenglu.com/qywyh/comments/58387.html http://www.shnenglu.com/qywyh/articles/58387.html#Feedback 0 http://www.shnenglu.com/qywyh/comments/commentRss/58387.html http://www.shnenglu.com/qywyh/services/trackbacks/58387.html
Google Q谷歌)中国的博客网志,走近我们的品、技术和文化
2006q??0?上午 10:12:00
发表者:吴军QGoogle 研究? 余u定理和新ȝ分类g是两件八杆子打不着的事Q但是它们确有紧密的联系。具体说Q新ȝ分类很大E度上依靠余弦定理?br>
Google 的新L自动分类和整理的。所谓新ȝ分类无非是要把相似的新闻攑ֈ一cM。计机其实M懂新闻,它只能快速计。这p求我们设计一个算法来出L两篇新闻的相似性。ؓ了做到这一点,我们需要想办法用一l数字来描述一新闅R?br>
我们来看看怎样找一l数字,或者说一个向量来描述一新闅R回忆一下我们在“
如何度量|页相关?/font> ”一文中介绍的TF/IDF 的概c对于一新M的所有实词,我们可以计算出它们的单文本词汇频?逆文本频率|TF/IDF)。不难想象,和新M题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词Q分别ؓ
单词~号 汉字?br>------------------
1 ?br>2 ?br>3 阿斗
4 阿姨
...
789 服装
....
64000 做作
在一新MQ这 64,000 个词?TF/IDF 值分别ؓ
单词~号 TF/IDF ?br>==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075
如果单词表中的某个次在新M没有出现Q对应的gؓӞ那么q?64,000 个数Q组成一?4,000l的向量。我们就用这个向量来代表q篇新闻Qƈ成ؓ新闻的特征向量。如果两新ȝ特征向量相近Q则对应的新d容相|它们应当归在一c,反之亦然?br>
学过向量代数的h都知道,向量实际上是多维I间中有方向的线Dc如果两个向量的方向一_卛_角接q零Q那么这两个向量qq。而要定两个向量方向是否一_q就要用C弦定理计向量的夹角了?br>
余u定理Ҏ们每个h都不陌生Q它描述了三角Ş中Q何一个夹角和三个边的关系Q换句话_l定三角形的三条边,我们可以用余弦定理求Z角Ş各个角的角度。假定三角Ş的三条边?a, b ?cQ对应的三个角ؓ A, B ?CQ那么角 A 的余?--
如果我们三角Ş的两?b ?c 看成是两个向量,那么上述公式{h?br>
其中分母表示两个向量 b ?c 的长度,分子表示两个向量的内U。D一个具体的例子Q假如新?X 和新?Y 对应向量分别?br>x1,x2,...,x64000 ?br>y1,y2,...,y64000,
那么它们夹角的余弦等于,
当两条新d量夹角的余u{于一Ӟq两条新d全重复(用这个办法可以删除重复的|页Q;当夹角的余u接近于一Ӟ两条新闻怼Q从而可以归成一c;夹角的余弦越,两条新闻不相关?br>
我们在中学学习余弦定理时Q恐怕很难想象它可以用来Ҏ闻进行分cR在q里Q我们再一ơ看到数学工L用途?/div>
]]> 【{】如何确定中文字W串的相似度 http://www.shnenglu.com/qywyh/articles/58386.html?/dc:creator>?/author>Sat, 09 Aug 2008 09:40:00 GMT http://www.shnenglu.com/qywyh/articles/58386.html http://www.shnenglu.com/qywyh/comments/58386.html http://www.shnenglu.com/qywyh/articles/58386.html#Feedback 0 http://www.shnenglu.com/qywyh/comments/commentRss/58386.html http://www.shnenglu.com/qywyh/services/trackbacks/58386.html 如何定中文字符串的怼?/span>
作者:肖L
个h博客Q?/span>http://blog.csdn.net/eaglet
EmailQ?a href="mailto:blog.eaglet@gmail.com">blog.eaglet@gmail.com
2007/4 南京
摘要
在数据挖掘的研究中,我们往往需要判断文章是否雷?/span>, 对类似文章或短句q行归类处理{,q其中就会遇到这L问题Q如何确定两个字W串之间的相似程度?/span>
本文l合作者的实际工作l验和数据挖掘理论,l合中文字符串特性介l一套相对完整的ҎQ以解决上述问题 . ?/span>
分析
最单的问题求解
字符串由一l不同含义的单词l成Q它不同于数值型变量Q可以用一个特定的数值来定它的大小或位|,所以用何种方式来描qC个字W串之间的距,成ؓ了一个值得探讨的问题?/span>
通常情况下,用于分析的数据类型有如下几种Q区间标度遍历、二元变量、标U型变量、序数型变量、比例标度型变量、合类型变量等?/span>
l合q些变量cdQ本文认为字W串变量更适合于归cM二元变量Q我们可以利用分词技术将字符串分成若q个单词Q每个独立的单词作ؓ二元变量的一个属性。我们把所有单词设定ؓ一个二元变量属性集?/span>R Q字W串 1 和字W串 2 的单词包含于q个集合 R 。设 q 是字W串 1 和字W串 2 中都存在的单词的LQ?/span>s 是字W串 1 中存在,字符?/span>2 中不存在的单词LQ?/span>r 是字W串 2 中存在,字符?/span>1 中不存在的单词LQ?/span>t 是字W串 1 和字W串 2 中都不存在的单词L。我们称 q,r,s,t 为字W串比较中的 4 个状态分量?/span> 如图 1 所C:
׃两个字符串都不存在的单词对两个字W串的比较没有Q何作用,所以忽?/span>t Q于是我们采用非恒定的相似度评hpL (Jaccard pL ) 来描qC个字W串见的相异度表C公式ؓ
相异?/span> = r+s / (q+r+s) Q不难推断,他们的Ş似度公式?/span>
怼?/span>=q/(q+r+s) 公式 1
?/span>1 字符串关pLq?/span>
例如如下两个字符串串Q?/font>
字符?/span>1 Q非对称变量
字符?/span>2 Q非对称I间
他们的二元属性关p表为:
字符?/span>/ 属?/span>
?/font>
对称
变量
I间
非对U变?/font>
Y
Y
Y
N
非对U空?/font>
Y
Y
N
Y
Y 表示存在该单词属性, N 表示不存在该单词属?/span>
那么对应?/font>
s = 1; q = 2; r = 1
两个字符串的怼度ؓ 2/(1+2+1) = 50%
单词重复问题求解
前面讨论的问题是最单的字符串比较问题,q个问题中单个字W串不存在重复的单词Q然而如果字W串中出现重复单词,采用上一节的公式套用后得到的l果往往不够理想Q比?/font>
字符?/span>1 Q前q前q?/span>
字符?/span>2 Q前q?/span>
公式 1 怼?/span>=q/(q+r+s) 来计,
q = 1 , r=s=0 Q得到的怼度ؓ 100% Q而实际上q两个字W串q不完全相同。ؓ解决q个问题Q我们必d在不同位|出现的相同单词假设Z同单词,以其在字W串中出现的ơ序作ؓ区分Q这样其二元属性关p表如下Q?/span>
字符?/span>/ 属?/span>
前进 1
前进 2
前进前进
Y
Y
前进
Y
N
相应?/span> q = 1, s=1, r= 0
其相似度?/span> 1/(1+1+0) = 50%
状态分量权?/span>
在实际应用中Q?/span>q,r,s 三种状态分量ƈ不一定是同等价值的Q它们往往Ҏ实际应用的需要存在不同的权重Q比如对于某些应用来_两个字符串中相同单词数量比不同单词数量更能说明字W串的相似程度,那么我们必须?/span>q 的权重提高,重新计算怼E度?/span>
我们讑֯?/span>q,r,s 三个变量的权重分别是 Kq, Kr, Ks Q则公式 1 演进?/span>
怼?/span>=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式 2
回到上面问题Q对于上一节的两个字符Ԍ如果我们讄 Kq = 2 ,Kr=Ks=1 Q则更加公式 2
它们的相似度?/span> 2*1/ (2*1+1*1+1*0) = 66.7%
同义词问?/span>
在语a中,同义词是l常遇到的问题,如果两个字符串中存在同义词,其相似度又如何计呢?/font>
对于同义词问题,我们要从分词q程中来解决。首先我们需要构Z个同义词对照表,同义词对应C个等价单词,在对字符串分词后对字W串中的所有单词到同义词表中查找,如果存在Q则替换为对应的{h单词Q这样分词后Q两个字W串中的同义词就指向了相同的单词?/font>
比如存在同义词表如下Q?/font>
单词
{h?/font>
也许
也许
或许
也许
可能
也许
字符?/span>1 Q他也许不来?/span>
字符?/span>2 Q他可能不来?/span>
分词后二元属性关p表如下Q?/font>
字符?/span>/ 属?/span>
?/font>
也许
不来
?/font>
他也怸来了
Y
Y
Y
Y
他可能不来了
Y
Y
Y
Y
不难看出Q两个字W串的相似度?/span> 100%
同音不同?/span>
在中文网l环境中Q由于大多数|络文章的作者都是采用拼韌入法输入汉字Q经怼出现输入同音不同义的文字错误Qؓ了纠正这U错误,我们可以考虑采用汉语拼音的方式进行分词,也可以综合分词,也就是先正常分词Q在拼音分词Q字W串的分词结果去两者的q?/font>
节
定字符串相似度的方法很多,本文Ҏ作者多q从事数据挖掘工作的l验l合数据挖掘理论提出的相兌x案,可以较好的解决中文字W串分析中的怼度比较问题。但技术的发展是不断前q的Q相信未来还会有更好的方法来解决中文字符串相似度比较问题。读者如果有更好的想法或者发现本文算法中的不I非常Ƣ迎和本文作者联pR?/font>
参考文?/font>
《数据挖掘概念与技术?/span> 机械工业出版C?/span> Jiawei Han, Micheline Kamber
]]>
avttþþƷ |
Ʒþþþaaaa |
ֻоƷþ |
ɫ8ŷ˾þۺϵ |
þùƷӰԺ |
ŷһþþƷ |
97þó˾Ʒվ |
þþþseɫ͵͵Ʒav |
Ʒþþþ |
ƷŮþøվ |
պƷþþþþ |
avþþƷ |
þþۺ |
þþþþþþþѾƷ |
MM131Ůþ |
˳ŷþ |
ŷƷһþ |
91Ʒۿ91þþþþ |
Ʒһþ |
ľþþƷ |
þþþþþþ |
þþƷƷ |
2021˾Ʒþ |
ɫ꼤þۺ |
þùƷþþ |
Ʒþþþþþ |
ƷþùƷ99 |
˾þþƷ |
þùƷHDAV |
99þѹۺϾƷ |
þþþþ |
۲˾þþƷٸAV |
ƷþõӰŷ |
þþƷƷƷ
|
ۺϾþþþ |
¶ۺϼ¾þ |
ŷۺϾþþ |
պAVþһ
|
ĻѾþ |
Ůþþùһ |
þƷĻ |