• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            不會飛的鳥

            2010年12月10日 ... 不鳥他們?。。?我要用自己開發的分布式文件系統、分布式調度系統、分布式檢索系統, 做自己的搜索引擎?。?!大魚有大志?。?! ---楊書童

            [轉]TF-IDF與余弦相似性的應用(二):找出相似文章

            今天,我們再來研究另一個相關的問題。有些時候,除了找到關鍵詞,我們還希望找到與原文章相似的其他文章。比如,"Google新聞"在主新聞下方,還提供多條相似的新聞。

            為了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我舉一個例子來說明,什么是"余弦相似性"。

            為了簡單起見,我們先從句子著手。

              句子A:我喜歡看電視,不喜歡看電影。

              句子B:我不喜歡看電視,也不喜歡看電影。

            請問怎樣才能計算上面兩句話的相似程度?

            基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。

            第一步,分詞。

              句子A:我/喜歡/看/電視,不/喜歡/看/電影。

              句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

            第二步,列出所有的詞。

              我,喜歡,看,電視,電影,不,也。

            第三步,計算詞頻。

              句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。

              句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。

            第四步,寫出詞頻向量。

              句子A:[1, 2, 2, 1, 1, 1, 0]

              句子B:[1, 2, 2, 1, 1, 2, 1]

            到這里,問題就變成了如何計算這兩個向量的相似程度。

            我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

            以二維空間為例,上圖的a和b是兩個向量,我們要計算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:

            假定a向量是[x1, y1],b向量是[x2, y2],那么可以將余弦定理改寫成下面的形式:

            數學家已經證明,余弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的余弦等于:

            使用這個公式,我們就可以得到,句子A與句子B的夾角的余弦。

            余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。

            由此,我們就得到了"找出相似文章"的一種算法:

             ?。?)使用TF-IDF算法,找出兩篇文章的關鍵詞;

             ?。?)每篇文章各取出若干個關鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);

             ?。?)生成兩篇文章各自的詞頻向量;

             ?。?)計算兩個向量的余弦相似度,值越大就表示越相似。

            "余弦相似度"是一種非常有用的算法,只要是計算兩個向量的相似程度,都可以采用它。

            posted on 2014-03-06 21:36 不會飛的鳥 閱讀(258) 評論(0)  編輯 收藏 引用

            国产L精品国产亚洲区久久| 一本久道久久综合狠狠躁AV| 国产产无码乱码精品久久鸭| 精品久久久久久无码中文野结衣 | 91麻豆国产精品91久久久| 精品久久国产一区二区三区香蕉| 色欲久久久天天天综合网精品| 99久久精品免费看国产一区二区三区| 亚洲欧洲中文日韩久久AV乱码| 热久久最新网站获取| 久久久久成人精品无码中文字幕 | 国产成人久久精品一区二区三区 | 久久精品人人做人人爽电影| 久久99精品国产麻豆婷婷| 久久婷婷国产剧情内射白浆| 国产99久久精品一区二区| 色99久久久久高潮综合影院| 无码人妻久久久一区二区三区| 国产成人综合久久精品尤物| 无码任你躁久久久久久老妇App| 国产精品无码久久综合网| 色8久久人人97超碰香蕉987| 久久福利资源国产精品999| 国产精品一区二区久久精品无码 | 国产精品一久久香蕉国产线看观看 | 精品一区二区久久| 久久久精品免费国产四虎| 狠狠人妻久久久久久综合蜜桃| 久久久久99精品成人片直播| 久久精品人成免费| 国产精品成人无码久久久久久| 久久精品aⅴ无码中文字字幕不卡| 一本久久a久久精品亚洲| 久久综合狠狠综合久久综合88| 一本久道久久综合狠狠爱| 91精品免费久久久久久久久| 2021少妇久久久久久久久久| 久久这里只有精品首页| 色99久久久久高潮综合影院| 国产产无码乱码精品久久鸭| 久久午夜无码鲁丝片午夜精品|