• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 224  文章 - 41  trackbacks - 0
            <2025年6月>
            25262728293031
            1234567
            891011121314
            15161718192021
            22232425262728
            293012345

            享受編程

            常用鏈接

            留言簿(11)

            隨筆分類(159)

            隨筆檔案(224)

            文章分類(2)

            文章檔案(4)

            經(jīng)典c++博客

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            原文地址:http://hi.baidu.com/zzpppork/blog/item/c1c79cfadbfe0a6e034f5683.html

            在向量空間模型中,文本泛指各種機(jī)器可讀的記錄。用D(Document)表示,特征項(Term,用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,主要是由詞或者短語構(gòu)成,文本可以用特征項集表示為D(T1,T2,…,Tn),其中Tk是特征項,1<=k<=N。例如一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d)。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),簡記為D=D(W1,W2,…,Wn),我們把它叫做文本D的向量表示。其中Wk是Tk的權(quán)重,1<=k<=N。在上面那個例子中,假設(shè)a、b、c、d的權(quán)重分別為30,20,20,10,那么該文本的向量表示為D(30,20,20,10)。在向量空間模型中,兩個文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1,D2)常用向量之間夾角的余弦值表示,公式為:


            其中,W1k、W2k分別表示文本D1和D2第K個特征項的權(quán)值,1<=k<=N。
            在自動歸類中,我們可以利用類似的方法來計算待歸類文檔和某類目的相關(guān)度。例如文本D1的特征項為a,b,c,d,權(quán)值分別為30,20,20,10,類目C1的特征項為a,c,d,e,權(quán)值分別為40,30,20,10,則D1的向量表示為D1(30,20,20,10,0),C1的向量表示為C1(40,0,30,20,10),則根據(jù)上式計算出來的文本D1與類目C1相關(guān)度是0.86

            那個相關(guān)度0.86是怎么算出來的?

             

            是這樣的,拋開你的前面的贅述

            在數(shù)學(xué)當(dāng)中,n維向量是 V{v1, v2, v3, ..., vn}
            他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
            兩個向量的點擊 m*n = n1*m1 + n2*m2 + ...... + nn*mn
            相似度 = (m*n) /(|m|*|n|)
            物理意義就是兩個向量的空間夾角的余弦數(shù)值
            對于你的例子
            d1*c1 = 30*40 + 20*0 + 20*30 + 10*20 + 0*10 = 2000
            |d1| = sqrt(30*30 +20*20 + 20*20 + 10*10 + 0*0) = sqrt(1800)
            |c1| = sqrt(40*40 + 0*0 + 30*30 + 20*20 + 10*10) = sqrt(3000)
            相似度 = d1*c1/(|d1|*|c1|)= 2000/sqrt(1800*3000)= 0.86066

            應(yīng)用的具體參考地址:
            http://www.cnblogs.com/TtTiCk/archive/2007/08/04/842819.html
            posted on 2010-06-07 13:52 漂漂 閱讀(792) 評論(0)  編輯 收藏 引用

            只有注冊用戶登錄后才能發(fā)表評論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            日韩十八禁一区二区久久| 大蕉久久伊人中文字幕| 人妻无码精品久久亚瑟影视| 四虎影视久久久免费| 亚洲国产一成人久久精品| 久久久久久亚洲Av无码精品专口| 精品少妇人妻av无码久久| 国产精品va久久久久久久| 久久国产AVJUST麻豆| 国产午夜免费高清久久影院| 久久久久亚洲av成人无码电影 | 久久无码国产| 国产精品免费看久久久| 久久99精品免费一区二区| 久久精品一本到99热免费| 国产精品一区二区久久精品无码 | 欧美激情一区二区久久久| 久久se精品一区二区| 久久无码专区国产精品发布| 色综合久久综合网观看| 亚洲国产精品无码久久久不卡| 国产精品久久久天天影视香蕉| 久久青青草原亚洲av无码app| 久久人人爽人人爽AV片| 91精品国产91久久久久久蜜臀| 亚洲AV日韩精品久久久久久| 久久久WWW成人| 国产一区二区精品久久凹凸| 国产一久久香蕉国产线看观看| 亚洲精品乱码久久久久久蜜桃不卡| 狠狠色综合久久久久尤物| 久久久久综合网久久| 国产成人无码久久久精品一| 日韩AV无码久久一区二区| 久久人人爽人人爽人人片AV高清 | 日韩人妻无码一区二区三区久久| 亚洲国产日韩欧美久久| 久久精品国产色蜜蜜麻豆| 狠狠色伊人久久精品综合网| 久久天天躁狠狠躁夜夜av浪潮 | 欧美大香线蕉线伊人久久|