• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 224  文章 - 41  trackbacks - 0
            <2025年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            享受編程

            常用鏈接

            留言簿(11)

            隨筆分類(159)

            隨筆檔案(224)

            文章分類(2)

            文章檔案(4)

            經(jīng)典c++博客

            搜索

            •  

            最新評論

            閱讀排行榜

            評論排行榜

            皮爾遜公式

            前言

            在很多推薦算法的地方,涉及到了很多關(guān)于數(shù)學(xué)的公式,如果簡單的應(yīng)用這些公式,那當(dāng)然較為的簡單,當(dāng)如果有真正的理解這些公式里面隱含著的道理那就要下一定的苦功夫。

            我們這里不從皮爾遜的公式講起,我們從物物的推薦開始。

            問題

            這里以音樂的推薦為例子,對于音樂的推薦很多人都在做,比較好解釋清楚。給你一首歌曲讓你推薦10首相識的歌曲。推薦的數(shù)據(jù)來源是這樣子的。每個人都會通過搜索歌曲來聽他們自己喜歡的歌曲。這樣歌曲就能有一些相關(guān)的特性了,關(guān)于數(shù)據(jù)的問題我們等下再進一步的說明。

            如果我們不按數(shù)學(xué)的方法來思考這個問題的話,平常的人我們會怎樣來解決這個問題呢?我們是這樣想的,某一首音樂,他會存在不同的用戶中,如果這些用戶也存在著某些歌曲,我們就可以計算這首歌曲中在不同的用戶中還存在了多少歌曲,這些歌曲的個數(shù)是多少,就可以有一個排序,這就是我們要的相識歌曲。

            我們簡單的用數(shù)學(xué)來描述一下:

            假設(shè)有兩個人甲,乙,三首歌曲A B C,如果甲有這首歌就標(biāo)記為1,沒有的話就標(biāo)記為零

               A B C

            甲 1 1 1

            乙 0 1 0 

            按照我們的算法

            在甲用戶中

            Dict[A][B]=1,Dict[A][C]=1

            乙用戶沒有A

            這樣歌曲A和B、C都相識,而且相識度都一樣為1。眨眼看上去這種算法,很完美,非常的完美,因為平時我們聊起推薦系統(tǒng)的時候,時不時的一開口就讓你這樣做了。真的無懈可擊了當(dāng)然不是這樣,讓我們再看一次數(shù)據(jù),你會發(fā)現(xiàn),其實A,C    的數(shù)據(jù)是一樣一樣的,理論上我們會覺得A,跟C的相識度是最高的,但是他的相識度卻和B一樣,這開起來是不合理的,但這是為什么呢。

             


            改進

            回想一下如果進一步的假設(shè),用1來標(biāo)記喜歡,用0來標(biāo)記不喜歡的話,我們這一種算法其實是沒有考慮不喜歡這個因素的。很多人都認(rèn)為不能這樣假設(shè),我告訴你,其實這是數(shù)據(jù)的問題,如果我們把使用的數(shù)據(jù)能夠滿足這里的假設(shè),完全是可以采用的。

            這里我想說的是,我并不認(rèn)為我們使用的第一個算法,有多大的問題,只是想說的是,這種算法還不完美,還可以有改進的空間,這不就是我們一直所擁有的理念,把事情改變的更好。

            進一步的再說:如果我們的數(shù)據(jù)不僅是1和0呢,用戶對歌曲有打分了,怎么辦呢?

              A B C

            甲 3 4 3

            乙 0 2 0

            當(dāng)然很多人會說,算法也可以哦,字典里的數(shù)據(jù)跟著變Dict[A][B]=3,Dict[A][C]=3,但是有個問題不知道有沒有注意到,每個人對打分的理解是不一樣的,有的人覺得3分就是很好聽的歌曲,而有的人要覺得4分才是很好聽的歌曲,也就是說,每個人打分的標(biāo)準(zhǔn)不一樣,導(dǎo)致了打出的分?jǐn)?shù)和比人比較的時候是不一樣的,但自己的標(biāo)準(zhǔn)大部分的時間是不會變的。

            皮爾遜公式

            這里我們需要一種算法。能夠概括這些情況的。這就是皮爾遜公式。

            假設(shè)有兩個變量X、Y,那么兩變量間的皮爾遜相關(guān)系數(shù)可通過以下公式計算:

            公式一:

             

            皮爾遜相關(guān)系數(shù)計算公式

            公式二:

             

            皮爾遜相關(guān)系數(shù)計算公式

            公式三:

             

            皮爾遜相關(guān)系數(shù)計算公式

            公式四:

             

            皮爾遜相關(guān)系數(shù)計算公式

             

            以上列出的四個公式等價,其中E是數(shù)學(xué)期望,cov表示協(xié)方差,N表示變量取值的個數(shù)。

            皮爾遜算法過于復(fù)雜,如果要有點理解的話,可以使用把維數(shù)降到二維,這樣就跟余弦定理有點相識了,相識度就是兩條直線的夾角,角度為0的時候,皮爾遜的值為1,就是最相識的,如果角度為180度,代表兩個牛馬不相干,皮爾遜的值為-1。


            總結(jié)

            很多時候,以前牛逼的數(shù)學(xué)家已經(jīng)給了我們很多很好用的數(shù)學(xué)公式,只是如果沒有真正去用過的話,我們并不知道他所涉及的原理。好好的研究數(shù)學(xué)公式,他會給給我們的算法帶來一定的優(yōu)化作用。關(guān)于公式的優(yōu)化比較難了,以前的數(shù)學(xué)家給了我們很多的想法,而能夠優(yōu)化的就是我們的數(shù)據(jù),如何取數(shù)據(jù),這里主要的是,那個數(shù)據(jù)離用戶的行為越近,離你使用的數(shù)學(xué)模型越近,那個數(shù)據(jù)就越好用。

            參考:

            http://lobert.iteye.com/blog/2024999

            http://zh.wikipedia.org/wiki/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0

            posted on 2014-07-23 16:08 漂漂 閱讀(4212) 評論(1)  編輯 收藏 引用

            FeedBack:
            # re: 你應(yīng)該知道的推薦算法--皮爾遜公式介紹和意義 2016-08-12 14:21 是是是
            鄂爾泰沒看夠  回復(fù)  更多評論
              

            只有注冊用戶登錄后才能發(fā)表評論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            久久毛片一区二区| 久久久综合香蕉尹人综合网| 99精品久久精品一区二区| 中文字幕无码久久精品青草| 久久久久亚洲AV无码专区首JN| 日本人妻丰满熟妇久久久久久| 少妇久久久久久久久久| 久久精品国产亚洲AV电影| 久久久精品国产亚洲成人满18免费网站| 久久国产精品无码网站| 青草国产精品久久久久久| 国产免费福利体检区久久| 亚洲国产另类久久久精品| 久久久久久久综合日本亚洲| 久久国产AVJUST麻豆| 亚洲精品高清国产一久久| 久久婷婷五月综合色奶水99啪| 久久精品国产91久久麻豆自制 | 国产亚洲精品美女久久久| 激情五月综合综合久久69| 亚洲国产精品成人久久| 久久久久综合中文字幕| 国产精品美女久久久| 狠狠色综合网站久久久久久久高清| AA级片免费看视频久久| 亚洲精品无码专区久久久| 亚洲国产精品无码久久青草| 日本精品久久久中文字幕| 久久久久久国产精品免费无码 | 97久久国产露脸精品国产| 久久中文字幕视频、最近更新| 久久精品国产亚洲网站| 狠狠色婷婷久久一区二区| 中文成人无码精品久久久不卡 | 99精品久久久久中文字幕| 色综合久久中文字幕无码| 久久亚洲AV无码精品色午夜| 亚洲精品国产自在久久| 久久天天躁狠狠躁夜夜不卡| 久久九九久精品国产| 久久久久久av无码免费看大片|