藍色理想

隨筆 - 79 文章 - 58 trackbacks - 0

2025年11月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

常用鏈接

留言簿(9)

隨筆分類

隨筆檔案

文章檔案

2006年11月 (1)

相冊

maze

搜索

積分與排名

積分 - 297344
排名 - 89

閱讀排行榜

評論排行榜

集體智慧和協同過濾

什么是集體智慧

集體智慧 (Collective Intelligence) 并不是 Web2.0 時代特有的，只是在 Web2.0 時代，大家在 Web 應用中利用集體智慧構建更加有趣的應用或者得到更好的用戶體驗。集體智慧是指在大量的人群的行為和數據中收集答案，幫助你對整個人群得到統計意義上的結論，這些結論是我們在單個個體上無法得到的，它往往是某種趨勢或者人群中共性的部分。

Wikipedia 和 Google 是兩個典型的利用集體智慧的 Web 2.0 應用：

Wikipedia 是一個知識管理的百科全書，相對于傳統的由領域專家編輯的百科全書，Wikipedia 允許最終用戶貢獻知識，隨著參與人數的增多，Wikipedia 變成了涵蓋各個領域的一本無比全面的知識庫。也許有人會質疑它的權威性，但如果你從另一個側面想這個問題，也許就可以迎刃而解。在發行一本書時，作者雖然是權威，但難免還有一些錯誤，然后通過一版一版的改版，書的內容越來越完善。而在 Wikipedia 上，這種改版和修正被變為每個人都可以做的事情，任何人發現錯誤或者不完善都可以貢獻他們的想法，即便某些信息是錯誤的，但它一定也會盡快的被其他人糾正過來。從一個宏觀的角度看，整個系統在按照一個良性循環的軌跡不斷完善，這也正是集體智慧的魅力。
Google：目前最流行的搜索引擎，與 Wikipedia 不同，它沒有要求用戶顯式的貢獻，但仔細想想 Google 最核心的 PageRank 的思想，它利用了 Web 頁面之間的關系，將多少其他頁面鏈接到當前頁面的數目作為衡量當前頁面重要與否的標準；如果這不好理解，那么你可以把它想象成一個選舉的過程，每個 Web 頁面都是一個投票者同時也是一個被投票者，PageRank 通過一定數目的迭代得到一個相對穩定的評分。Google 其實利用了現在 Internet 上所有 Web 頁面上鏈接的集體智慧，找到哪些頁面是重要的。

什么是協同過濾

協同過濾是利用集體智慧的一個典型方法。要理解什么是協同過濾 (Collaborative Filtering, 簡稱 CF)，首先想一個簡單的問題，如果你現在想看個電影，但你不知道具體看哪部，你會怎么做？大部分的人會問問周圍的朋友，看看最近有什么好看的電影推薦，而我們一般更傾向于從口味比較類似的朋友那里得到推薦。這就是協同過濾的核心思想。

協同過濾一般是在海量的用戶中發掘出一小部分和你品位比較類似的，在協同過濾中，這些用戶成為鄰居，然后根據他們喜歡的其他東西組織成一個排序的目錄作為推薦給你。當然其中有一個核心的問題：

如何確定一個用戶是不是和你有相似的品位？
如何將鄰居們的喜好組織成一個排序的目錄？

協同過濾相對于集體智慧而言，它從一定程度上保留了個體的特征，就是你的品位偏好，所以它更多可以作為個性化推薦的算法思想。可以想象，這種推薦策略在 Web 2.0 的長尾中是很重要的，將大眾流行的東西推薦給長尾中的人怎么可能得到好的效果，這也回到推薦系統的一個核心問題：了解你的用戶，然后才能給出更好的推薦。

深入協同過濾的核心

前面作為背景知識，介紹了集體智慧和協同過濾的基本思想，這一節我們將深入分析協同過濾的原理，介紹基于協同過濾思想的多種推薦機制，優缺點和實用場景。

首先，要實現協同過濾，需要一下幾個步驟

收集用戶偏好
找到相似的用戶或物品
計算推薦

收集用戶偏好

要從用戶的行為和偏好中發現規律，并基于此給予推薦，如何收集用戶的偏好信息成為系統推薦效果最基礎的決定因素。用戶有很多方式向系統提供自己的偏好信息，而且不同的應用也可能大不相同，下面舉例進行介紹：

表 1 用戶行為和用戶偏好

用戶行為	類型	特征	作用
評分	顯式	整數量化的偏好，可能的取值是 [0, n]；n 一般取值為 5 或者是 10	通過用戶對物品的評分，可以精確的得到用戶的偏好
投票	顯式	布爾量化的偏好，取值是 0 或 1	通過用戶對物品的投票，可以較精確的得到用戶的偏好
轉發	顯式	布爾量化的偏好，取值是 0 或 1	通過用戶對物品的投票，可以精確的得到用戶的偏好。如果是站內，同時可以推理得到被轉發人的偏好（不精確）
保存書簽	顯示	布爾量化的偏好，取值是 0 或 1	通過用戶對物品的投票，可以精確的得到用戶的偏好。
標記標簽 (Tag)	顯示	一些單詞，需要對單詞進行分析，得到偏好	通過分析用戶的標簽，可以得到用戶對項目的理解，同時可以分析出用戶的情感：喜歡還是討厭
評論	顯示	一段文字，需要進行文本分析，得到偏好	通過分析用戶的評論，可以得到用戶的情感：喜歡還是討厭
點擊流 ( 查看 )	隱式	一組用戶的點擊，用戶對物品感興趣，需要進行分析，得到偏好	用戶的點擊一定程度上反映了用戶的注意力，所以它也可以從一定程度上反映用戶的喜好。
頁面停留時間	隱式	一組時間信息，噪音大，需要進行去噪，分析，得到偏好	用戶的頁面停留時間一定程度上反映了用戶的注意力和喜好，但噪音偏大，不好利用。
購買	隱式	布爾量化的偏好，取值是 0 或 1	用戶的購買是很明確的說明這個項目它感興趣。

以上列舉的用戶行為都是比較通用的，推薦引擎設計人員可以根據自己應用的特點添加特殊的用戶行為，并用他們表示用戶對物品的喜好。

在一般應用中，我們提取的用戶行為一般都多于一種，關于如何組合這些不同的用戶行為，基本上有以下兩種方式：

將不同的行為分組：一般可以分為“查看”和“購買”等等，然后基于不同的行為，計算不同的用戶 / 物品相似度。類似于當當網或者 Amazon 給出的“購買了該圖書的人還購買了 ...”，“查看了圖書的人還查看了 ...”
根據不同行為反映用戶喜好的程度將它們進行加權，得到用戶對于物品的總體喜好。一般來說，顯式的用戶反饋比隱式的權值大，但比較稀疏，畢竟進行顯示反饋的用戶是少數；同時相對于“查看”，“購買”行為反映用戶喜好的程度更大，但這也因應用而異。

收集了用戶行為數據，我們還需要對數據進行一定的預處理，其中最核心的工作就是：減噪和歸一化。

減噪：用戶行為數據是用戶在使用應用過程中產生的，它可能存在大量的噪音和用戶的誤操作，我們可以通過經典的數據挖掘算法過濾掉行為數據中的噪音，這樣可以是我們的分析更加精確。
歸一化：如前面講到的，在計算用戶對物品的喜好程度時，可能需要對不同的行為數據進行加權。但可以想象，不同行為的數據取值可能相差很大，比如，用戶的查看數據必然比購買數據大的多，如何將各個行為的數據統一在一個相同的取值范圍中，從而使得加權求和得到的總體喜好更加精確，就需要我們進行歸一化處理。最簡單的歸一化處理，就是將各類數據除以此類中的最大值，以保證歸一化后的數據取值在 [0,1] 范圍中。

進行的預處理后，根據不同應用的行為分析方法，可以選擇分組或者加權處理，之后我們可以得到一個用戶偏好的二維矩陣，一維是用戶列表，另一維是物品列表，值是用戶對物品的偏好，一般是 [0,1] 或者 [-1, 1] 的浮點數值。

找到相似的用戶或物品

當已經對用戶行為進行分析得到用戶喜好后，我們可以根據用戶喜好計算相似用戶和物品，然后基于相似用戶或者物品進行推薦，這就是最典型的 CF 的兩個分支：基于用戶的 CF 和基于物品的 CF。這兩種方法都需要計算相似度，下面我們先看看最基本的幾種計算相似度的方法。

相似度的計算

關于相似度的計算，現有的幾種基本方法都是基于向量（Vector）的，其實也就是計算兩個向量的距離，距離越近相似度越大。在推薦的場景中，在用戶 - 物品偏好的二維矩陣中，我們可以將一個用戶對所有物品的偏好作為一個向量來計算用戶之間的相似度，或者將所有用戶對某個物品的偏好作為一個向量來計算物品之間的相似度。下面我們詳細介紹幾種常用的相似度計算方法：

歐幾里德距離（Euclidean Distance）

最初用于計算歐幾里德空間中兩個點的距離，假設 x，y 是 n 維空間的兩個點，它們之間的歐幾里德距離是：