http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2078.entry
1月27日

關于平均值

小時候，老師就告訴我們，讀書講究先由薄而厚，再由厚而薄。前者是吸收和積累，后者是融會和消化。

這些年，讀了不少關于統(tǒng)計學習的東西，很多東西都記不清楚了。從我自己的角度看來（可能是很膚淺的），學概率和統(tǒng)計，關鍵是記住三個概念：測度(measure)，期望(expectation)，和獨立性(independence)。

測度是現(xiàn)代概率理論的基石。在經(jīng)典的概率論里面——比如我們在本科學的那些——大多是通過舉例子和文字說明的方式告訴你概率是什么，這容易明白，不過缺乏嚴密的公理化根基?，F(xiàn)代概率論整個建立在測度理論的基礎上，概率的定義非常簡單，不過也很抽象——所謂“概率”，就是歸一化的測度。沒有測度，就沒有整個概率論的大廈，所以它很重要——不過，它在實用中直接用上的機會不大，所以不是這篇文章的主體。關于獨立性，以及它的一個孿生的名詞：Markov，也扮演著非常重要的角色，它是Graphical models的基礎。有興趣的可以去讀M. I. Jordan的書。

而在統(tǒng)計學習的實際應用中，就是你平時寫code，用得最多的就是期望，或者一個通俗點的版本——平均值。其實這兩者不太一樣，期望是從model出發(fā)演繹的，平均值通常是指從data出發(fā)歸納的。不過它們的關系確實非常密切。

統(tǒng)計學習在很多情況下，就是求平均值

我們平常說去Learn一個model——其實，在很多情況下，這就是干一件聽上去很簡單的事情，求平均值。我們知道，我們所接觸的大部分重要的概率分布，都屬于exponential family，比如Gauss, Binomial, Multinomial, Dirichlet, Poisson, Exponential, Gamma等等分布都屬于這個家族。它的一個重要特點就是——得期望者得天下。就是說，知道了某些統(tǒng)計量的期望，就知道了整個model，至于model 的參數(shù)，或者就是期望本身（比如Gauss)，或者不難從期望中得到?？梢宰C明，對于這些model，對它們的最大似然估計(Maximum Likelihood estimation)，就是從data中算出某些統(tǒng)計量的平均值作為model的期望。

在Bayes學習中，我們還考慮先驗分布(prior)。在這里，model的估計還是求平均值。所謂prior是怎么來的？就是以前曾經(jīng)觀察過的data那里總結得到的，然后以prior的形式影響當前的model估計。一般而言，使用exponential family，我們通常會使用conjugate prior，這種prior，基本就是沿著剛才說的，假想我們已經(jīng)看過一些data的思路得到的，它的形式和data mean幾乎如出一轍。而帶了prior的估計，還是在求平均值，不過這里的平均值就是（假想）以前觀察過的數(shù)據(jù)和當前的數(shù)據(jù)合在一起求平均。

對于更加復雜的Graphical model，每個節(jié)點的estimate和update，很多時候，其實是做了這樣的事情——把其它節(jié)點傳來的平均值和這個節(jié)點接觸的數(shù)據(jù)的平均值混合進行新的平均。從最簡單的Gauss, 到更加復雜的Gaussian Mixture Model, Latent Dirichlet Allocation, Markov Random Field, Generalized Kalman Filtering概莫能外——大家可以仔細看看它們的每一個update公式，看看哪個不是在求平均值。

怎樣求平均值

平均值是很重要的。不過怎么求呢？這似乎是小學初中就解決了的問題。不過，求平均值的世界其實是如此博大精深。如果說它是少林武學，我現(xiàn)在這點水平，也就夠在嵩山下掃掃地罷了。很多在世界上赫赫有名的數(shù)學家，窮畢生心血，方能一窺堂奧。

雖然，只有掃地的水平，不過起碼也看過大師們練武。這門學問主要有兩個方面：得到data求平均值，得到model求期望。

先說說求data的平均值。這太簡單了，有什么好說的。不就是加法和乘法么，小學學過算術的人都會算，即使沒學過，拿個計算器也照樣算。在通常的實數(shù)空間內(nèi)，確實很簡單；不過對于一般的求平均值的情況，就非常非常困難了。一般來說，求平均值有兩個流派，一種是基于線性代數(shù)(linear algebra)，另外一種是基于度量空間(metric space)。前面一種大家很熟悉：

m = (x1 + x2 + ... + xn) * (1/n)。

這是我們讀了這么多年書最常見的平均值。不過，這樣定義太局限了，它要求這些東西能做加法和數(shù)乘——我不得不說，這個要求實在太高，只有線性空間（這種空間是數(shù)學里面的貴族，它們什么好處都全了）能夠滿足——對于數(shù)學領域更廣大的人民群眾（各種更一般的數(shù)學結構，比如群，拓撲流形），加法和數(shù)乘簡直是一種奢侈得不切實際的活動。

其實平均值是一個非常廣泛的概念，不僅僅存在于線性空間中，還為廣大人民群眾服務。對于某個度量空間，它的一般性定義是這么給出的

使得 d(m, x1) + d(m, x2) + ... + d(m, xn) 最小的那個m

也就是說，求平均值是一個優(yōu)化問題。關于這個問題，在不同的空間中有不同的答案：在最高級的希爾伯特空間中（定義了內(nèi)積的完備線性空間），m就是上面給出的基于線性代數(shù)的形式。所以說，基于線性代數(shù)的定義僅僅是基于度量空間的定義的一個特例。不過由于這個特例被廣泛使用，所以大家一說平均值就想起它，而不是一般形式。在推廣一些的巴拿赫空間中（定義了范數(shù)的完備線性空間），上述的問題是一個凸優(yōu)化問題，因為范數(shù)必然是凸函數(shù)。它具有唯一的最優(yōu)解。

最困難的是在非線性空間中。一個典型的例子是黎曼流形（注意，這里我們只討論黎曼流形，對于更為一般的拓撲流形或者微分流形，因為不具有度量結構，所以不能定義均值。）在黎曼流形上，兩點間的距離是通過測地距離給出的。在黎曼流形上，通過測地距離定義的平均值，叫做黎曼中心。一部分朋友對于這幾個術語可能不太熟悉，還是舉個形象點的例子。比如，在地球上給出幾個地點，你要在地面上找一個“平均地點”，使得它到那幾個地點的“地面距離”的平方和最小。如果，用傳統(tǒng)的算術方法拿這些地點的三維坐標來算，你估計得在那鉆個油井了。對于“球面平均”問題（專門一點的說法叫做特殊正交群SO(3)的黎曼中心，恩，這個名詞我也有點暈），到了在本世紀，在數(shù)學里依舊可以發(fā)paper，目前還沒有一般情況下的解析解。

別的領域我不懂，不過“球面平均”在vision里面價值是很大的，它是對三維旋轉變換建立統(tǒng)計模型的基礎——我們再一次看到了求平均值對于統(tǒng)計的重要意義。球面平均求的是“平均”的旋轉，如果對于一般的仿射變換(Affiine transform)，“平均”的變換又怎么求呢？這是個open problem，留待大家思考。

怎樣求期望

說完從data求平均值，再說說從model得到期望(expectation)——這們學問就更博大了。雖然，期望的定義很簡單——求和或者積分就行了。不過，它的實際計算，對于很多實際模型是intractable的。

概率論最早源于擲色子，我們的前輩數(shù)學家們?yōu)榱似平馇髲碗s模型求期望的問題，提出的方法就是擲色子。在學術上，美其名曰“蒙特卡羅方法”(Monte Carlo)。原理很簡單，不斷地擲色子來大量采樣，然后從采來的樣本求平均值來逼近模型的期望。

擲色子是世界上最有學問的之一，正因為如此，我們對于“賭神”，“賭王”之類的人物崇拜猶如滔滔江水，因為它們擲色子擲得好。無數(shù)的統(tǒng)計學家把畢生經(jīng)歷奉獻給擲色子（采樣）事業(yè)，并且做出偉大成就。關于采樣的專著和文獻，汗牛充棟。

擲色子就這么難么？是的。據(jù)估算，即使對于一個復雜度不高的model，要得到一個可以接受的估計，所需的樣本量往往大得驚人，而且指數(shù)增長。如果不掌握要領，你即使擲到宇宙末日，估計離一個靠譜的估計還遠著呢。采樣技術名目繁多，最流行的莫過于重要性采樣(importance sampling)和馬爾科夫鏈蒙特卡羅過程(MCMC)。具體就不多說了。

posted on 2008-09-06 17:06 bneliao 閱讀(805) 評論(0) 編輯收藏引用所屬分類: math

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關文章: 在數(shù)學的海洋中飄蕩zz zz二十世紀的數(shù)學 Michael Atiyah 介紹幾本數(shù)學書zz 拓撲：游走于直觀與抽象之間zz 圖˙譜˙馬爾可夫過程˙聚類結構zz How to get a solution?zz 漫話距離zz 學習數(shù)學zz 關于平均值zz Learning中的代數(shù)結構的建立zz

網(wǎng)站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

2025年8月

日

一

二

三

四

五

六

常用鏈接

留言簿

隨筆檔案

2008年7月 (1)

文章分類

文章檔案

BLOG連接

absurd之csdn
c++的羅浮宮
cnblog之CG組
longshanks
內(nèi)存管理blog

關于平均值

常用鏈接

留言簿

隨筆檔案

文章分類

文章檔案

BLOG連接

D3D

GAME

搜索

積分與排名

最新評論