• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 1,  comments - 6,  trackbacks - 0
            http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2078.entry
            1月27日

            關于平均值

            小時候,老師就告訴我們,讀書講究先由薄而厚,再由厚而薄。前者是吸收和積累,后者是融會和消化。

            這些年,讀了不少關于統計學習的東西,很多東西都記不清楚了。從我自己的角度看來(可能是很膚淺的),學概率和統計,關鍵是記住三個概念:測度(measure),期望(expectation),和獨立性(independence)。

            測度是現代概率理論的基石。在經典的概率論里面——比如我們在本科學的那些——大多是通過舉例子和文字說明的方式告訴你概率是什么,這容易 明白,不過缺乏嚴密的公理化根基。現代概率論整個建立在測度理論的基礎上,概率的定義非常簡單,不過也很抽象——所謂“概率”,就是歸一化的測度。沒有測 度,就沒有整個概率論的大廈,所以它很重要——不過,它在實用中直接用上的機會不大,所以不是這篇文章的主體。關于獨立性,以及它的一個孿生的名 詞:Markov,也扮演著非常重要的角色,它是Graphical models的基礎。有興趣的可以去讀M. I. Jordan的書。

            而在統計學習的實際應用中,就是你平時寫code,用得最多的就是期望,或者一個通俗點的版本——平均值。其實這兩者不太一樣,期望是從model出發演繹的,平均值通常是指從data出發歸納的。不過它們的關系確實非常密切。

            統計學習在很多情況下,就是求平均值

            我們平常說去Learn一個model——其實,在很多情況下,這就是干一件聽上去很簡單的事情,求平均值。我們知道,我們所接觸的大部分 重要的概率分布,都屬于exponential family,比如Gauss, Binomial, Multinomial, Dirichlet, Poisson, Exponential, Gamma等等分布都屬于這個家族。它的一個重要特點就是——得期望者得天下。就是說,知道了某些統計量的期望,就知道了整個model,至于model 的參數,或者就是期望本身(比如Gauss),或者不難從期望中得到。可以證明,對于這些model,對它們的最大似然估計(Maximum Likelihood estimation),就是從data中算出某些統計量的平均值作為model的期望。

            在Bayes學習中,我們還考慮先驗分布(prior)。在這里,model的估計還是求平均值。所謂prior是怎么來的?就是以前 曾經觀察過的data那里總結得到的,然后以prior的形式影響當前的model估計。一般而言,使用exponential family,我們通常會使用conjugate prior,這種prior,基本就是沿著剛才說的,假想我們已經看過一些data的思路得到的,它的形式和data mean幾乎如出一轍。而帶了prior的估計,還是在求平均值,不過這里的平均值就是(假想)以前觀察過的數據和當前的數據合在一起求平均。

            對于更加復雜的Graphical model,每個節點的estimate和update,很多時候,其實是做了這樣的事情——把其它節點傳來的平均值和這個節點接觸的數據的平均值混合進 行新的平均。從最簡單的Gauss, 到更加復雜的Gaussian Mixture Model, Latent Dirichlet Allocation, Markov Random Field, Generalized Kalman Filtering概莫能外——大家可以仔細看看它們的每一個update公式,看看哪個不是在求平均值。

            怎樣求平均值

            平均值是很重要的。不過怎么求呢?這似乎是小學初中就解決了的問題。不過,求平均值的世界其實是如此博大精深。如果說它是少林武學,我現在這點水平,也就夠在嵩山下掃掃地罷了。很多在世界上赫赫有名的數學家,窮畢生心血,方能一窺堂奧。

            雖然,只有掃地的水平,不過起碼也看過大師們練武。這門學問主要有兩個方面:得到data求平均值,得到model求期望。

            先說說求data的平均值。這太簡單了,有什么好說的。不就是加法和乘法么,小學學過算術的人都會算,即使沒學過,拿個計算器也照樣算。在 通常的實數空間內,確實很簡單;不過對于一般的求平均值的情況,就非常非常困難了。一般來說,求平均值有兩個流派,一種是基于線性代數(linear algebra),另外一種是基于度量空間(metric space)。前面一種大家很熟悉:

            m = (x1 + x2 + ... + xn) * (1/n)。

            這是我們讀了這么多年書最常見的平均值。不過,這樣定義太局限了,它要求這些東西能做加法和數乘——我不得不說,這個要求實在太高,只有線性空間 (這種空間是數學里面的貴族,它們什么好處都全了)能夠滿足——對于數學領域更廣大的人民群眾(各種更一般的數學結構,比如群,拓撲流形),加法和數乘簡 直是一種奢侈得不切實際的活動。

            其實平均值是一個非常廣泛的概念,不僅僅存在于線性空間中,還為廣大人民群眾服務。對于某個度量空間,它的一般性定義是這么給出的

            使得 d(m, x1) + d(m, x2) + ... + d(m, xn) 最小的那個m

            也就是說,求平均值是一個優化問題。關于這個問題,在不同的空間中有不同的答案:在最高級的希爾伯特空間中(定義了內積的完備線性空間),m就是上 面給出的基于線性代數的形式。所以說,基于線性代數的定義僅僅是基于度量空間的定義的一個特例。不過由于這個特例被廣泛使用,所以大家一說平均值就想起 它,而不是一般形式。在推廣一些的巴拿赫空間中(定義了范數的完備線性空間),上述的問題是一個凸優化問題,因為范數必然是凸函數。它具有唯一的最優解。

            最困難的是在非線性空間中。一個典型的例子是黎曼流形(注意,這里我們只討論黎曼流形,對于更為一般的拓撲流形或者微分流形,因為不具有 度量結構,所以不能定義均值。)在黎曼流形上,兩點間的距離是通過測地距離給出的。在黎曼流形上,通過測地距離定義的平均值,叫做黎曼中心。一部分朋友對 于這幾個術語可能不太熟悉,還是舉個形象點的例子。比如,在地球上給出幾個地點,你要在地面上找一個“平均地點”,使得它到那幾個地點的“地面距離”的平 方和最小。如果,用傳統的算術方法拿這些地點的三維坐標來算,你估計得在那鉆個油井了。對于“球面平均”問題(專門一點的說法叫做特殊正交群SO(3)的 黎曼中心,恩,這個名詞我也有點暈),到了在本世紀,在數學里依舊可以發paper,目前還沒有一般情況下的解析解。

            別的領域我不懂,不過“球面平均”在vision里面價值是很大的,它是對三維旋轉變換建立統計模型的基礎——我們再一次看到了求平均 值對于統計的重要意義。球面平均求的是“平均”的旋轉,如果對于一般的仿射變換(Affiine transform),“平均”的變換又怎么求呢?這是個open problem,留待大家思考。

            怎樣求期望

            說完從data求平均值,再說說從model得到期望(expectation)——這們學問就更博大了。雖然,期望的定義很簡單——求和或者積分就行了。不過,它的實際計算,對于很多實際模型是intractable的。

            概率論最早源于擲色子,我們的前輩數學家們為了破解求復雜模型求期望的問題,提出的方法就是擲色子。在學術上,美其名曰“蒙特卡羅方法”(Monte Carlo)。原理很簡單,不斷地擲色子來大量采樣,然后從采來的樣本求平均值來逼近模型的期望。

            擲色子是世界上最有學問的之一,正因為如此,我們對于“賭神”,“賭王”之類的人物崇拜猶如滔滔江水,因為它們擲色子擲得好。無數的統計學家把畢生經歷奉獻給擲色子(采樣)事業,并且做出偉大成就。關于采樣的專著和文獻,汗牛充棟。

            擲色子就這么難么?是的。據估算,即使對于一個復雜度不高的model,要得到一個可以接受的估計,所需的樣本量往往大得驚人,而且指數增 長。如果不掌握要領,你即使擲到宇宙末日,估計離一個靠譜的估計還遠著呢。采樣技術名目繁多,最流行的莫過于重要性采樣(importance sampling)和馬爾科夫鏈蒙特卡羅過程(MCMC)。具體就不多說了。



            posted on 2008-09-06 17:06 bneliao 閱讀(789) 評論(0)  編輯 收藏 引用 所屬分類: math
            <2025年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            常用鏈接

            留言簿

            隨筆檔案

            文章分類

            文章檔案

            BLOG連接

            D3D

            GAME

            搜索

            •  

            積分與排名

            • 積分 - 10978
            • 排名 - 1129

            最新評論

            无遮挡粉嫩小泬久久久久久久 | 99久久成人18免费网站| 亚洲精品蜜桃久久久久久| 久久青青草原亚洲av无码app| 久久99亚洲网美利坚合众国| 久久国产免费| 精品久久久久久久无码 | 久久精品成人免费国产片小草 | 久久久精品一区二区三区| 久久亚洲AV无码西西人体| 无码专区久久综合久中文字幕| 国产成人精品久久亚洲| 99久久精品免费看国产一区二区三区| 久久99精品综合国产首页| 久久受www免费人成_看片中文 | 91精品国产色综久久| 国产成人精品久久| 精品99久久aaa一级毛片| 久久精品免费一区二区| 国产精品免费久久久久影院| 99久久无色码中文字幕人妻| 久久综合九色综合欧美就去吻| 国产91久久精品一区二区| 亚洲美日韩Av中文字幕无码久久久妻妇 | 中文字幕日本人妻久久久免费 | 久久99精品久久久久久9蜜桃| 亚洲中文字幕久久精品无码APP| 久久本道综合久久伊人| 久久综合久久综合久久| 久久久久亚洲Av无码专| 亚洲伊人久久综合中文成人网| 国产高清美女一级a毛片久久w| 老色鬼久久亚洲AV综合| 中文字幕人妻色偷偷久久| 久久亚洲AV成人无码软件| 亚洲国产成人精品无码久久久久久综合| 久久免费小视频| 亚洲国产成人久久精品动漫| 91精品国产91久久综合| 成人国内精品久久久久影院| av午夜福利一片免费看久久|