97久久香蕉国产线看观看,91久久成人免费,久久综合久久综合九色http://www.shnenglu.com/bneliao/category/8199.htmlzh-cnMon, 09 Mar 2009 16:44:33 GMTMon, 09 Mar 2009 16:44:33 GMT60在數(shù)學(xué)的海洋中飄蕩zzhttp://www.shnenglu.com/bneliao/articles/75943.htmlbneliaobneliaoSun, 08 Mar 2009 16:00:00 GMThttp://www.shnenglu.com/bneliao/articles/75943.htmlhttp://www.shnenglu.com/bneliao/comments/75943.htmlhttp://www.shnenglu.com/bneliao/articles/75943.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/75943.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/75943.htmlhttp://dahuasky.spaces.live.com/blog/cns!1AB3BC993DB84FD7!305.entry

在過(guò)去的一年中,我一直在數(shù)學(xué)的海洋中游蕩,research進(jìn)展不多,對(duì)于數(shù)學(xué)世界的閱歷算是有了一些長(zhǎng)進(jìn)。
為什么要深入數(shù)學(xué)的世界

作為計(jì)算機(jī)的學(xué)生,我沒(méi)有任何企圖要成為一個(gè)數(shù)學(xué)家。我學(xué)習(xí)數(shù)學(xué)的目的,是要想爬上巨人的肩膀,希望站在更高的高度,能把我自己研究的東西看得更深廣一些。說(shuō)起來(lái),我在剛來(lái)這個(gè)學(xué)校的時(shí)候,并沒(méi)有預(yù)料到我將會(huì)有一個(gè)深入數(shù)學(xué)的旅程。我的導(dǎo)師最初希望我去做的題目,是對(duì)appearance和motion建立一個(gè)unified的model。這個(gè)題目在當(dāng)今Computer Vision中百花齊放的世界中并沒(méi)有任何特別的地方。事實(shí)上,使用各種Graphical Model把各種東西聯(lián)合在一起framework,在近年的論文中并不少見(jiàn)。

我不否認(rèn)現(xiàn)在廣泛流行的Graphical Model是對(duì)復(fù)雜現(xiàn)象建模的有力工具,但是,我認(rèn)為它不是panacea,并不能取代對(duì)于所研究的問(wèn)題的深入的鉆研。如果統(tǒng)計(jì)學(xué)習(xí)包治百病,那么很多“ 下游”的學(xué)科也就沒(méi)有存在的必要了。事實(shí)上,開(kāi)始的時(shí)候,我也是和Vision中很多人一樣,想著去做一個(gè)Graphical Model——我的導(dǎo)師指出,這樣的做法只是重復(fù)一些標(biāo)準(zhǔn)的流程,并沒(méi)有很大的價(jià)值。經(jīng)過(guò)很長(zhǎng)時(shí)間的反復(fù),另外一個(gè)路徑慢慢被確立下來(lái)——我們相信,一個(gè)圖像是通過(guò)大量“原子”的某種空間分布構(gòu)成的,原子群的運(yùn)動(dòng)形成了動(dòng)態(tài)的可視過(guò)程。微觀意義下的單個(gè)原子運(yùn)動(dòng),和宏觀意義下的整體分布的變換存在著深刻的聯(lián)系——這需要我們?nèi)グl(fā)掘。

在深入探索這個(gè)題目的過(guò)程中,遇到了很多很多的問(wèn)題,如何描述一個(gè)一般的運(yùn)動(dòng)過(guò)程,如何建立一個(gè)穩(wěn)定并且廣泛適用的原子表達(dá),如何刻畫(huà)微觀運(yùn)動(dòng)和宏觀分布變換的聯(lián)系,還有很多。在這個(gè)過(guò)程中,我發(fā)現(xiàn)了兩個(gè)事情:

    * 我原有的數(shù)學(xué)基礎(chǔ)已經(jīng)遠(yuǎn)遠(yuǎn)不能適應(yīng)我對(duì)這些問(wèn)題的深入研究。
    * 在數(shù)學(xué)中,有很多思想和工具,是非常適合解決這些問(wèn)題的,只是沒(méi)有被很多的應(yīng)用科學(xué)的研究者重視。

于是,我決心開(kāi)始深入數(shù)學(xué)這個(gè)浩瀚大海,希望在我再次走出來(lái)的時(shí)候,我已經(jīng)有了更強(qiáng)大的武器去面對(duì)這些問(wèn)題的挑戰(zhàn)。

我的游歷并沒(méi)有結(jié)束,我的視野相比于這個(gè)博大精深的世界的依舊顯得非常狹窄。在這里,我只是說(shuō)說(shuō),在我的眼中,數(shù)學(xué)如何一步步從初級(jí)向高級(jí)發(fā)展,更高級(jí)別的數(shù)學(xué)對(duì)于具體應(yīng)用究竟有何好處。

 
集合論:現(xiàn)代數(shù)學(xué)的共同基礎(chǔ)

現(xiàn)代數(shù)學(xué)有數(shù)不清的分支,但是,它們都有一個(gè)共同的基礎(chǔ)——集合論——因?yàn)樗瑪?shù)學(xué)這個(gè)龐大的家族有個(gè)共同的語(yǔ)言。集合論中有一些最基本的概念:集合 (set),關(guān)系(relation),函數(shù)(function),等價(jià)(equivalence),是在其它數(shù)學(xué)分支的語(yǔ)言中幾乎必然存在的。對(duì)于這些簡(jiǎn)單概念的理解,是進(jìn)一步學(xué)些別的數(shù)學(xué)的基礎(chǔ)。我相信,理工科大學(xué)生對(duì)于這些都不會(huì)陌生。

不過(guò),有一個(gè)很重要的東西就不見(jiàn)得那么家喻戶曉了——那就是“選擇公理”(Axiom of Choice)。這個(gè)公理的意思是“任意的一群非空集合,一定可以從每個(gè)集合中各拿出一個(gè)元素。”——似乎是顯然得不能再顯然的命題。不過(guò),這個(gè)貌似平常的公理卻能演繹出一些比較奇怪的結(jié)論,比如巴拿赫-塔斯基分球定理——“一個(gè)球,能分成五個(gè)部分,對(duì)它們進(jìn)行一系列剛性變換(平移旋轉(zhuǎn))后,能組合成兩個(gè)一樣大小的球”。正因?yàn)檫@些完全有悖常識(shí)的結(jié)論,導(dǎo)致數(shù)學(xué)界曾經(jīng)在相當(dāng)長(zhǎng)時(shí)間里對(duì)于是否接受它有著激烈爭(zhēng)論。現(xiàn)在,主流數(shù)學(xué)家對(duì)于它應(yīng)該是基本接受的,因?yàn)楹芏鄶?shù)學(xué)分支的重要定理都依賴于它。在我們后面要回說(shuō)到的學(xué)科里面,下面的定理依賴于選擇公理:

   1. 拓?fù)鋵W(xué):Baire Category Theorem
   2. 實(shí)分析(測(cè)度理論):Lebesgue 不可測(cè)集的存在性
   3. 泛函分析四個(gè)主要定理:Hahn-Banach Extension Theorem, Banach-Steinhaus Theorem (Uniform boundedness principle), Open Mapping Theorem, Closed Graph Theorem

在集合論的基礎(chǔ)上,現(xiàn)代數(shù)學(xué)有兩大家族:分析(Analysis)和代數(shù)(Algebra)。至于其它的,比如幾何和概率論,在古典數(shù)學(xué)時(shí)代,它們是和代數(shù)并列的,但是它們的現(xiàn)代版本則基本是建立在分析或者代數(shù)的基礎(chǔ)上,因此從現(xiàn)代意義說(shuō),它們和分析與代數(shù)并不是平行的關(guān)系。
 
分析:在極限基礎(chǔ)上建立的宏偉大廈
微積分:分析的古典時(shí)代——從牛頓到柯西

先說(shuō)說(shuō)分析(Analysis)吧,它是從微積分(Caculus)發(fā)展起來(lái)的——這也是有些微積分教材名字叫“數(shù)學(xué)分析”的原因。不過(guò),分析的范疇遠(yuǎn)不只是這些,我們?cè)诖髮W(xué)一年級(jí)學(xué)習(xí)的微積分只能算是對(duì)古典分析的入門。分析研究的對(duì)象很多,包括導(dǎo)數(shù)(derivatives),積分(integral),微分方程(differential equation),還有級(jí)數(shù)(infinite series)——這些基本的概念,在初等的微積分里面都有介紹。如果說(shuō)有一個(gè)思想貫穿其中,那就是極限——這是整個(gè)分析(不僅僅是微積分)的靈魂。

一個(gè)很多人都聽(tīng)說(shuō)過(guò)的故事,就是牛頓(Newton)和萊布尼茨(Leibniz)關(guān)于微積分發(fā)明權(quán)的爭(zhēng)論。事實(shí)上,在他們的時(shí)代,很多微積分的工具開(kāi)始運(yùn)用在科學(xué)和工程之中,但是,微積分的基礎(chǔ)并沒(méi)有真正建立。那個(gè)長(zhǎng)時(shí)間一直解釋不清楚的“無(wú)窮小量”的幽靈,困擾了數(shù)學(xué)界一百多年的時(shí)間——這就是“第二次數(shù)學(xué)危機(jī)”。直到柯西用數(shù)列極限的觀點(diǎn)重新建立了微積分的基本概念,這門學(xué)科才開(kāi)始有了一個(gè)比較堅(jiān)實(shí)的基礎(chǔ)。直到今天,整個(gè)分析的大廈還是建立在極限的基石之上。

柯西(Cauchy)為分析的發(fā)展提供了一種嚴(yán)密的語(yǔ)言,但是他并沒(méi)有解決微積分的全部問(wèn)題。在19世紀(jì)的時(shí)候,分析的世界仍然有著一些揮之不去的烏云。而其中最重要的一個(gè)沒(méi)有解決的是“函數(shù)是否可積的問(wèn)題”。我們?cè)诂F(xiàn)在的微積分課本中學(xué)到的那種通過(guò)“無(wú)限分割區(qū)間,取矩陣面積和的極限”的積分,是大約在1850年由黎曼(Riemann)提出的,叫做黎曼積分。但是,什么函數(shù)存在黎曼積分呢(黎曼可積)?數(shù)學(xué)家們很早就證明了,定義在閉區(qū)間內(nèi)的連續(xù)函數(shù)是黎曼可積的。可是,這樣的結(jié)果并不令人滿意,工程師們需要對(duì)分段連續(xù)函數(shù)的函數(shù)積分。
實(shí)分析:在實(shí)數(shù)理論和測(cè)度理論上建立起現(xiàn)代分析

在 19世紀(jì)中后期,不連續(xù)函數(shù)的可積性問(wèn)題一直是分析的重要課題。對(duì)于定義在閉區(qū)間上的黎曼積分的研究發(fā)現(xiàn),可積性的關(guān)鍵在于“不連續(xù)的點(diǎn)足夠少”。只有有限處不連續(xù)的函數(shù)是可積的,可是很多有數(shù)學(xué)家們構(gòu)造出很多在無(wú)限處不連續(xù)的可積函數(shù)。顯然,在衡量點(diǎn)集大小的時(shí)候,有限和無(wú)限并不是一種合適的標(biāo)準(zhǔn)。在探討“點(diǎn)集大小”這個(gè)問(wèn)題的過(guò)程中,數(shù)學(xué)家發(fā)現(xiàn)實(shí)數(shù)軸——這個(gè)他們?cè)?jīng)以為已經(jīng)充分理解的東西——有著許多他們沒(méi)有想到的特性。在極限思想的支持下,實(shí)數(shù)理論在這個(gè)時(shí)候被建立起來(lái),它的標(biāo)志是對(duì)實(shí)數(shù)完備性進(jìn)行刻畫(huà)的幾條等價(jià)的定理(確界定理,區(qū)間套定理,柯西收斂定理,Bolzano- Weierstrass Theorem和Heine-Borel Theorem等等)——這些定理明確表達(dá)出實(shí)數(shù)和有理數(shù)的根本區(qū)別:完備性(很不嚴(yán)格的說(shuō),就是對(duì)極限運(yùn)算封閉)。隨著對(duì)實(shí)數(shù)認(rèn)識(shí)的深入,如何測(cè)量“點(diǎn)集大小”的問(wèn)題也取得了突破,勒貝格創(chuàng)造性地把關(guān)于集合的代數(shù),和Outer content(就是“外測(cè)度”的一個(gè)雛形)的概念結(jié)合起來(lái),建立了測(cè)度理論(Measure Theory),并且進(jìn)一步建立了以測(cè)度為基礎(chǔ)的積分——勒貝格(Lebesgue Integral)。在這個(gè)新的積分概念的支持下,可積性問(wèn)題變得一目了然。

上面說(shuō)到的實(shí)數(shù)理論,測(cè)度理論和勒貝格積分,構(gòu)成了我們現(xiàn)在稱為實(shí)分析(Real Analysis)的數(shù)學(xué)分支,有些書(shū)也叫實(shí)變函數(shù)論。對(duì)于應(yīng)用科學(xué)來(lái)說(shuō),實(shí)分析似乎沒(méi)有古典微積分那么“實(shí)用”——很難直接基于它得到什么算法。而且,它要解決的某些“難題”——比如處處不連續(xù)的函數(shù),或者處處連續(xù)而處處不可微的函數(shù)——在工程師的眼中,并不現(xiàn)實(shí)。但是,我認(rèn)為,它并不是一種純數(shù)學(xué)概念游戲,它的現(xiàn)實(shí)意義在于為許多現(xiàn)代的應(yīng)用數(shù)學(xué)分支提供堅(jiān)實(shí)的基礎(chǔ)。下面,我僅僅列舉幾條它的用處:

   1. 黎曼可積的函數(shù)空間不是完備的,但是勒貝格可積的函數(shù)空間是完備的。簡(jiǎn)單的說(shuō),一個(gè)黎曼可積的函數(shù)列收斂到的那個(gè)函數(shù)不一定是黎曼可積的,但是勒貝格可積的函數(shù)列必定收斂到一個(gè)勒貝格可積的函數(shù)。在泛函分析,還有逼近理論中,經(jīng)常需要討論“函數(shù)的極限”,或者“函數(shù)的級(jí)數(shù)”,如果用黎曼積分的概念,這種討論幾乎不可想像。我們有時(shí)看一些paper中提到Lp函數(shù)空間,就是基于勒貝格積分。
   2. 勒貝格積分是傅立葉變換(這東西在工程中到處都是)的基礎(chǔ)。很多關(guān)于信號(hào)處理的初等教材,可能繞過(guò)了勒貝格積分,直接講點(diǎn)面對(duì)實(shí)用的東西而不談它的數(shù)學(xué)基礎(chǔ),但是,對(duì)于深層次的研究問(wèn)題——特別是希望在理論中能做一些工作——這并不是總能繞過(guò)去。
   3. 在下面,我們還會(huì)看到,測(cè)度理論是現(xiàn)代概率論的基礎(chǔ)。

拓?fù)鋵W(xué):分析從實(shí)數(shù)軸推廣到一般空間——現(xiàn)代分析的抽象基礎(chǔ)

隨著實(shí)數(shù)理論的建立,大家開(kāi)始把極限和連續(xù)推廣到更一般的地方的分析。事實(shí)上,很多基于實(shí)數(shù)的概念和定理并不是實(shí)數(shù)特有的。很多特性可以抽象出來(lái),推廣到更一般的空間里面。對(duì)于實(shí)數(shù)軸的推廣,促成了點(diǎn)集拓?fù)鋵W(xué)(Point-set Topology)的建立。很多原來(lái)只存在于實(shí)數(shù)中的概念,被提取出來(lái),進(jìn)行一般性的討論。在拓?fù)鋵W(xué)里面,有4個(gè)C構(gòu)成了它的核心:

   1. Closed set(閉集合)。在現(xiàn)代的拓?fù)鋵W(xué)的公理化體系中,開(kāi)集和閉集是最基本的概念。一切從此引申。這兩個(gè)概念是開(kāi)區(qū)間和閉區(qū)間的推廣,它們的根本地位,并不是一開(kāi)始就被認(rèn)識(shí)到的。經(jīng)過(guò)相當(dāng)長(zhǎng)的時(shí)間,人們才認(rèn)識(shí)到:開(kāi)集的概念是連續(xù)性的基礎(chǔ),而閉集對(duì)極限運(yùn)算封閉——而極限正是分析的根基。
   2. Continuous function (連續(xù)函數(shù))。連續(xù)函數(shù)在微積分里面有個(gè)用epsilon-delta語(yǔ)言給出的定義,在拓?fù)鋵W(xué)中它的定義是“開(kāi)集的原像是開(kāi)集的函數(shù)”。第二個(gè)定義和第一個(gè)是等價(jià)的,只是用更抽象的語(yǔ)言進(jìn)行了改寫(xiě)。我個(gè)人認(rèn)為,它的第三個(gè)(等價(jià))定義才從根本上揭示連續(xù)函數(shù)的本質(zhì)——“連續(xù)函數(shù)是保持極限運(yùn)算的函數(shù)” ——比如y是數(shù)列x1, x2, x3, … 的極限, 那么如果 f 是連續(xù)函數(shù),那么 f(y) 就是 f(x1), f(x2), f(x3), …的極限。連續(xù)函數(shù)的重要性,可以從別的分支學(xué)科中進(jìn)行類比。比如群論中,基礎(chǔ)的運(yùn)算是“乘法”,對(duì)于群,最重要的映射叫“同態(tài)映射”——保持“乘法”的映射。在分析中,基礎(chǔ)運(yùn)算是“極限”,因此連續(xù)函數(shù)在分析中的地位,和同態(tài)映射在代數(shù)中的地位是相當(dāng)?shù)摹?br>   3. Connected set (連通集合)。比它略為窄一點(diǎn)的概念叫(Path connected),就是集合中任意兩點(diǎn)都存在連續(xù)路徑相連——可能是一般人理解的概念。一般意義下的連通概念稍微抽象一些。在我看來(lái),連通性有兩個(gè)重要的用場(chǎng):一個(gè)是用于證明一般的中值定理(Intermediate Value Theorem),還有就是代數(shù)拓?fù)洌負(fù)淙赫摵屠钊赫撝杏懻摳救?Fundamental Group)的階。
   4. Compact set(緊集)。Compactness似乎在初等微積分里面沒(méi)有專門出現(xiàn),不過(guò)有幾條實(shí)數(shù)上的定理和它其實(shí)是有關(guān)系的。比如,“有界數(shù)列必然存在收斂子列”——用compactness的語(yǔ)言來(lái)說(shuō)就是——“實(shí)數(shù)空間中有界閉集是緊的”。它在拓?fù)鋵W(xué)中的一般定義是一個(gè)聽(tīng)上去比較抽象的東西——“緊集的任意開(kāi)覆蓋存在有限子覆蓋”。這個(gè)定義在討論拓?fù)鋵W(xué)的定理時(shí)很方便,它在很多時(shí)候能幫助實(shí)現(xiàn)從無(wú)限到有限的轉(zhuǎn)換。對(duì)于分析來(lái)說(shuō),用得更多的是它的另一種形式 ——“緊集中的數(shù)列必存在收斂子列”——它體現(xiàn)了分析中最重要的“極限”。Compactness在現(xiàn)代分析中運(yùn)用極廣,無(wú)法盡述。微積分中的兩個(gè)重要定理:極值定理(Extreme Value Theory),和一致收斂定理(Uniform Convergence Theorem)就可以借助它推廣到一般的形式。

從某種意義上說(shuō),點(diǎn)集拓?fù)鋵W(xué)可以看成是關(guān)于“極限”的一般理論,它抽象于實(shí)數(shù)理論,它的概念成為幾乎所有現(xiàn)代分析學(xué)科的通用語(yǔ)言,也是整個(gè)現(xiàn)代分析的根基所在。
微分幾何:流形上的分析——在拓?fù)淇臻g上引入微分結(jié)構(gòu)

拓?fù)鋵W(xué)把極限的概念推廣到一般的拓?fù)淇臻g,但這不是故事的結(jié)束,而僅僅是開(kāi)始。在微積分里面,極限之后我們有微分,求導(dǎo),積分。這些東西也可以推廣到拓?fù)淇臻g,在拓?fù)鋵W(xué)的基礎(chǔ)上建立起來(lái)——這就是微分幾何。從教學(xué)上說(shuō),微分幾何的教材,有兩種不同的類型,一種是建立在古典微機(jī)分的基礎(chǔ)上的“古典微分幾何”,主要是關(guān)于二維和三維空間中的一些幾何量的計(jì)算,比如曲率。還有一種是建立在現(xiàn)代拓?fù)鋵W(xué)的基礎(chǔ)上,這里姑且稱為“現(xiàn)代微分幾何”——它的核心概念就是“流形”(manifold)——就是在拓?fù)淇臻g的基礎(chǔ)上加了一套可以進(jìn)行微分運(yùn)算的結(jié)構(gòu)。現(xiàn)代微分幾何是一門非常豐富的學(xué)科。比如一般流形上的微分的定義就比傳統(tǒng)的微分豐富,我自己就見(jiàn)過(guò)三種從不同角度給出的等價(jià)定義——這一方面讓事情變得復(fù)雜一些,但是另外一個(gè)方面它給了同一個(gè)概念的不同理解,往往在解決問(wèn)題時(shí)會(huì)引出不同的思路。除了推廣微積分的概念以外,還引入了很多新概念:tangent space, cotangent space, push forward, pull back, fibre bundle, flow, immersion, submersion 等等。

近些年,流形在machine learning似乎相當(dāng)時(shí)髦。但是,坦率地說(shuō),要弄懂一些基本的流形算法,甚至“創(chuàng)造”一些流形算法,并不需要多少微分幾何的基礎(chǔ)。對(duì)我的研究來(lái)說(shuō),微分幾何最重要的應(yīng)用就是建立在它之上的另外一個(gè)分支:李群和李代數(shù)——這是數(shù)學(xué)中兩大家族分析和代數(shù)的一個(gè)漂亮的聯(lián)姻。分析和代數(shù)的另外一處重要的結(jié)合則是泛函分析,以及在其基礎(chǔ)上的調(diào)和分析。

 
代數(shù):一個(gè)抽象的世界
關(guān)于抽象代數(shù)

回過(guò)頭來(lái),再說(shuō)說(shuō)另一個(gè)大家族——代數(shù)。

如果說(shuō)古典微積分是分析的入門,那么現(xiàn)代代數(shù)的入門點(diǎn)則是兩個(gè)部分:線性代數(shù)(linear algebra)和基礎(chǔ)的抽象代數(shù)(abstract algebra)——據(jù)說(shuō)國(guó)內(nèi)一些教材稱之為近世代數(shù)。

代數(shù)——名稱上研究的似乎是數(shù),在我看來(lái),主要研究的是運(yùn)算規(guī)則。一門代數(shù),其實(shí)都是從某種具體的運(yùn)算體系中抽象出一些基本規(guī)則,建立一個(gè)公理體系,然后在這基礎(chǔ)上進(jìn)行研究。一個(gè)集合再加上一套運(yùn)算規(guī)則,就構(gòu)成一個(gè)代數(shù)結(jié)構(gòu)。在主要的代數(shù)結(jié)構(gòu)中,最簡(jiǎn)單的是群(Group)——它只有一種符合結(jié)合率的可逆運(yùn)算,通常叫“乘法”。如果,這種運(yùn)算也符合交換率,那么就叫阿貝爾群(Abelian Group)。如果有兩種運(yùn)算,一種叫加法,滿足交換率和結(jié)合率,一種叫乘法,滿足結(jié)合率,它們之間滿足分配率,這種豐富一點(diǎn)的結(jié)構(gòu)叫做環(huán)(Ring),如果環(huán)上的乘法滿足交換率,就叫可交換環(huán)(Commutative Ring)。如果,一個(gè)環(huán)的加法和乘法具有了所有的良好性質(zhì),那么就成為一個(gè)域(Field)。基于域,我們可以建立一種新的結(jié)構(gòu),能進(jìn)行加法和數(shù)乘,就構(gòu)成了線性代數(shù)(Linear algebra)。

代數(shù)的好處在于,它只關(guān)心運(yùn)算規(guī)則的演繹,而不管參與運(yùn)算的對(duì)象。只要定義恰當(dāng),完全可以讓一只貓乘一只狗得到一頭豬:-)。基于抽象運(yùn)算規(guī)則得到的所有定理完全可以運(yùn)用于上面說(shuō)的貓狗乘法。當(dāng)然,在實(shí)際運(yùn)用中,我們還是希望用它干點(diǎn)有意義的事情。學(xué)過(guò)抽象代數(shù)的都知道,基于幾條最簡(jiǎn)單的規(guī)則,比如結(jié)合律,就能導(dǎo)出非常多的重要結(jié)論——這些結(jié)論可以應(yīng)用到一切滿足這些簡(jiǎn)單規(guī)則的地方—— 這是代數(shù)的威力所在,我們不再需要為每一個(gè)具體領(lǐng)域重新建立這么多的定理。

抽象代數(shù)有在一些基礎(chǔ)定理的基礎(chǔ)上,進(jìn)一步的研究往往分為兩個(gè)流派:研究有限的離散代數(shù)結(jié)構(gòu)(比如有限群和有限域),這部分內(nèi)容通常用于數(shù)論,編碼,和整數(shù)方程這些地方;另外一個(gè)流派是研究連續(xù)的代數(shù)結(jié)構(gòu),通常和拓?fù)渑c分析聯(lián)系在一起(比如拓?fù)淙海钊海N以趯W(xué)習(xí)中的focus主要是后者。
線性代數(shù):“線性”的基礎(chǔ)地位

對(duì)于做Learning, vision, optimization或者statistics的人來(lái)說(shuō),接觸最多的莫過(guò)于線性代數(shù)——這也是我們?cè)诖髮W(xué)低年級(jí)就開(kāi)始學(xué)習(xí)的。線性代數(shù),包括建立在它基礎(chǔ)上的各種學(xué)科,最核心的兩個(gè)概念是向量空間和線性變換。線性變換在線性代數(shù)中的地位,和連續(xù)函數(shù)在分析中的地位,或者同態(tài)映射在群論中的地位是一樣的 ——它是保持基礎(chǔ)運(yùn)算(加法和數(shù)乘)的映射。

在learning中有這樣的一種傾向——鄙視線性算法,標(biāo)榜非線性。也許在很多場(chǎng)合下面,我們需要非線性來(lái)描述復(fù)雜的現(xiàn)實(shí)世界,但是無(wú)論什么時(shí)候,線性都是具有根本地位的。沒(méi)有線性的基礎(chǔ),就不可能存在所謂的非線性推廣。我們常用的非線性化的方法包括流形和kernelization,這兩者都需要在某個(gè)階段回歸線性。流形需要在每個(gè)局部建立和線性空間的映射,通過(guò)把許多局部線性空間連接起來(lái)形成非線性;而kernerlization則是通過(guò)置換內(nèi)積結(jié)構(gòu)把原線性空間“非線性”地映射到另外一個(gè)線性空間,再進(jìn)行線性空間中所能進(jìn)行的操作。而在分析領(lǐng)域,線性的運(yùn)算更是無(wú)處不在,微分,積分,傅立葉變換,拉普拉斯變換,還有統(tǒng)計(jì)中的均值,通通都是線性的。
泛函分析:從有限維向無(wú)限維邁進(jìn)

在大學(xué)中學(xué)習(xí)的線性代數(shù),它的簡(jiǎn)單主要因?yàn)樗窃谟邢蘧S空間進(jìn)行的,因?yàn)橛邢蓿覀儫o(wú)須借助于太多的分析手段。但是,有限維空間并不能有效地表達(dá)我們的世界 ——最重要的,函數(shù)構(gòu)成了線性空間,可是它是無(wú)限維的。對(duì)函數(shù)進(jìn)行的最重要的運(yùn)算都在無(wú)限維空間進(jìn)行,比如傅立葉變換和小波分析。這表明了,為了研究函數(shù)(或者說(shuō)連續(xù)信號(hào)),我們需要打破有限維空間的束縛,走入無(wú)限維的函數(shù)空間——這里面的第一步,就是泛函分析。

泛函分析 (Functional Analysis)是研究的是一般的線性空間,包括有限維和無(wú)限維,但是很多東西在有限維下顯得很trivial,真正的困難往往在無(wú)限維的時(shí)候出現(xiàn)。在泛函分析中,空間中的元素還是叫向量,但是線性變換通常會(huì)叫作“算子”(operator)。除了加法和數(shù)乘,這里進(jìn)一步加入了一些運(yùn)算,比如加入范數(shù)去表達(dá)“向量的長(zhǎng)度”或者“元素的距離”,這樣的空間叫做“賦范線性空間”(normed space),再進(jìn)一步的,可以加入內(nèi)積運(yùn)算,這樣的空間叫“內(nèi)積空間”(Inner product space)。

大家發(fā)現(xiàn),當(dāng)進(jìn)入無(wú)限維的時(shí)間時(shí),很多老的觀念不再適用了,一切都需要重新審視。

   1. 所有的有限維空間都是完備的(柯西序列收斂),很多無(wú)限維空間卻是不完備的(比如閉區(qū)間上的連續(xù)函數(shù))。在這里,完備的空間有特殊的名稱:完備的賦范空間叫巴拿赫空間(Banach space),完備的內(nèi)積空間叫希爾伯特空間(Hilbert space)。
   2. 在有限維空間中空間和它的對(duì)偶空間的是完全同構(gòu)的,而在無(wú)限維空間中,它們存在微妙的差別。
   3. 在有限維空間中,所有線性變換(矩陣)都是有界變換,而在無(wú)限維,很多算子是無(wú)界的(unbounded),最重要的一個(gè)例子是給函數(shù)求導(dǎo)。
   4. 在有限維空間中,一切有界閉集都是緊的,比如單位球。而在所有的無(wú)限維空間中,單位球都不是緊的——也就是說(shuō),可以在單位球內(nèi)撒入無(wú)限個(gè)點(diǎn),而不出現(xiàn)一個(gè)極限點(diǎn)。
   5. 在有限維空間中,線性變換(矩陣)的譜相當(dāng)于全部的特征值,在無(wú)限維空間中,算子的譜的結(jié)構(gòu)比這個(gè)復(fù)雜得多,除了特征值組成的點(diǎn)譜(point spectrum),還有approximate point spectrum和residual spectrum。雖然復(fù)雜,但是,也更為有趣。由此形成了一個(gè)相當(dāng)豐富的分支——算子譜論(Spectrum theory)。
   6. 在有限維空間中,任何一點(diǎn)對(duì)任何一個(gè)子空間總存在投影,而在無(wú)限維空間中,這就不一定了,具有這種良好特性的子空間有個(gè)專門的名稱切比雪夫空間 (Chebyshev space)。這個(gè)概念是現(xiàn)代逼近理論的基礎(chǔ)(approximation theory)。函數(shù)空間的逼近理論在Learning中應(yīng)該有著非常重要的作用,但是現(xiàn)在看到的運(yùn)用現(xiàn)代逼近理論的文章并不多。

繼續(xù)往前:巴拿赫代數(shù),調(diào)和分析,和李代數(shù)

基本的泛函分析繼續(xù)往前走,有兩個(gè)重要的方向。第一個(gè)是巴拿赫代數(shù)(Banach Algebra),它就是在巴拿赫空間(完備的內(nèi)積空間)的基礎(chǔ)上引入乘法(這不同于數(shù)乘)。比如矩陣——它除了加法和數(shù)乘,還能做乘法——這就構(gòu)成了一個(gè)巴拿赫代數(shù)。除此以外,值域完備的有界算子,平方可積函數(shù),都能構(gòu)成巴拿赫代數(shù)。巴拿赫代數(shù)是泛函分析的抽象,很多對(duì)于有界算子導(dǎo)出的結(jié)論,還有算子譜論中的許多定理,它們不僅僅對(duì)算子適用,它們其實(shí)可以從一般的巴拿赫代數(shù)中得到,并且應(yīng)用在算子以外的地方。巴拿赫代數(shù)讓你站在更高的高度看待泛函分析中的結(jié)論,但是,我對(duì)它在實(shí)際問(wèn)題中能比泛函分析能多帶來(lái)什么東西還有待思考。

最能把泛函分析和實(shí)際問(wèn)題在一起的另一個(gè)重要方向是調(diào)和分析(Harmonic Analysis)。我在這里列舉它的兩個(gè)個(gè)子領(lǐng)域,傅立葉分析和小波分析,我想這已經(jīng)能說(shuō)明它的實(shí)際價(jià)值。它研究的最核心的問(wèn)題就是怎么用基函數(shù)去逼近和構(gòu)造一個(gè)函數(shù)。它研究的是函數(shù)空間的問(wèn)題,不可避免的必須以泛函分析為基礎(chǔ)。除了傅立葉和小波,調(diào)和分析還研究一些很有用的函數(shù)空間,比如Hardy space,Sobolev space,這些空間有很多很好的性質(zhì),在工程中和物理學(xué)中都有很重要的應(yīng)用。對(duì)于vision來(lái)說(shuō),調(diào)和分析在信號(hào)的表達(dá),圖像的構(gòu)造,都是非常有用的工具。

當(dāng)分析和線性代數(shù)走在一起,產(chǎn)生了泛函分析和調(diào)和分析;當(dāng)分析和群論走在一起,我們就有了李群(Lie Group)和李代數(shù)(Lie Algebra)。它們給連續(xù)群上的元素賦予了代數(shù)結(jié)構(gòu)。我一直認(rèn)為這是一門非常漂亮的數(shù)學(xué):在一個(gè)體系中,拓?fù)洌⒎趾痛鷶?shù)走到了一起。在一定條件下,通過(guò)李群和李代數(shù)的聯(lián)系,它讓幾何變換的結(jié)合變成了線性運(yùn)算,讓子群化為線性子空間,這樣就為L(zhǎng)earning中許多重要的模型和算法的引入到對(duì)幾何運(yùn)動(dòng)的建模創(chuàng)造了必要的條件。因此,我們相信李群和李代數(shù)對(duì)于vision有著重要意義,只不過(guò)學(xué)習(xí)它的道路可能會(huì)很艱辛,在它之前需要學(xué)習(xí)很多別的數(shù)學(xué)。

 
現(xiàn)代概率論:在現(xiàn)代分析基礎(chǔ)上再生 

最后,再簡(jiǎn)單說(shuō)說(shuō)很多Learning的研究者特別關(guān)心的數(shù)學(xué)分支:概率論。自從Kolmogorov在上世紀(jì)30年代把測(cè)度引入概率論以來(lái),測(cè)度理論就成為現(xiàn)代概率論的基礎(chǔ)。在這里,概率定義為測(cè)度,隨機(jī)變量定義為可測(cè)函數(shù),條件隨機(jī)變量定義為可測(cè)函數(shù)在某個(gè)函數(shù)空間的投影,均值則是可測(cè)函數(shù)對(duì)于概率測(cè)度的積分。值得注意的是,很多的現(xiàn)代觀點(diǎn),開(kāi)始以泛函分析的思路看待概率論的基礎(chǔ)概念,隨機(jī)變量構(gòu)成了一個(gè)向量空間,而帶符號(hào)概率測(cè)度則構(gòu)成了它的對(duì)偶空間,其中一方施加于對(duì)方就形成均值。角度雖然不一樣,不過(guò)這兩種方式殊途同歸,形成的基礎(chǔ)是等價(jià)的。

在現(xiàn)代概率論的基礎(chǔ)上,許多傳統(tǒng)的分支得到了極大豐富,最有代表性的包括鞅論(Martingale)——由研究賭博引發(fā)的理論,現(xiàn)在主要用于金融(這里可以看出賭博和金融的理論聯(lián)系,:-P),布朗運(yùn)動(dòng)(Brownian Motion)——連續(xù)隨機(jī)過(guò)程的基礎(chǔ),以及在此基礎(chǔ)上建立的隨機(jī)分析(Stochastic Calculus),包括隨機(jī)積分(對(duì)隨機(jī)過(guò)程的路徑進(jìn)行積分,其中比較有代表性的叫伊藤積分(Ito Integral)),和隨機(jī)微分方程。對(duì)于連續(xù)幾何運(yùn)用建立概率模型以及對(duì)分布的變換的研究離不開(kāi)這些方面的知識(shí)。

 

終于寫(xiě)完了——也謝謝你把這么長(zhǎng)的文章看完,希望其中的一些內(nèi)容對(duì)你是有幫助的。


]]>
zz二十世紀(jì)的數(shù)學(xué) Michael Atiyahhttp://www.shnenglu.com/bneliao/articles/61264.htmlbneliaobneliaoSun, 07 Sep 2008 15:07:00 GMThttp://www.shnenglu.com/bneliao/articles/61264.htmlhttp://www.shnenglu.com/bneliao/comments/61264.htmlhttp://www.shnenglu.com/bneliao/articles/61264.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61264.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61264.html二十世紀(jì)的數(shù)學(xué) Michael Atiyah

謝謝邀請(qǐng)我來(lái)這里參加這個(gè)活動(dòng).當(dāng)然,如果有人想談?wù)撘粋€(gè)世紀(jì)的終結(jié)以及下一個(gè)世紀(jì)的開(kāi)始,那么他有兩個(gè)具有相當(dāng)難度的選擇:一個(gè)是回顧過(guò)去百年的數(shù)學(xué);另一個(gè)是對(duì)未來(lái)百年數(shù)學(xué)發(fā)展的預(yù)測(cè),我選擇了前面這個(gè)比較困難的任務(wù),任何人都可以預(yù)測(cè)未來(lái)而且我們并不能判定是對(duì)還是錯(cuò).然而對(duì)過(guò)去的任何評(píng)述,每個(gè)人都可以提出異議.

 我在這里所講的是我個(gè)人的觀點(diǎn).這個(gè)報(bào)告不可能包含所有內(nèi)容,特別是,有一些重要的內(nèi)容我不準(zhǔn)備涉及,一部分是因?yàn)槲也皇悄切┓矫娴膶<遥徊糠忠彩浅鲇谒鼈円呀?jīng)在其他地方被評(píng)述過(guò)了.例如,我不會(huì)去談?wù)撃切┌l(fā)生在邏輯與計(jì)算領(lǐng)域內(nèi)的著名事件,這些事件往往是與像Hilbert,Godel,Turing 這些偉大的名字相關(guān)的,除了數(shù)學(xué)在基礎(chǔ)物理中的應(yīng)用之外,我也不會(huì)談?wù)撎鄶?shù)學(xué)的其他應(yīng)用,這是因?yàn)閿?shù)學(xué)的應(yīng)用太廣泛了,而且這需要專門的論述.每一個(gè)方面都需要一個(gè)專門的報(bào)告.也許大家在這次會(huì)議的其他報(bào)告中會(huì)聽(tīng)到很多關(guān)于這些內(nèi)容的演講.另外,試著羅列一些定理,甚至是列出在過(guò)去一百年的著名數(shù)學(xué)家的名字也是毫無(wú)意義的,那簡(jiǎn)直是在做枯燥的練習(xí).所以,代替它們的是,我試著選擇一些我認(rèn)為在很多方面都是很重要的主題來(lái)討論并且強(qiáng)調(diào)圍繞這些主題所發(fā)生的事情.

  
  首先我有一個(gè)一般性的說(shuō)明.世紀(jì)是一個(gè)大約的數(shù)字概念.我們不會(huì)真地認(rèn)為在過(guò)整整一百年的時(shí)候,有些事情會(huì)突然停下來(lái),再重新開(kāi)始,所以當(dāng)我描述二十世紀(jì)的數(shù)學(xué)時(shí),有些內(nèi)容實(shí)際上可能是跨世紀(jì)的,如果某件事件發(fā)生在十九世紀(jì)九十年代,并持續(xù)到二十世紀(jì)初,我將不去計(jì)較這種時(shí)間方面的細(xì)節(jié).我所做的就象一個(gè)天文學(xué)家,工作在一個(gè)近似的數(shù)字環(huán)境中.實(shí)際上,許多東西始于十九世紀(jì),只不過(guò)在二十世紀(jì)才碩果累累.

  

  這個(gè)報(bào)告的難點(diǎn)之一是很難把我們自己放回到1900年時(shí)作為一位數(shù)學(xué)家的位置上,這是因?yàn)樯蟼€(gè)世紀(jì)的數(shù)學(xué)有非常多的內(nèi)容已經(jīng)被我們的文化和我們自己吸收掉了.難以想象人們不用我們的術(shù)語(yǔ)來(lái)思考的那個(gè)時(shí)代是什么樣子的.實(shí)際上,如果現(xiàn)在有人在數(shù)學(xué)上有一個(gè)真正重要的發(fā)現(xiàn),其后他也一定會(huì)與之一起被忽略掉了!他會(huì)完全地被融入到背景之中,于是為了能夠回顧過(guò)去,我們必須努力去想象在不同時(shí)代,人們用不同方式思考問(wèn)題時(shí)的情景.



   從局部到整體

  

  作為開(kāi)始,我準(zhǔn)備列一些主題并且圍繞它們來(lái)討論.我談?wù)摰牡谝粋€(gè)主題概括地講,就是被大家稱為從局部到整體的轉(zhuǎn)變.在古典時(shí)期,人們大體上已經(jīng)研究了在小范圍內(nèi),使用局部坐標(biāo)等等來(lái)研究事物.在這個(gè)世紀(jì),重點(diǎn)已經(jīng)轉(zhuǎn)移到試圖了解事物整體和大范圍的性質(zhì).由于整體性質(zhì)更加難以研究,所以大多只能有定性的結(jié)果,這時(shí)拓?fù)涞乃枷刖妥兊梅浅V匾耍荘oincaré,他不僅為拓?fù)鋵W(xué)發(fā)展作出先驅(qū)性的貢獻(xiàn),而且也預(yù)言拓?fù)鋵W(xué)將成為二十世紀(jì)數(shù)學(xué)的一個(gè)重要的組成部分,順便讓我提一下,給出一系列著名問(wèn)題的Hilbert并沒(méi)有意識(shí)到這一點(diǎn).拓?fù)鋵W(xué)很難在他的那些問(wèn)題中找到具體體現(xiàn).但是對(duì)Poincaré而言,他相當(dāng)清楚地看出拓?fù)鋵W(xué)將成為一個(gè)重要的內(nèi)容.

  

  讓我試著列一些領(lǐng)域,然后大家就能知道我在想什么了.例如,考慮一下復(fù)分析(也被稱為“函數(shù)論”),這在十九世紀(jì)是數(shù)學(xué)的中心,也是象 Weierstrass這樣偉大人物工作的中心.對(duì)于他們而言,一個(gè)函數(shù)就是一個(gè)復(fù)變量的函數(shù);對(duì)于Weierstrass而言,一個(gè)函數(shù)就是一個(gè)冪級(jí)數(shù).它們是一些可以用于寫(xiě)下來(lái),并且可以明確描繪的東西或者是一些公式.函數(shù)是一些公式:它們是明確可以用顯式寫(xiě)下來(lái)的.然而接下來(lái) Abe1,Riemann和其后許多人的工作使我們遠(yuǎn)離了這些,以至于函數(shù)變得可以不用明確的公式來(lái)定義,而更多地是通過(guò)它們的整體性質(zhì)來(lái)定義:通過(guò)它們的奇異點(diǎn)的分布,通過(guò)它們的定義域位置,通過(guò)它們?nèi)≈捣秶@些整體性質(zhì)正是一個(gè)特定函數(shù)與眾不同的特性.局部展開(kāi)只是看待它們的一種方式.

  

  一個(gè)類似的事情發(fā)生在微分方程中,最初,解一個(gè)微分方程,人們需要尋找一個(gè)明確的局部解!是一些可以寫(xiě)下來(lái)的東西.隨著事物的發(fā)展,解不必是一個(gè)顯函數(shù),人們不一定必須用好的公式來(lái)描述它們.解的奇異性是真正決定其整體性質(zhì)的東西.與發(fā)生在復(fù)分析中的一切相比,這種精神是多么的類似,只不過(guò)在細(xì)節(jié)上有些不同罷了.

  

  在微分幾何中,Gauss和其他人的經(jīng)典工作描述了小片的空間,小塊的曲率以及用來(lái)描述局部幾何的局部方程.只要人們想要了解曲面的整體圖象以及伴隨它們的拓?fù)鋾r(shí),從這些經(jīng)典結(jié)果到大范圍的轉(zhuǎn)變就是很自然的了.當(dāng)人們從小范圍到大范圍時(shí),最有意義的性質(zhì)就是拓?fù)涞男再|(zhì).

  

  數(shù)論也有一個(gè)類似的發(fā)展,盡管它并不是很明顯地適用于這一框架.?dāng)?shù)論學(xué)家們是這樣來(lái)區(qū)分他們稱之為“局部理論”和“整體理論”的:前者是當(dāng)他們討論一個(gè)單個(gè)的素?cái)?shù),一次一個(gè)素?cái)?shù),以及有限個(gè)素?cái)?shù)時(shí);后者是當(dāng)他們同時(shí)討論全部素?cái)?shù)時(shí).這種素?cái)?shù)和點(diǎn)之間,局部和整體之間的類似性在數(shù)論發(fā)展過(guò)程中起了很重要的作用,并且那些在拓?fù)鋵W(xué)發(fā)展中產(chǎn)生的思想深深地影響了數(shù)論.

  

  當(dāng)然這種情況也發(fā)生在物理學(xué)中,經(jīng)典物理涉及局部理論,這時(shí)我們寫(xiě)下可以完全描述小范圍性質(zhì)的微分方程,接下來(lái)我們就必須研究一個(gè)物理系統(tǒng)的大范圍性質(zhì).物理學(xué)涉及的全部?jī)?nèi)容就是當(dāng)我們從小范圍出發(fā)時(shí),我們可以知道在大范圍內(nèi)正在發(fā)生什么,可以預(yù)計(jì)將要發(fā)生什么,并且沿著這些結(jié)論前進(jìn).

  


   維數(shù)的增加

  

  我的第二個(gè)主題有些不同,我稱之為維數(shù)的增加.我們?cè)俅螐慕?jīng)典的復(fù)變函數(shù)理論開(kāi)始:經(jīng)典復(fù)變函數(shù)論主要是詳細(xì)討論一個(gè)復(fù)變量理論并加以精煉.推廣到兩個(gè)或者更多個(gè)變量基本上發(fā)生在本世紀(jì),并且是發(fā)生在有新現(xiàn)象出現(xiàn)的領(lǐng)域內(nèi).不是所有的現(xiàn)象都與一個(gè)變量的情形相同,這里有完全新的特性出現(xiàn),并且n個(gè)變量的理論的研究越來(lái)越占有統(tǒng)治地位,這也是本世紀(jì)主要成就之一.

  

  另一方面,過(guò)去的微分幾何學(xué)家主要研究曲線和曲面,我們現(xiàn)在研究n維流形的幾何,大家仔細(xì)想一想,就能意識(shí)到這是一個(gè)重要的轉(zhuǎn)變.在早期,曲線和曲面是那些人們能真正在空間里看到的東西.而高維則有一點(diǎn)點(diǎn)虛構(gòu)的成分,在其中人們可以通過(guò)數(shù)學(xué)思維來(lái)想象,但當(dāng)時(shí)人們也許沒(méi)有認(rèn)真對(duì)待它們.認(rèn)真對(duì)待它們并且用同樣重視程度來(lái)研究它們的這種思想實(shí)際上是二十世紀(jì)的產(chǎn)物.同樣地,也沒(méi)有明顯的證據(jù)表明我們十九世紀(jì)的先驅(qū)者們思考過(guò)函數(shù)個(gè)數(shù)的增加,研究不單單一個(gè)而是幾個(gè)函數(shù),或者是向量值函數(shù)(vector-valued function).所以我們看到這里有一個(gè)獨(dú)立和非獨(dú)立變量個(gè)數(shù)增加的問(wèn)題.

  

  線性代數(shù)總是涉及多個(gè)變量,但它的維數(shù)的增加更具有戲劇性,它的增加是從有限維到無(wú)窮維,從線性空間到有無(wú)窮個(gè)變量的Hilbert空間.當(dāng)然這就涉及到了分析,在多個(gè)變量的函數(shù)之后,我們就有函數(shù)的函數(shù),即泛函.它們是函數(shù)空間上的函數(shù).它們本質(zhì)上有無(wú)窮多個(gè)變量,這就是我們稱為變分學(xué)的理論.一個(gè)類似的事情發(fā)生在一般(非線性)函數(shù)理論的發(fā)展中.這是一個(gè)古老的課題,但真正取得卓越的成果是在二十世紀(jì).這就是我談的第二個(gè)主題.

  

  

   從交換到非交換

  

  第三個(gè)主題是從交換到非交換的轉(zhuǎn)變.這可能是二十世紀(jì)數(shù)學(xué),特別是代數(shù)學(xué)的最主要的特征之一.代數(shù)的非交換方面已經(jīng)極其重要,當(dāng)然,它源自于十九世紀(jì).它有幾個(gè)不同的起源.Hamilton在四元數(shù)方面的工作可能是最令人驚嘆的,并且有巨大的影響,實(shí)際上這是受處理物理問(wèn)題時(shí)所采用的思想所啟發(fā).還有 Grassmann在外代數(shù)方面的工作,這是另一個(gè)代數(shù)體系,現(xiàn)在已經(jīng)被融入我們的微分形式理論中.當(dāng)然,還有Cayley以線性代數(shù)為基礎(chǔ)的矩陣方面的工作和Galois在群論方面的工作等.

  

  所有這些都是以不同的方式形成了把非交換乘法引入代數(shù)理論的基石,我形象地把它們說(shuō)成是二十世紀(jì)代數(shù)機(jī)器賴以生存的“面包和黃油”.我們現(xiàn)在可以不去思考這些,但在十九世紀(jì),以上所有例子都以各自不同的方式取得了重大的突破,當(dāng)然,這些思想在不同的領(lǐng)域內(nèi)得到了驚人的發(fā)展.矩陣和非交換乘法在物理中的應(yīng)用產(chǎn)生了量子理論.Heisenberg對(duì)易關(guān)系是非交換代數(shù)在物理中的一個(gè)最重要的應(yīng)用例子,以至后來(lái)被von Neumann推廣到他的算子代數(shù)理論中.

  

   群論也是在二十世紀(jì)占重要位量的理論,我稍后再回來(lái)談它.

  


  

   從線性到非線性

  

   我的下一個(gè)主題是從線性到非線性的轉(zhuǎn)變.古典數(shù)學(xué)的大部分或者基本上是線性的,或者即使不是很精確的線性,也是那種可以通過(guò)某些擾動(dòng)展開(kāi)來(lái)研究的近似線性,真正的非線性現(xiàn)象的處理是非常困難的,并且只是在本世紀(jì),才在很大的范圍內(nèi)對(duì)其進(jìn)行了真正的研究.

  

  我們從幾何開(kāi)始談起:Euclid幾何,平面的幾何,空間的幾何,直線的幾何,所有這一切都是線性的.而從非歐幾何的各個(gè)不同階段到Riemann的更一般的幾何,所討論的基本上是非線性的.在微分方程中,真正關(guān)于非線性現(xiàn)象的研究已經(jīng)處理了眾多我們通過(guò)經(jīng)典方法所看不到的新現(xiàn)象.在這里我只舉兩個(gè)例子,孤立子和混沌,這是微分方程理論兩個(gè)非常不同的方面,在本世紀(jì)已經(jīng)成為極度重要和非常著名的研究課題了.它們代表不同的極端.孤立子代表非線性微分方程的無(wú)法預(yù)料的有組織的行為,而混沌代表的是無(wú)法預(yù)料的無(wú)組織的行為(disorganized behavior).這兩者出現(xiàn)在不同領(lǐng)域,都是非常有趣和重要的,但它們基本土都是非線性現(xiàn)象.我們同樣可以將關(guān)于孤立子的某些工作的早期歷史追溯到十九世紀(jì)下葉,但那只是很少的一部分.

  

  當(dāng)然,在物理學(xué),Maxwell方程(電磁學(xué)的基本方程)是線性偏微分方程.與之對(duì)應(yīng)的是著名的Yang-Mills方程,它們是非線性方程并被假定用來(lái)調(diào)控與物質(zhì)結(jié)構(gòu)有關(guān)的力.這些方程之所以是非線性的,是因?yàn)閅ang-Mills方程本質(zhì)上是Maxwell方程的矩陣體現(xiàn),并且由矩陣不可交換這一事實(shí)導(dǎo)致方程中出現(xiàn)非線性項(xiàng).于是在這里我們看到了一個(gè)非線性性與非交換性之間的有趣的聯(lián)系.非交換性產(chǎn)生一特殊的非線性性,這的確是很有意思和很重要的.

  

  

  

   幾何與代數(shù)

  至此我談的是一些一般性的主題,現(xiàn)在我想談?wù)撘幌聰?shù)學(xué)中的一個(gè)二分叉現(xiàn)象,它來(lái)回?fù)u擺卻始終伴隨著我們,這就給了我一個(gè)機(jī)會(huì)來(lái)做一些哲學(xué)上的思索和說(shuō)明.我指的是幾何和代數(shù)之間的二分法,幾何和代數(shù)是數(shù)學(xué)的兩個(gè)形式支柱,并且都有悠久的歷史.幾何學(xué)可以追溯到古希臘甚至更早的時(shí)期;代數(shù)學(xué)則源于古阿拉伯人和古印度人.所以,它們都已經(jīng)成為數(shù)學(xué)的基礎(chǔ),但它們之間有一種令人感到不太自然的關(guān)系.

  

  讓我首先由這個(gè)問(wèn)題的歷史開(kāi)始.Euc1id幾何是數(shù)學(xué)理論中最早的一個(gè)例子,直到Descartes在我們現(xiàn)在稱為的笛卡兒平面中引入代數(shù)坐標(biāo)之前,它一直是純幾何的.Descartes的做法是一種將幾何思考化為代數(shù)運(yùn)算的嘗試.從代數(shù)學(xué)家們的角度來(lái)講,這當(dāng)然是對(duì)幾何學(xué)的一個(gè)重大突破或者說(shuō)一次重大的沖擊,如果我們來(lái)比較Newton和Leibniz在分析方面的工作,我們會(huì)發(fā)現(xiàn)他們屬于不同的傳統(tǒng),Newton基本上是一個(gè)幾何學(xué)家而 Le1bniz基本土是一個(gè)代數(shù)學(xué)家,這其中有著很深刻的道理.對(duì)于Newton而言,幾何學(xué),或者是由他發(fā)展起來(lái)的微積分學(xué),都是用來(lái)描述自然規(guī)律的數(shù)學(xué)嘗試.他關(guān)心的是在很廣泛意義下的物理,以及幾何世界中的物理.在他看來(lái),如果有人想了解事物,他就得用物理世界的觀點(diǎn)來(lái)思考它,用幾何圖象的觀點(diǎn)來(lái)看待它.當(dāng)他發(fā)展微積分的時(shí)候,他想要發(fā)展的是微積分的一種能盡可能貼近隱藏在其后的物理內(nèi)蘊(yùn)的表現(xiàn)形式.所以他用的是幾何論證,因?yàn)檫@樣可以與實(shí)際意義保持密切關(guān)系,另一方面,Leibniz有一個(gè)目標(biāo),一個(gè)雄心勃勃的目標(biāo),那就是形式化整個(gè)數(shù)學(xué),將之變成一個(gè)龐大的代數(shù)機(jī)器.這與Newton的途徑截然不同,并且二者有很多不同的記號(hào).正如我們所知道的,在Newton和Leibniz之間的這場(chǎng)大爭(zhēng)論中,Leibniz的記號(hào)最后得勝.我們現(xiàn)在還沿用他的記號(hào)來(lái)寫(xiě)偏導(dǎo)數(shù).Newton的精神尚在,但被人們埋葬了很長(zhǎng)時(shí)間.

  

  在十九世紀(jì)末期,也就是一百年前,Poincaré和Hilbert是兩個(gè)主要人物.我在前面已經(jīng)提到過(guò)他們了,并且可以粗略地講,他們分別是 Newton和Leibniz的傳人.Poincaré的思想更多的是幾何和拓?fù)涞木瘢眠@些思想作為他的基本洞察工具.Hilbert更多的是一個(gè)形式主義者,他要的是公理化,形式化,并且要給出嚴(yán)格的,形式的描述.雖然任何一個(gè)偉大的數(shù)學(xué)家都不能輕易地被歸到哪一類中去,但是,很清楚地,他們屬于不同的傳統(tǒng).

  

  當(dāng)準(zhǔn)備這個(gè)報(bào)告的時(shí)候,我想我應(yīng)該寫(xiě)下我們目前這一代中能夠繼承這些傳統(tǒng)的具有代表性的人的名字.談?wù)撨€健在的人是十分困難的——誰(shuí)該放在這張名單上呢?接著我又暗自思忖:有誰(shuí)會(huì)介意被放在這么一張著名的名單的哪一邊呢?于是我選擇了兩個(gè)名字Arnold Bourbaki,前者是Poincaré- Newton傳統(tǒng)的繼承人,而后者,我認(rèn)為,是Hilbert最著名的接班人.Arnold毫不含糊地認(rèn)為:他的力學(xué)和物理的觀點(diǎn)基本上是幾何的,是源自于Newton的;以為存在處于二者之間的東西,除了象Riemann(他確實(shí)跟兩者都有偏離)等少數(shù)人之外,都是一種誤解.Bourbaki努力繼續(xù) Hilbert的形式化的研究,將數(shù)學(xué)公理化和形式化推向了一個(gè)令人矚目的范圍并取得了一些成功.每一種觀點(diǎn)都有它的優(yōu)點(diǎn),但是它們之間很難調(diào)和.

  

  讓我來(lái)解釋一下我自己是如何看待幾何和代數(shù)之間的不同.幾何學(xué)當(dāng)然講的是空間,這是毫無(wú)疑問(wèn)的.如果我面對(duì)這間房間里的聽(tīng)眾,我可以在一秒中內(nèi)或者是一微秒內(nèi)看到很多,接收到大量的信息,當(dāng)然這不是一件偶然的事件.我們大腦的構(gòu)造與視覺(jué)有著極其重要的關(guān)系.我從一些從事神經(jīng)生理學(xué)的朋友那里了解到,視覺(jué)占用了大腦皮層的百分之八十或九十.在大腦中大約有十七個(gè)中樞,每一個(gè)中樞專門用來(lái)負(fù)責(zé)視覺(jué)活動(dòng)的不同部分:有些部分涉及的是垂直方向的,有些部分與水平方向有關(guān),有些部分是關(guān)于色彩和透視的,最后有些部分涉及的是所見(jiàn)事物的具體含義和解說(shuō).理解并感知我們所看到的這個(gè)世界是我們?nèi)祟惏l(fā)展進(jìn)化的一個(gè)非常重要的部分.因此空間直覺(jué)(spatial intuition)或者空間知覺(jué)(spatial perception)是一種非常強(qiáng)有力的工具,也是幾何學(xué)在數(shù)學(xué)上占有如此重要位置的原因,它不僅僅對(duì)那些明顯具有幾何性質(zhì)的事物可以使用,甚至對(duì)那些沒(méi)有明顯幾何性質(zhì)的事物也可以使用.我們努力將它們歸結(jié)為幾何形式,因?yàn)檫@樣可以讓我們使用我們的直覺(jué).我們的直覺(jué)是我們最有力的武器.特別是在向?qū)W生或是同事講解一種數(shù)學(xué)時(shí)可以看得很清楚.當(dāng)你講解一個(gè)很長(zhǎng)而且很有難度的論證,最后使學(xué)生明白了.學(xué)生這時(shí)會(huì)說(shuō)些什么呢?他會(huì)說(shuō)“我看到了(我懂了)!”在這里看見(jiàn)與理解是同義詞,而且我們還可以用“知覺(jué)”這個(gè)詞來(lái)同時(shí)形容它們,至少這在英語(yǔ)里是對(duì)的,把這個(gè)現(xiàn)象與其他語(yǔ)言作對(duì)比同樣有趣.我認(rèn)為有一點(diǎn)是很基本的:人類通過(guò)這種巨大的能力和視覺(jué)的瞬間活動(dòng)獲取大量的信息,從而得以發(fā)展,而教學(xué)參與其中并使之完善.

  

  在另一方面(也許有些人不這樣認(rèn)為),代數(shù)本質(zhì)上涉及的是時(shí)間.無(wú)論現(xiàn)在做的是哪一類代數(shù),都是一連串的運(yùn)算被一個(gè)接著一個(gè)羅列出來(lái),這里“一個(gè)接著一個(gè) ”的意思是我們必須有時(shí)間的概念.在一個(gè)靜態(tài)的宇宙中,我們無(wú)法想象代數(shù),但幾何的本質(zhì)是靜態(tài)的:我可以坐在這里觀察,沒(méi)有什么變化,但我仍可以繼續(xù)觀察.然而,代數(shù)與時(shí)間有關(guān),這是因?yàn)槲覀冇幸贿B串的運(yùn)算,這里當(dāng)我談到“代數(shù)”時(shí),我并不單單指現(xiàn)代代數(shù).任何算法,任何計(jì)算過(guò)程,都是一個(gè)接著一個(gè)地給出一連串步驟,現(xiàn)代計(jì)算機(jī)的發(fā)展使這一切看得很清楚.現(xiàn)代計(jì)算機(jī)用一系列0和1來(lái)反映其信息并由此給出問(wèn)題的答案.

  

   代數(shù)涉及的是時(shí)間的操作,而幾何涉及的是空間.它們是世界互相垂直的兩個(gè)方面,并且它們代表數(shù)學(xué)中兩種不同的觀念.因此在過(guò)去數(shù)學(xué)家們之間關(guān)于代數(shù)和幾何相對(duì)重要性的爭(zhēng)論或者對(duì)話代表了某些非常非常基本的事情.

  

  當(dāng)然只是為了論證是哪一邊輸了,哪一邊勝利了,這并不值得.當(dāng)我考慮這個(gè)問(wèn)題時(shí),有一個(gè)形象的類比:“你愿意成為一個(gè)代數(shù)學(xué)家還是一個(gè)幾何學(xué)家?”這個(gè)問(wèn)題就象問(wèn):“你愿意是聾子還是瞎子?”一樣.如果人的眼睛盲了,就看不見(jiàn)空間;如果人的耳朵聾了,就無(wú)法聽(tīng)見(jiàn),聽(tīng)覺(jué)是發(fā)生在時(shí)間之中的,總的來(lái)說(shuō),我們還是寧愿二者都要.

  

  在物理學(xué),也有一個(gè)類似的、大致平行的關(guān)于物理概念和物理實(shí)驗(yàn)之間的劃分.物理學(xué)有兩個(gè)部分:理論——概念,想法,單詞,定律——和實(shí)驗(yàn)儀器.我認(rèn)為概念在某種廣義的意義下是幾何的,這是因?yàn)樗鼈兩婕暗氖前l(fā)生在真實(shí)世界的事物.另一方面,實(shí)驗(yàn)更象一個(gè)代數(shù)計(jì)算.人們做事情總要花時(shí)間,測(cè)定一些數(shù),將它們代入到公式中去.但是在實(shí)驗(yàn)背后的基本概念卻是幾何傳統(tǒng)的一部分.

  

  將上述二分叉現(xiàn)象用更哲學(xué)或者更文學(xué)的語(yǔ)言來(lái)說(shuō),那就是對(duì)幾何學(xué)家而言,代數(shù)就是所謂的“浮士德的奉獻(xiàn)”.正如大家所知道的,在歌德的故事里,浮士德通過(guò)魔鬼可以得到他所想要的(就是一個(gè)漂亮女人的愛(ài)),其代價(jià)是出賣他的靈魂,代數(shù)就是由魔鬼提供給數(shù)學(xué)家的供品.魔鬼會(huì)說(shuō):“我將給你這個(gè)有力的機(jī)器,它可以回答你的任何問(wèn)題.你需要做的就是把你的靈魂給我:放棄幾何,你就會(huì)擁有這個(gè)威力無(wú)窮的機(jī)器”(現(xiàn)在可以把它想象成為一臺(tái)計(jì)算機(jī)!).當(dāng)然我們希望同時(shí)擁有它們,我們也許可以欺騙魔鬼,假裝我們出賣靈魂,但不真地給它.不過(guò)對(duì)我們靈魂的威脅依然存在,這是因?yàn)楫?dāng)我們轉(zhuǎn)入代數(shù)計(jì)算時(shí),本質(zhì)上我們會(huì)停止思考,停止用幾何的觀念來(lái)考慮問(wèn)題,不再思考其含義.

  

  在這里我談?wù)摯鷶?shù)學(xué)家的話重了一些,但是基本土,代數(shù)的目標(biāo)總是想建立一個(gè)公式,把它放到一個(gè)機(jī)器中去,轉(zhuǎn)動(dòng)一下把手就可以得到答案.也就是拿來(lái)一個(gè)有意義的東西,把它化成一個(gè)公式,然后得到答案.在這樣的一個(gè)過(guò)程中,人們不再需要思考代數(shù)的這些不同階段對(duì)應(yīng)的幾何是什么.就這樣,洞察力丟掉了,而這在那些不同的階段都是非常重要的.我們絕不能放棄這些洞察力!最終我們還是要回到這上面來(lái)的,這就是我所談到的浮士德的奉獻(xiàn).我肯定這種講法尖銳了一點(diǎn).

  

   幾何和代數(shù)的這種選擇導(dǎo)致能融合二者的一些交叉課題的產(chǎn)生,并且代數(shù)和幾何之間的區(qū)別也不象我講的那樣直截了當(dāng)和樸實(shí)無(wú)華.例如,代數(shù)學(xué)家們經(jīng)常使用圖式(diagram).而除了幾何直覺(jué),圖式又能是什么呢?

  

  

  

   通用的技術(shù)

  

   現(xiàn)在我不想再談?wù)撎嗑蛢?nèi)容來(lái)劃分的主題,而想談?wù)勀切┮勒找呀?jīng)使用的技術(shù)和常見(jiàn)方法所確定的主題,也就是我想描述一些已經(jīng)廣泛應(yīng)用于眾多領(lǐng)域的常見(jiàn)方法.第一個(gè)就是:

  

   同調(diào)論

  

  歷史上同調(diào)論是作為拓?fù)鋵W(xué)的一個(gè)分支而發(fā)展起來(lái)的.它涉及到以下情形.現(xiàn)有一個(gè)復(fù)雜的拓?fù)淇臻g,我們想從中得到它的一些簡(jiǎn)單信息如計(jì)算它的洞或者類似事物的個(gè)數(shù),得到某些與之聯(lián)系的可加的線性不變量等.這是一種在非線性條件下關(guān)干線性不變量的構(gòu)造.從幾何的角度來(lái)看,閉鏈可加可減,這樣就得到了所謂的一個(gè)空間的同調(diào)群.同調(diào)論,作為一種從拓?fù)淇臻g獲取某些信息的基本代數(shù)工具,是在本世紀(jì)上半葉發(fā)現(xiàn)的.這是一種從幾何中獲益匪淺的代數(shù).

  

  同調(diào)概念也出現(xiàn)在其他一些方面.其另一個(gè)源頭可以追溯到Hilbert及其關(guān)于多項(xiàng)式的研究中,多項(xiàng)式是非線性的函數(shù),它們相乘可以得到更高次數(shù)的多項(xiàng)式.正是Hilbert那偉大的洞察力促使他來(lái)討論“理想”,具有公共零點(diǎn)的多項(xiàng)式的線性組合.他要尋找這些理想的生成元.生成元可能有很多.他審視它們之間的關(guān)系以及關(guān)系之間的關(guān)系.于是他得到這些關(guān)系的一個(gè)分層譜系,這就是所謂的“Hilbert合系”.Hilbert的這個(gè)理論是一種非常復(fù)雜的方法,他試圖將一個(gè)非線性的情形(多項(xiàng)式的研究)化為線性情形.本質(zhì)上來(lái)講,Hilbert構(gòu)造了一個(gè)線性關(guān)系的復(fù)雜體系.能夠把象多項(xiàng)式這樣的非線性事物的某些信息納入其中.

  

  這個(gè)代數(shù)理論實(shí)際上是與上述拓?fù)淅碚撈叫械模椰F(xiàn)在它們已融合在一起構(gòu)成了所謂的“同調(diào)代數(shù)”.在代數(shù)幾何學(xué)中,本世紀(jì)五十年代最偉大的成就之一是層的上同調(diào)理論的發(fā)展及在解析幾何學(xué)中的擴(kuò)展,這是由Leray,Cartan,Serre和Grothendieck等人組成的法國(guó)學(xué)派取得的.從中我們可以感受到一種既有Riemann-Poincaré的拓?fù)渌枷耄钟蠬ilbert的代數(shù)思想,再加上某些分析手段的融合,

  

  這表明同調(diào)論在代數(shù)的其它分支也有著廣泛的應(yīng)用.我們可以引入同調(diào)群的概念,它通常是與非線性事物相關(guān)的線性事物.我們可以將之應(yīng)用于群論,例如,有限群,以及李代數(shù):它們都有相應(yīng)的同調(diào)群.在數(shù)論方面,同調(diào)群通過(guò)Galois群產(chǎn)生了非常重要的應(yīng)用.因此在相當(dāng)廣泛的情形下同調(diào)論都是強(qiáng)有力的工具之一,它也是二十世紀(jì)數(shù)學(xué)的一個(gè)典型的特征.

  

   K-理論

  

  我要談的另外一個(gè)技術(shù)就是所謂的“K-理論”.它在很多方面都與同調(diào)論相似,它的歷史并不很長(zhǎng)(直到二十世紀(jì)中葉才出現(xiàn),盡管其起源的某些方面也許可以追溯到更早一些),但它卻有著很廣泛的應(yīng)用,已經(jīng)滲透進(jìn)了數(shù)學(xué)的許多部分.K-理論實(shí)際上與表示理論緊密相聯(lián),有限群的表示理論,可以講,起源于十九世紀(jì).但是其現(xiàn)代形式——K-理論卻只有一個(gè)相對(duì)較短的歷史.K-理論可以用下面的方式來(lái)理解:它可以被想成是應(yīng)用矩陣論的一種嘗試.我們知道矩陣的乘法是不可交換的,于是我們想構(gòu)造矩陣可換的或是線性的不變量.跡,維數(shù)和行列式都是矩陣論中可換的不變量,而K-理論即是試圖處理它們的一種系統(tǒng)的方法,它有時(shí)也被稱為“穩(wěn)定線性代數(shù)”.其思想就是,如果我們有很多矩陣,那么把兩個(gè)不可換的矩陣A和矩陣B放在不同塊的正交位置上,它們就可換了,因?yàn)樵谝粋€(gè)大的空間里,我們可以隨意移動(dòng)物體.于是在某些近似情況下,這樣做是很有好處的,足以讓我們得到一些信息,這就是作為一個(gè)技術(shù)的K-理論的基石.這完全類似于同調(diào)論,二者都是從復(fù)雜的非線性情形獲取線性的信息.

  

   在代數(shù)幾何中,K-理論是由Grothendieck首先引入的,并且取得了巨大的成功,這些與我們剛剛談到的層理論密切相關(guān),而且也和他在Riemann-Roch定理方面的工作有緊密聯(lián)系.

  

  在拓?fù)鋵W(xué)方面,Hirzebruch和我照搬了這些思想并且將它們應(yīng)用到一個(gè)純粹的拓?fù)浞懂爟?nèi).從某種意義下來(lái)說(shuō),如果Grothendieck的工作與 Hilbert在合系方面的工作有關(guān),那么我們的工作更接近于Riemann-Poincaré在同調(diào)方面的工作,我們用的是連續(xù)函數(shù),而他用的是多項(xiàng)式.K-理論也在橢圓算子的指標(biāo)理論和線性分析的研究中起了重要作用.

  

   從另外一個(gè)不同的角度,Milnor,Quillen和其他人發(fā)展了K-理論的代數(shù)方面,這在數(shù)論的研究中有著潛力巨大的應(yīng)用.沿著這個(gè)方向的發(fā)展導(dǎo)致了許多有趣問(wèn)題的產(chǎn)生.

  

  在泛函分析方面,包括象Kasparov在內(nèi)的許多人的工作將連續(xù)的K-理論推廣到非交換的C*-代數(shù)情形.一個(gè)空間上的連續(xù)函數(shù)在函數(shù)乘積意義下形成一個(gè)交換代數(shù).但是在其他情形下,自然地產(chǎn)生了類似的關(guān)于非交換情形的討論,這時(shí),泛函分析也就自然而然地成為了這些問(wèn)題的溫床.

  

  因此,K-理論是另外一個(gè)能夠?qū)⑾喈?dāng)廣泛的數(shù)學(xué)的許多不同方面都能用這種比較簡(jiǎn)單的公式來(lái)處理的領(lǐng)域,盡管在每一個(gè)情形下,都有很多特定于該方面且能夠連接其他部分的非常困難的,技巧性很強(qiáng)的問(wèn)題.K-理論不是一個(gè)統(tǒng)一的工具,它更象是一個(gè)統(tǒng)一的框架,在不同部分之間具有類比和相似.

  

   這個(gè)工作的許多內(nèi)容已經(jīng)被Alain Connes推廣到“非交換微分幾何”.

  

  非常有趣的是,也就是在最近,Witten通過(guò)他在弦理論方面(基礎(chǔ)物理學(xué)的最新思想)的工作發(fā)現(xiàn)許多很有趣的方法都與K-理有關(guān),并且K-理論看起來(lái)為那些所謂的“守恒量”提供了一個(gè)很自然的“家”.雖然在過(guò)去同調(diào)論被認(rèn)為是這些理論的自然框架,但是現(xiàn)在看起來(lái)K一理論能提供更好的答案.

   李群

  

  另一個(gè)不單單是一項(xiàng)技術(shù)、而且是具有統(tǒng)一性的概念是李群.現(xiàn)在說(shuō)起李群,我們基本上就是指正交群,酉群,辛群以及一些例外群,它們?cè)诙兰o(jì)數(shù)學(xué)歷史中起了非常重要的作用.它們同樣起源于十九世紀(jì).SophusLie是一位十九世紀(jì)的挪威數(shù)學(xué)家.正如很多人所講的那樣,他和Fleix Klein,還有其他人一起推動(dòng)了“連續(xù)群理論”的發(fā)展.對(duì)Klein而言,一開(kāi)始,這是一種試圖統(tǒng)一處理Euclid幾何和非歐幾何這兩種不同類型幾何的方法.雖然這個(gè)課題源于十九世紀(jì),但真正起步卻是在二十世紀(jì),作為一種能夠?qū)⒃S多不同問(wèn)題歸并于其中來(lái)研究的統(tǒng)一性框架,李群理論深深地影響了二十世紀(jì).

  

  我現(xiàn)在來(lái)談?wù)凨lein思想在幾何方面的重要性.對(duì)于Klein而言,幾何就是齊性空間,在那里,物體可以隨意移動(dòng)而保持形狀不變,因此,它們是由一個(gè)相關(guān)的對(duì)稱群來(lái)控制的.Euclid群給出Euclid幾何而雙曲幾何源于另一個(gè)李群.于是每一個(gè)齊性幾何對(duì)應(yīng)一個(gè)不同的李群.但是到了后來(lái),隨著對(duì) Riemann的幾何學(xué)工作的進(jìn)一步發(fā)展,人們更關(guān)心那些不是齊性的幾何,此時(shí)曲率隨著位置的變化而變化,并且空間不再有整體對(duì)稱性,然而,李群仍然起著重要的作用,這是因?yàn)樵谇锌臻g中我們有Euclid坐標(biāo),以至于李群可以出現(xiàn)在一種無(wú)窮小的層面上.于是在切空間中,從無(wú)窮小的角度來(lái)看,李群又出現(xiàn)了,只不過(guò)由于要區(qū)分不同位置的不同點(diǎn),我們需要用某種可以處理不同李群的方式來(lái)移動(dòng)物體.這個(gè)理論是被Eile Cartan真正發(fā)展起來(lái)的,成為現(xiàn)代微分幾何的基石,該理論框架對(duì)于Einstein的相對(duì)論也起著基本的作用.當(dāng)然Einstein的理論極大地推動(dòng)了微分幾何的全面發(fā)展.

  

  進(jìn)入二十世紀(jì),我前面提到的整體性質(zhì)涉及到了在整體層面上的李群和微分幾何.一個(gè)主要的發(fā)展是給出所謂的“示性類”的信息,這方面標(biāo)志性的工作是由 Borel和Hirzebruch給出的,示性類是拓?fù)洳蛔兞坎⑶胰诤先齻€(gè)關(guān)鍵部分:李群,微分幾何和拓?fù)洌?dāng)然也包含與群本身有關(guān)的代數(shù).

  在更帶分析味的方向上,我們得到了現(xiàn)在被稱為非交換調(diào)和分析的理論.這是Fourier理論的推廣,對(duì)于后者,F(xiàn)ourier級(jí)數(shù)或者是Fourier積分本質(zhì)上對(duì)應(yīng)于圓周和直線的交換李群,當(dāng)我們用更為復(fù)雜的李群代替它們時(shí),我們就可以得到一個(gè)非常漂亮、非常精巧且將李群表示理論和分析融為一體的理論.這本質(zhì)上是Harish-Chandra一生的工作.

  

  在數(shù)論方面,整個(gè)“Lang1ands綱領(lǐng)”,現(xiàn)在許多人都這樣稱呼它,緊密聯(lián)系于Harish-Chandra理論,產(chǎn)生于李群理論之中.對(duì)于每一個(gè)李群,我們都可以給出相應(yīng)的數(shù)論和在某種程度實(shí)施Langlands綱領(lǐng).在本世紀(jì)后半葉,代數(shù)數(shù)論的一大批工作深受其影響.模形式的研究就是其中一個(gè)很好的例證,這還包括Andrew Wiles在Fermat大定理方面的工作.

  

  也許有人認(rèn)為李群只不過(guò)在幾何范疇內(nèi)特別重要而已,因?yàn)檫@是出于連續(xù)變量的需要.然而事實(shí)并非如此,有限域上的李群的類似討論可以給出有限群,并且大多數(shù)有限群都是通過(guò)這種方式產(chǎn)生的.因此李群理論的一些技巧甚至可以被應(yīng)用到有限域或者是局部域等一些離散情形中.這方面有許多純代數(shù)的工作,例如與 George Lusztig名字聯(lián)系在一起的工作.在這些工作中,有限群的表示理論被加以討論,并且我已經(jīng)提到的許多技術(shù)在這里也可以找到它們的用武之地.

  

   有限群

  

  上述討論已把我們帶到有限群的話題,這也提醒了我:有限單群的分類是我必須承認(rèn)的一項(xiàng)工作.許多年以前,也就是在有限單群分類恰要完成之時(shí),我接受了一次采訪,并且我還被問(wèn)道我對(duì)有限單群分類的看法,我當(dāng)時(shí)很輕率地說(shuō)我并不認(rèn)為它有那么重要.我的理由是有限單群分類的結(jié)果告訴我們,大多數(shù)單群都是我們已知的,還有就是一張有關(guān)若干例外情形的表.在某種意義下,這只不過(guò)是結(jié)束了一個(gè)領(lǐng)域.而并沒(méi)有開(kāi)創(chuàng)什么新東西,當(dāng)事物用結(jié)束代替開(kāi)始時(shí),我不會(huì)感到很興奮.但是我的許多在這一領(lǐng)域工作的朋友聽(tīng)到我這么講,理所當(dāng)然地會(huì)感到非常非常不高興,我從那時(shí)起就不得不穿起“防彈衣”了.

  

  在這項(xiàng)研究中,有一個(gè)可以彌補(bǔ)缺點(diǎn)的優(yōu)點(diǎn).我在這里實(shí)際上指的是在所有的所謂“散在群”(sporadic groups)中,最大的被賦予了“魔群”名字的那一個(gè).我認(rèn)為魔群的發(fā)現(xiàn)這件事本身就是有限單群分類中最叫人興奮的結(jié)果了.可以看出魔群是一個(gè)極其有意思的動(dòng)物而且現(xiàn)在還處于被了解之中.它與數(shù)學(xué)的許多分支的很大一部分有著意想不到的聯(lián)系,如與橢圓模函數(shù)的聯(lián)系,甚至與理論物理和量子場(chǎng)論都有聯(lián)系.這是分類工作的一個(gè)有趣的副產(chǎn)品.正如我所說(shuō)的,有限單群分類本身關(guān)上了大門,但是魔群又開(kāi)啟了一扇大門.


  

  

   物理的影響

  

  現(xiàn)在讓我把話題轉(zhuǎn)到一個(gè)不同的主題,即談?wù)勎锢淼挠绊懀谡麄€(gè)歷史中,物理與數(shù)學(xué)有著非常悠久的聯(lián)系,并且大部分?jǐn)?shù)學(xué),例如微積分,就是為了解決物理中出現(xiàn)的問(wèn)題而發(fā)展起來(lái)的.在二十世紀(jì)中葉,隨著大多數(shù)純數(shù)學(xué)在獨(dú)立于物理學(xué)時(shí)仍取得了很好的發(fā)展,這種影響或聯(lián)系也許變得不太明顯.但是在本世紀(jì)最后四分之一的時(shí)間里,事情發(fā)生了戲劇性的變化,讓我試著簡(jiǎn)單地評(píng)述一下物理學(xué)和數(shù)學(xué),尤其是和幾何的相互影響.

  

  在十九世紀(jì),Hamilton發(fā)展了經(jīng)典力學(xué),引入了現(xiàn)在稱為Hamilton量的形式化.經(jīng)典力學(xué)導(dǎo)出現(xiàn)在所謂的“辛幾何”.這是幾何的一個(gè)分支,雖然很早已經(jīng)有人研究了,但是實(shí)際上直到最近二十年,這個(gè)課題才得到真正的研究.這已經(jīng)是幾何學(xué)非常豐富的一部分.幾何學(xué),我在這里使用這個(gè)詞的意思是指,它有三個(gè)分支:Riemann幾何,復(fù)幾何和辛幾何,并且分別對(duì)應(yīng)三個(gè)不同類型的李群.辛幾何是它們之中最新發(fā)展起來(lái)的,并且在某種意義下也許是最有趣的,當(dāng)然也是與物理有極其緊密聯(lián)系的一個(gè),這主要因?yàn)樗臍v史起源與Hamilton力學(xué)有關(guān)以及近些年來(lái)它與量子力學(xué)的聯(lián)系.現(xiàn)在,我前面提到過(guò)的、作為電磁學(xué)基本線性方程的Maxwell方程,是Hodge在調(diào)和形式方面工作和在代數(shù)幾何中應(yīng)用方面工作的源動(dòng)力.這是一個(gè)非常富有成果的理論,并且自從本世紀(jì)三十年代以來(lái)已經(jīng)成為幾何學(xué)中的許多工作的基礎(chǔ).

  

   我已經(jīng)提到過(guò)廣義相對(duì)論和Einstein的工作.量子力學(xué)當(dāng)然更是提供了一個(gè)重要的實(shí)例.這不僅僅體現(xiàn)在對(duì)易關(guān)系上,而且更顯著地體現(xiàn)在對(duì)Hilbert空間和譜理論的強(qiáng)調(diào)上.

  

  以一種更具體和明顯的方式,結(jié)晶學(xué)的古典形式是與晶體結(jié)構(gòu)的對(duì)稱性有關(guān)的.第一個(gè)被研究的實(shí)例是發(fā)生在點(diǎn)周圍的有限對(duì)稱群,這是鑒于它們?cè)诮Y(jié)晶學(xué)中的應(yīng)用.在本世紀(jì)中,群論更深刻的應(yīng)用已經(jīng)轉(zhuǎn)向與物理的關(guān)系,被假設(shè)用來(lái)構(gòu)成物質(zhì)的基本粒子看起來(lái)在最小的層面上有隱藏的對(duì)稱性,在這個(gè)層面上,有某些李群在此出沒(méi),對(duì)此我們看不見(jiàn),但是當(dāng)我們研究粒子的實(shí)際行為時(shí),它們的對(duì)稱性就顯現(xiàn)無(wú)遺了.所以我們假定了一個(gè)模型,在這個(gè)模型當(dāng)中,對(duì)稱性是一個(gè)本質(zhì)性的要素,而且目前那些很普遍的不同理論都有一些象SU(2)和SU(3)那樣的基本李群融入其中并構(gòu)成基礎(chǔ)的對(duì)稱群,因此這些李群看起來(lái)象是建設(shè)物質(zhì)大廈的磚石.

  

  并不是只有緊李群才出現(xiàn)在物理中,一些非緊李群也出現(xiàn)在物理中,例如Lorentz群.正是由物理學(xué)家第一個(gè)開(kāi)始研究非緊李群的表示理論的.它們是那些能夠發(fā)生在Hilbert空間的表示,這是因?yàn)椋瑢?duì)于緊群而言,所有不可約表示都是有限維的,而非緊群需要的是無(wú)窮維表示,這也是首先由物理學(xué)家意識(shí)到的.

  

  在二十世紀(jì)的最后25年里,正如我剛剛完成闡述的,有一種巨大的從物理學(xué)的新思想到數(shù)學(xué)的滲透,這也許是整個(gè)世紀(jì)最引人注目的事件之一,就這個(gè)問(wèn)題本身,也許就需要一個(gè)完整的報(bào)告,但是,基本上來(lái)講,量子場(chǎng)論和弦理論已經(jīng)以引人注目的方式影響了數(shù)學(xué)的許多分支,得到了眾多的新結(jié)果、新思想和新技術(shù).這里,我的意思是指物理學(xué)家通過(guò)對(duì)物理理論的理解已經(jīng)能夠預(yù)言某些在數(shù)學(xué)上是對(duì)的事情了.當(dāng)然,這不是一個(gè)精確的證明,但是確有非常強(qiáng)有力的直覺(jué)、一些特例和類比所支持.?dāng)?shù)學(xué)家們經(jīng)常來(lái)檢驗(yàn)這些由物理學(xué)家預(yù)言的結(jié)果,并且發(fā)現(xiàn)它們基本上是正確的,盡管給出證明是很困難的而且它們中的許多還沒(méi)有被完全證明.

  

  所以說(shuō)沿著這個(gè)方向,在過(guò)去的25年里取得了巨大的成果.這些結(jié)果是極其細(xì)致的.這并不象物理學(xué)家所講的“這是一種應(yīng)該是對(duì)的東西”.他們說(shuō):“這里有明確的公式,還有頭十個(gè)實(shí)例(涉及超過(guò)12位的數(shù)字)”.他們會(huì)給出關(guān)于復(fù)雜問(wèn)題的準(zhǔn)確答案,這些決不是那種靠猜測(cè)就能得到的,而是需要用機(jī)器計(jì)算的東西,量子場(chǎng)論提供了一個(gè)重要的工具,雖然從數(shù)學(xué)上來(lái)理解很困難,但是站在應(yīng)用的角度,它有意想不到的回報(bào).這是最近25年中真正令人興奮的事件.

  

   在這里我列一些重要的成果:SimonDona1dson在四維流形方面的工作;Vaughan-Jones在扭結(jié)不變量方面的工作;鏡面對(duì)稱,量子群;再加上我剛才提到的“魔群”

  

  這個(gè)主題到底講的是什么呢?正如我在前面提到過(guò)的一樣,二十世紀(jì)見(jiàn)證了維數(shù)的一種轉(zhuǎn)換并且以轉(zhuǎn)換為無(wú)窮維而告終,物理學(xué)家超越了這些,在量子場(chǎng)論方面,他們真正試圖對(duì)廣泛的無(wú)窮維空間進(jìn)行細(xì)致的研究,他們處理的無(wú)窮維空間是各類典型的函數(shù)空間,它們非常復(fù)雜,不僅是因?yàn)樗鼈兪菬o(wú)窮維的,而且它們有復(fù)雜的代數(shù)、幾何以及拓?fù)洌€有圍繞其中的很大的李群,即無(wú)窮維的李群,因此正如二十世紀(jì)數(shù)學(xué)的大部分涉及的是幾何、拓?fù)洹⒋鷶?shù)以及有限維李群和流形上分析的發(fā)展,這部分物理涉及了在無(wú)窮維情形下的類似處理.當(dāng)然,這是一件非常不同的事情,但確有巨大的成功.

  

  讓我更詳盡地解釋一下,量子場(chǎng)論存在于空間和時(shí)間中.空間的真正的意義是三維的,但是有簡(jiǎn)化的模型使我們將空間取成一維.在一維空間和一維時(shí)間里,物理學(xué)家遇到的典型事物,用數(shù)學(xué)語(yǔ)言來(lái)講,就是由圓周的微分同胚構(gòu)成的群或者是由從圓周到一個(gè)緊李群的微分映射構(gòu)成的群.它們是出現(xiàn)在這些維數(shù)里的量子場(chǎng)論中的兩個(gè)非常基本的無(wú)窮維李群的例子,它們也是理所當(dāng)然的數(shù)學(xué)事物并且已經(jīng)被數(shù)學(xué)家們研究了一段時(shí)間.

  

  在這樣一個(gè)1+1維理論中,我們將時(shí)空取成一個(gè)Riemann曲面并且由此可以得到很多新的結(jié)果.例如,研究一個(gè)給定虧格數(shù)的Riemann曲面的模空間是個(gè)可以追溯到上個(gè)世紀(jì)的古典課題.而由量子場(chǎng)論已經(jīng)得到了很多關(guān)于這些模空間的上同調(diào)的新結(jié)果.另一個(gè)非常類似的模空間是一個(gè)具有虧格數(shù)g的 Riemann曲面上的平坦G-叢的模空間.這些空間都是非常有趣的并且量子場(chǎng)論給出關(guān)于它們的一些精確結(jié)果.特別地,可以得到一些關(guān)于體積的很漂亮的公式,這其中涉及到Zeta函數(shù)的取值.

  

   另一個(gè)應(yīng)用與計(jì)數(shù)曲線(counting curve)有關(guān).如果我們來(lái)看給定次數(shù)和類型的平面代數(shù)曲線,我們想要知道的是,例如,經(jīng)過(guò)那么多點(diǎn)究竟有多少曲線,這樣我們就要面臨代數(shù)幾何的計(jì)數(shù)問(wèn)題,這些問(wèn)題在上個(gè)世紀(jì)一直是很經(jīng)典的.而且也是非常困難的.現(xiàn)在它們已經(jīng)通過(guò)被稱為“量子上同調(diào)”的現(xiàn)代技術(shù)解決了,這完全是從量子場(chǎng)論中得到的.或者我們也可以接觸那些關(guān)于不在平面上而在彎曲族上的曲線的更加困難的問(wèn)題,這樣我們得到了另一個(gè)具有明確結(jié)果的被稱為鏡面對(duì)稱的美妙理論,所有這些都產(chǎn)生于 1+1維量子場(chǎng)論.

  

   如果我們升高一個(gè)維數(shù),也就是2-維空間和1-維時(shí)間,就可以得到Vaughan-Jones的扭結(jié)不變量理論.這個(gè)理論已經(jīng)用量子場(chǎng)論的術(shù)語(yǔ)給予了很美妙的解釋和分析.

  

  量子場(chǎng)論另一個(gè)結(jié)果是所謂的“量子群”.現(xiàn)在關(guān)于量子群的最好的東西是它們的名字.明確地講它們不是群!如果有人要問(wèn)我一個(gè)量子群的定義,我也許需要用半個(gè)小時(shí)來(lái)解釋,它們是復(fù)雜的事物,但毫無(wú)疑問(wèn)它們與量子理論有著很深的聯(lián)系它們?cè)从谖锢恚椰F(xiàn)在的應(yīng)用者是那些腳踏實(shí)地的代數(shù)學(xué)家們,他們實(shí)際上用它們進(jìn)行確定的計(jì)算.

  

  如果我們將維數(shù)升得更高一些,到一個(gè)全四維理論(三加一維),這就是Donaldson的四維流形理論,在這里量子場(chǎng)論產(chǎn)生了重大影響.特別地,這還導(dǎo)致 Seiberg和Witten建立了他們相應(yīng)的理論,該理論建立在物理直覺(jué)之上并且也給出許多非同尋常的數(shù)學(xué)結(jié)果.所有這些都是些突出的例子.其實(shí)還有更多的例子.

  

   接下來(lái)是弦理論并且這已經(jīng)是過(guò)時(shí)的了!我們現(xiàn)在所談?wù)摰氖荕一理論,這是一個(gè)內(nèi)容豐富的理論,其中同樣有大量的數(shù)學(xué),從關(guān)于它的研究中得到的結(jié)果仍有待于進(jìn)一步消化并且足可以讓數(shù)學(xué)家們忙上相當(dāng)長(zhǎng)的時(shí)間.

  

  

  

   歷史的總結(jié)

  

  我現(xiàn)在作一個(gè)簡(jiǎn)短的總結(jié).讓我概括地談?wù)剼v史:數(shù)學(xué)究竟發(fā)生了什么?我相當(dāng)隨意地把十八世紀(jì)和十九世紀(jì)放在了一起,把它們當(dāng)做我們稱為古典數(shù)學(xué)的時(shí)代,這個(gè)時(shí)代是與Euler和Gauss這樣的人聯(lián)系在一起的,所有偉大的古典數(shù)學(xué)結(jié)果也都是在這個(gè)時(shí)代被發(fā)現(xiàn)和發(fā)展的.有人也許認(rèn)為那幾乎就是數(shù)學(xué)的終結(jié)了,但是相反地,二十世紀(jì)實(shí)際上非常富有成果,這也是我一直在談?wù)摰模?br>
  

  二十世紀(jì)大致可以一分為二地分成兩部分.我認(rèn)為二十世紀(jì)前半葉是被我稱為“專門化的時(shí)代”,這是一個(gè)Hilbert的處理辦法大行其道的時(shí)代,即努力進(jìn)行形式化,仔細(xì)地定義各種事物,并在每一個(gè)領(lǐng)域中貫徹始終.正如我說(shuō)到過(guò)的,Bourbaki的名字是與這種趨勢(shì)聯(lián)系在一起的.在這種趨勢(shì)下,人們把注意力都集中于在特定的時(shí)期從特定的代數(shù)系統(tǒng)或者其它系統(tǒng)能獲得什么.二十世紀(jì)后半葉更多地被我稱為“統(tǒng)一的時(shí)代”,在這個(gè)時(shí)代,各個(gè)領(lǐng)域的界限被打破了,各種技術(shù)可以從一個(gè)領(lǐng)域應(yīng)用到另外一個(gè)領(lǐng)域,并且事物在很大程度上變得越來(lái)越有交叉性.我想這是一種過(guò)于簡(jiǎn)單的說(shuō)法,但是我認(rèn)為這簡(jiǎn)單總結(jié)了我們所看到的二十世紀(jì)數(shù)學(xué)的一些方面.

  

  二十一世紀(jì)會(huì)是什么呢?我已經(jīng)說(shuō)過(guò),二十一世紀(jì)是量子數(shù)學(xué)的時(shí)代,或者,如果大家喜歡,可稱為是無(wú)窮維數(shù)學(xué)的時(shí)代.這意味著什么呢?量子數(shù)學(xué)的含義是指我們能夠恰當(dāng)?shù)乩斫夥治觥缀巍⑼負(fù)浜透魇礁鳂拥姆蔷€性函數(shù)空間的代數(shù),在這里,“恰當(dāng)?shù)乩斫?#8221;,我是指能夠以某種方式對(duì)那些物理學(xué)家們已經(jīng)推斷出來(lái)的美妙事物給出較精確的證明.

  

   有人要說(shuō),如果用天真幼稚的方式(naive way)來(lái)研究無(wú)窮維并問(wèn)一些天真幼稚的問(wèn)題,通常來(lái)講,只能得到錯(cuò)誤的答案或者答案是無(wú)意義的,物理的應(yīng)用、洞察力和動(dòng)機(jī)使得物理學(xué)家能夠問(wèn)一些關(guān)于無(wú)窮維的明智的問(wèn)題,并且可以在有合乎情理的答案時(shí)作一些非常細(xì)致的工作,因此用這種方式分析無(wú)窮維決不是一件輕而易舉的事情.我們必須沿著這條正確的道路走下去.我們已經(jīng)得到了許多線索,地圖已經(jīng)攤開(kāi)了:我們的目標(biāo)已經(jīng)有了,只不過(guò)還有很長(zhǎng)的路要走.

  

  還有什么會(huì)發(fā)生在二十一世紀(jì)?我想強(qiáng)調(diào)一下Connes的非交換微分幾何.Alain Connes擁有這個(gè)相當(dāng)宏偉的統(tǒng)一理論.同樣,它融合了一切.它融合了分析、代數(shù)、幾何、拓?fù)洹⑽锢怼?shù)論,所有這一切都是它的一部分.這是一個(gè)框架性理論,它能夠讓我們?cè)诜墙粨Q分析的范疇里從事微分幾何學(xué)家通常所做的工作,這當(dāng)中包括與拓?fù)涞年P(guān)系.要求這樣做是有很好的理由的,因?yàn)樗跀?shù)論、幾何、離散群等等以及在物理中都有(潛力巨大的或者特別的)應(yīng)用.一個(gè)與物理有趣的聯(lián)系也剛剛被發(fā)現(xiàn).這個(gè)理論能夠走多遠(yuǎn),能夠得到什么結(jié)果,還有待進(jìn)一步觀察.它理所當(dāng)然地是我所期望的至少在下個(gè)世紀(jì)頭十年能夠得到顯著發(fā)展的課題,而且找到它與尚不成熟的(精確)量子場(chǎng)論之間的聯(lián)系是完全有可能的.

  

   我們轉(zhuǎn)到另一個(gè)方面,也就是所謂的“算術(shù)幾何”或者是Arakelov幾何,其試圖盡可能多地將代數(shù)幾何和數(shù)論的部分內(nèi)容統(tǒng)一起來(lái).這是一個(gè)非常成功的理論.它已經(jīng)有了一個(gè)美好的開(kāi)端,但仍有很長(zhǎng)的路要走.這又有誰(shuí)知道呢?

  

   當(dāng)然,所有這些都有一些共同點(diǎn).我期待物理學(xué)能夠?qū)⑺挠绊懕榧八械胤剑踔潦菙?shù)論:Andrew Wiles不同意我這樣說(shuō),只有時(shí)間會(huì)說(shuō)明一切.

  

  這些是我所能看到的在下個(gè)十年里出現(xiàn)的幾個(gè)方面,但也有一些難以捉摸的東西:返回至低維幾何.與所有無(wú)窮維的富有想象的事物在一起,低維幾何的處境有些尷尬.從很多方面來(lái)看,我們開(kāi)始時(shí)討論的維數(shù),或我們祖先開(kāi)始時(shí)的維數(shù),仍留下某些未解之謎.維數(shù)為2,3和4的對(duì)象被我們稱為“低”維的.例如 Thurston在三維幾何的工作,目標(biāo)就是能夠給出一個(gè)三維流形上的幾何分類,這比二維理論要深刻得多.Thurston綱領(lǐng)還遠(yuǎn)遠(yuǎn)沒(méi)有完成,完成這個(gè)綱領(lǐng)當(dāng)然將是一個(gè)重要的挑戰(zhàn).

  

  在三維中另外一個(gè)引人注目的事件是Vaughan-Jones那些思想本質(zhì)上來(lái)源于物理的工作.這給了我們更多的關(guān)于三維的信息,并且它們幾乎完全不在 Thurston綱領(lǐng)包含的信息之內(nèi).如何將這兩個(gè)方面聯(lián)系起來(lái)仍然是一個(gè)巨大的挑戰(zhàn),但是最近得到的結(jié)果暗示兩者之間可能有一座橋,因此,整個(gè)低維的領(lǐng)域都與物理有關(guān),但是其中實(shí)在有太多讓人琢磨不透的東西.

  

  最后,我要提一下的是在物理學(xué)中出現(xiàn)的非常重要的“對(duì)偶”.這些對(duì)偶,泛泛地來(lái)講,產(chǎn)生于一個(gè)量子理論被看成一個(gè)經(jīng)典理論時(shí)有兩種不同的實(shí)現(xiàn).一個(gè)簡(jiǎn)單的例子是經(jīng)典力學(xué)中的位置和動(dòng)量的對(duì)偶.這樣由對(duì)偶空間代替了原空間,并且在線性理論中,對(duì)偶就是Fourier變換.但是在非線性理論中,如何來(lái)代替 Fourier變換是巨大的挑戰(zhàn)之一.?dāng)?shù)學(xué)的大部分都與如何在非線性情形下推廣對(duì)偶有關(guān).物理學(xué)家看起來(lái)能夠在他們的弦理論和M一理論中以一種非同尋常的方式做到了這一點(diǎn).他們構(gòu)造了一個(gè)又一個(gè)令人嘆為觀止的對(duì)偶實(shí)例,在某種廣義的意義下,它們是Fourier變換的無(wú)窮維非線性體現(xiàn),并且看起來(lái)它們能解決問(wèn)題,然而理解這些非線性對(duì)偶性看起來(lái)也是下個(gè)世紀(jì)的巨大挑戰(zhàn)之一.

  

   我想我就談到這里.這里還有大量的工作,并且我覺(jué)得象我這樣的一個(gè)老人可以和你們這么多的年輕人談?wù)勈且患浅:玫氖虑椋欢椅乙部梢詫?duì)你們說(shuō):在下個(gè)世紀(jì),有大量的工作在等著你們?nèi)ネ瓿桑?br>
  

  

  

  (原載《數(shù)學(xué)譯林》2002/2,白承銘譯,周性偉、馮惠濤校)



]]>
介紹幾本數(shù)學(xué)書(shū)zzhttp://www.shnenglu.com/bneliao/articles/61183.htmlbneliaobneliaoSat, 06 Sep 2008 17:50:00 GMThttp://www.shnenglu.com/bneliao/articles/61183.htmlhttp://www.shnenglu.com/bneliao/comments/61183.htmlhttp://www.shnenglu.com/bneliao/articles/61183.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61183.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61183.html
7月13日

介紹幾本數(shù)學(xué)書(shū)

前面幾篇談了一些對(duì)數(shù)學(xué)的粗淺看法。其實(shí),如果對(duì)某門數(shù)學(xué)有興趣,最好的方法就是走進(jìn)那個(gè)世界去學(xué)習(xí)和體驗(yàn)。

這里說(shuō)說(shuō)幾本我看過(guò)后覺(jué)得不錯(cuò)的數(shù)學(xué)教科書(shū)。

1. 線性代數(shù) (Linear Algebra):

我想國(guó)內(nèi)的大學(xué)生都會(huì)學(xué)過(guò)這門課程,但是,未必每一位老師都能貫徹它的精要。這門學(xué)科對(duì)于Learning是必備的基礎(chǔ),對(duì)它的透徹掌握是必不可少的。我在科大一年級(jí)的時(shí)候就學(xué)習(xí)了這門課,后來(lái)到了香港后,又重新把線性代數(shù)讀了一遍,所讀的是

Introduction to Linear Algebra (3rd Ed.)  by Gilbert Strang.

這本書(shū)是MIT的線性代數(shù)課使用的教材,也是被很多其它大學(xué)選用的經(jīng)典教材。它的難度適中,講解清晰,重要的是對(duì)許多核心的概念討論得比較 透徹。我個(gè)人覺(jué)得,學(xué)習(xí)線性代數(shù),最重要的不是去熟練矩陣運(yùn)算和解方程的方法——這些在實(shí)際工作中MATLAB可以代勞,關(guān)鍵的是要深入理解幾個(gè)基礎(chǔ)而又 重要的概念:子空間(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvalues and eigenvectors),和線性變換(Linear transform)。從我的角度看來(lái),一本線代教科書(shū)的質(zhì)量,就在于它能否給這些根本概念以足夠的重視,能否把它們的聯(lián)系講清楚。Strang的這本書(shū) 在這方面是做得很好的。

而且,這本書(shū)有個(gè)得天獨(dú)厚的優(yōu)勢(shì)。書(shū)的作者長(zhǎng)期在MIT講授線性代數(shù)課(18.06),課程的video在MIT的Open courseware網(wǎng)站上有提供。有時(shí)間的朋友可以一邊看著名師授課的錄像,一邊對(duì)照課本學(xué)習(xí)或者復(fù)習(xí)。

http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm

2. 概率和統(tǒng)計(jì) (Probability and Statistics):

概率論和統(tǒng)計(jì)的入門教科書(shū)很多,我目前也沒(méi)有特別的推薦。我在這里想介紹的是一本關(guān)于多元統(tǒng)計(jì)的基礎(chǔ)教科書(shū):

Applied Multivariate Statistical Analysis (5th Ed.)  by Richard A. Johnson and Dean W. Wichern

這本書(shū)是我在剛接觸向量統(tǒng)計(jì)的時(shí)候用于學(xué)習(xí)的,我在香港時(shí)做研究的基礎(chǔ)就是從此打下了。實(shí)驗(yàn)室的一些同學(xué)也借用這本書(shū)學(xué)習(xí)向量統(tǒng)計(jì)。這本書(shū) 沒(méi)有特別追求數(shù)學(xué)上的深度,而是以通俗易懂的方式講述主要的基本概念,讀起來(lái)很舒服,內(nèi)容也很實(shí)用。對(duì)于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開(kāi)了初步的論述。

之后就可以進(jìn)一步深入學(xué)習(xí)貝葉斯統(tǒng)計(jì)和Graphical models。一本理想的書(shū)是

Introduction to Graphical Models (draft version).  by M. Jordan and C. Bishop.

我不知道這本書(shū)是不是已經(jīng)出版了(不要和Learning in Graphical Models混淆,那是個(gè)論文集,不適合初學(xué))。這本書(shū)從基本的貝葉斯統(tǒng)計(jì)模型出發(fā)一直深入到復(fù)雜的統(tǒng)計(jì)網(wǎng)絡(luò)的估計(jì)和推斷,深入淺 出,statistical learning的許多重要方面都在此書(shū)有清楚論述和詳細(xì)講解。MIT內(nèi)部可以access,至于外面,好像也是有電子版的。

3. 分析 (Analysis):

我想大家基本都在大學(xué)就學(xué)過(guò)微積分或者數(shù)學(xué)分析,深度和廣度則隨各個(gè)學(xué)校而異了。這個(gè)領(lǐng)域是很多學(xué)科的基礎(chǔ),值得推薦的教科書(shū)莫過(guò)于

Principles of Mathematical Analysis, by Walter Rudin

有點(diǎn)老,但是絕對(duì)經(jīng)典,深入透徹。缺點(diǎn)就是比較艱深——這是Rudin的書(shū)的一貫風(fēng)格,適合于有一定基礎(chǔ)后回頭去看。

在分析這個(gè)方向,接下來(lái)就是泛函分析(Functional Analysis)。

Introductory Functional Analysis with Applications, by Erwin Kreyszig.

適合作為泛函的基礎(chǔ)教材,容易切入而不失全面。我特別喜歡它對(duì)于譜論和算子理論的特別關(guān)注,這對(duì)于做learning的研究是特別重要的。 Rudin也有一本關(guān)于functional analysis的書(shū),那本書(shū)在數(shù)學(xué)上可能更為深刻,但是不易于上手,所講內(nèi)容和learning的切合度不如此書(shū)。

在分析這個(gè)方向,還有一個(gè)重要的學(xué)科是測(cè)度理論(Measure theory),但是我看過(guò)的書(shū)里面目前還沒(méi)有感覺(jué)有特別值得介紹的。

4. 拓?fù)?(Topology):

在我讀過(guò)的基本拓?fù)鋾?shū)各有特色,但是綜合而言,我最推崇:

Topology (2nd Ed.)  by James Munkres

這本書(shū)是Munkres教授長(zhǎng)期執(zhí)教MIT拓?fù)湔n的心血所凝。對(duì)于一般拓?fù)鋵W(xué)(General topology)有全面介紹,而對(duì)于代數(shù)拓?fù)?Algebraic topology)也有適度的探討。此書(shū)不需要特別的數(shù)學(xué)知識(shí)就可以開(kāi)始學(xué)習(xí),由淺入深,從最基本的集合論概念(很多書(shū)不屑講這個(gè))到Nagata- Smirnov Theorem和Tychonoff theorem等較深的定理(很多書(shū)避開(kāi)了這個(gè))都覆蓋了。講述方式思想性很強(qiáng),對(duì)于很多定理,除了給出證明過(guò)程和引導(dǎo)你思考其背后的原理脈絡(luò),很多令人 贊嘆的亮點(diǎn)——我常讀得忘卻饑餓,不愿釋手。很多習(xí)題很有水平。

5. 流形理論 (Manifold theory):

對(duì)于拓?fù)浜头治鲇幸欢ò盐諘r(shí),方可開(kāi)始學(xué)習(xí)流形理論,否則所學(xué)只能流于浮淺。我所使用的書(shū)是

Introduction to Smooth Manifolds.  by John M. Lee

雖然書(shū)名有introduction這個(gè)單詞,但是實(shí)際上此書(shū)涉入很深,除了講授了基本的manifold, tangent space, bundle, sub-manifold等,還探討了諸如綱理論(Category theory),德拉姆上同調(diào)(De Rham cohomology)和積分流形等一些比較高級(jí)的專題。對(duì)于李群和李代數(shù)也有相當(dāng)多的討論。行文通俗而又不失嚴(yán)謹(jǐn),不過(guò)對(duì)某些記號(hào)方式需要熟悉一下。

雖然李群論是建基于平滑流形的概念之上,不過(guò),也可能從矩陣出發(fā)直接學(xué)習(xí)李群和李代數(shù)——這種方法對(duì)于急需使用李群論解決問(wèn)題的朋友可能更加實(shí)用。而且,對(duì)于一個(gè)問(wèn)題從不同角度看待也利于加深理解。下面一本書(shū)就是這個(gè)方向的典范:

Lie Groups, Lie Algebras, and Representations: An Elementary Introduction.  by Brian C. Hall

此書(shū)從開(kāi)始即從矩陣切入,從代數(shù)而非幾何角度引入矩陣?yán)钊旱母拍睢2⑼ㄟ^(guò)定義運(yùn)算的方式建立exponential mapping,并就此引入李代數(shù)。這種方式比起傳統(tǒng)的通過(guò)“左不變向量場(chǎng)(Left-invariant vector field)“的方式定義李代數(shù)更容易為人所接受,也更容易揭示李代數(shù)的意義。最后,也有專門的論述把這種新的定義方式和傳統(tǒng)方式聯(lián)系起來(lái)。

————————————————————————————

無(wú)論是研究Vision, Learning還是其它別的學(xué)科,數(shù)學(xué)終究是根基所在。學(xué)好數(shù)學(xué)是做好研究的基石。學(xué)好數(shù)學(xué)的關(guān)鍵歸根結(jié)底是自己的努力,但是選擇一本好的書(shū)還是大有益 處的。不同的人有不同的知識(shí)背景,思維習(xí)慣和研究方向,因此書(shū)的選擇也因人而異,只求適合自己,不必強(qiáng)求一致。上面的書(shū)僅僅是從我個(gè)人角度的出發(fā)介紹的, 我的閱讀經(jīng)歷實(shí)在非常有限,很可能還有比它們更好的書(shū)(不妨也告知我一聲,先說(shuō)聲謝謝了)。





]]>
拓?fù)洌河巫哂谥庇^與抽象之間zzhttp://www.shnenglu.com/bneliao/articles/61181.htmlbneliaobneliaoSat, 06 Sep 2008 16:05:00 GMThttp://www.shnenglu.com/bneliao/articles/61181.htmlhttp://www.shnenglu.com/bneliao/comments/61181.htmlhttp://www.shnenglu.com/bneliao/articles/61181.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61181.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61181.html6月22日

拓?fù)洌河巫哂谥庇^與抽象之間

近日來(lái),抽空再讀了一遍點(diǎn)集拓?fù)?Point Set Topology),這是我第三次重新學(xué)習(xí)這個(gè)理論了。我看電視劇和小說(shuō),極少能有興致看第二遍,但是,對(duì)于數(shù)學(xué),每看一次都有新的啟發(fā)和收獲。

代 數(shù),分析,和拓?fù)洌环Q為是現(xiàn)代數(shù)學(xué)的三大柱石。最初讀拓?fù)洌窃趦扇昵埃捎趯W(xué)習(xí)流形理論的需要。可是,隨著知識(shí)的積累,發(fā)現(xiàn)它是很多理論的根基。可 以說(shuō),沒(méi)有拓?fù)洌蜎](méi)有現(xiàn)代意義的分析與幾何。我們?cè)诟鞣N數(shù)學(xué)分支中接觸到的最基本的概念,比如,極限,連續(xù),距離(度量),邊界,路徑,在現(xiàn)代數(shù)學(xué)中, 都源于拓?fù)洹?

拓?fù)鋵W(xué)是一門非常奇妙的學(xué)科,它把最直觀的現(xiàn)象和最抽象的概念聯(lián)系在一起了。拓?fù)涿枋龅氖瞧毡槭褂玫母拍睿ū热玳_(kāi)集,閉 集,連續(xù)),我們對(duì)這些概念習(xí)以為常,理所當(dāng)然地使用著,可是,真要定義它,則需要對(duì)它們本質(zhì)的最深刻的洞察。數(shù)學(xué)家們經(jīng)過(guò)長(zhǎng)時(shí)間的努力,得到了這些概念 的現(xiàn)代定義。這里面很多第一眼看上去,會(huì)感覺(jué)驚奇——怎么會(huì)定義成這個(gè)樣子。

首先是開(kāi)集。在學(xué)習(xí)初等數(shù)學(xué)時(shí),我們都學(xué)習(xí)開(kāi)區(qū)間 (a, b)。可是,這只是在一條線上的,怎么推廣到二維空間,或者更高維空間,或者別的形體上呢?最直觀的想法,就是“一個(gè)不包含邊界的集合”。可是,問(wèn)題來(lái) 了,給一個(gè)集合,何謂“邊界”?在拓?fù)鋵W(xué)里面,開(kāi)集(Open Set)是最根本的概念,它是定義在集合運(yùn)算的基礎(chǔ)上的。它要求開(kāi)集符合這樣的條件:開(kāi)集的任意并集和有限交集仍為開(kāi)集。

我最初的時(shí) 候,對(duì)于這樣的定義方式,確實(shí)百思不解。不過(guò),讀下去,看了和做了很多證明后,發(fā)現(xiàn),這樣的定義一個(gè)很重要的意義在于:它保證了開(kāi)集中每個(gè)點(diǎn)都有一個(gè)鄰域 包含在這個(gè)集合內(nèi)——所有點(diǎn)都和外界(補(bǔ)集)保持距離。這樣的理解應(yīng)該比使用集合運(yùn)算的定義有更明晰的幾何意義。但是,直觀的東西不容易直接形成嚴(yán)謹(jǐn)?shù)亩? 義,使用集合運(yùn)算則更為嚴(yán)格。而集合運(yùn)算定義中,任意并集的封閉性是對(duì)這個(gè)幾何特點(diǎn)的內(nèi)在保證。

另外一個(gè)例子就是“連續(xù)函數(shù) ”(Continuous Function)。在學(xué)微積分時(shí),一個(gè)耳熟能詳?shù)亩x是“對(duì)任意的epsilon > 0,存在delta > 0,使得 。。。。”,背后最直觀的意思就是“足夠近的點(diǎn)保證映射到任意小的范圍內(nèi)”。可是,epsilon, delta都依賴于實(shí)空間,不在實(shí)空間的映射又怎么辦呢?拓?fù)涞亩x是“如果一個(gè)映射的值域中任何開(kāi)集的原像都是開(kāi)集,那么它連續(xù)。”這里就沒(méi)有 epsilon什么事了。

這里的關(guān)鍵在于,在拓?fù)鋵W(xué)中,開(kāi)集的最重要意義就是要傳遞“鄰域”的意思——開(kāi)集本身就是所含點(diǎn)的鄰域。這樣連續(xù)定義成這樣就順理成章了。稍微把說(shuō)法調(diào)節(jié)一下,上面的定義就變成了“對(duì)于f(x)的任意領(lǐng)域U,都有x的一個(gè)鄰域V,使得V里面的點(diǎn)都映射到U中。”

這里面,我們可以感受到為什么開(kāi)集在拓?fù)鋵W(xué)中有根本性的意義。既然開(kāi)集傳達(dá)“鄰域”的意思,那么,它最重要的作用就是要表達(dá)哪些點(diǎn)靠得比較近。給出一個(gè)拓?fù)浣Y(jié)構(gòu),就是要指出哪些是開(kāi)集,從而指出哪些點(diǎn)靠得比較近,這樣就形成了一個(gè)聚集結(jié)構(gòu)——這就是拓?fù)洹?

可是這也可以通過(guò)距離來(lái)描述,為什么要用開(kāi)集呢,反而不直觀了。某種意義上說(shuō),拓?fù)涫?#8220;定性”的,距離度量是“定量”的。隨著連續(xù)變形,距離會(huì)不斷變化,但是靠近的點(diǎn)還是靠近,因此本身固有的拓?fù)涮匦圆粫?huì)改變。拓?fù)鋵W(xué)研究的就是這種本質(zhì)特性——連續(xù)變化中的不變性。

在 拓?fù)涞幕靖拍钪校盍钊速M(fèi)解的,莫過(guò)于“緊性”(Compactness)。它描述一個(gè)空間或者一個(gè)集合“緊不緊”。正式的定義是“如果一個(gè)集合的任意 開(kāi)覆蓋都有有限子覆蓋,那么它是緊的”。乍一看,實(shí)在有點(diǎn)莫名其妙。它究竟想描述一個(gè)什么東西呢?和“緊”這個(gè)形容詞又怎么扯上關(guān)系呢?

一 個(gè)直觀一點(diǎn)的理解,幾個(gè)集合是“緊”的,就是說(shuō),無(wú)限個(gè)點(diǎn)撒進(jìn)去,不可能充分散開(kāi)。無(wú)論鄰域多么小,必然有一些鄰域里面有無(wú)限個(gè)點(diǎn)。上面關(guān)于 compactness的這個(gè)定義的玄機(jī)就在有限和無(wú)限的轉(zhuǎn)換中。一個(gè)緊的集合,被無(wú)限多的小鄰域覆蓋著,但是,總能找到其中的有限個(gè)就能蓋全。那么,后 果是什么呢?無(wú)限個(gè)點(diǎn)撒進(jìn)去,總有一個(gè)鄰域包著無(wú)數(shù)個(gè)點(diǎn)。鄰域們?cè)僭趺葱《际沁@樣——這就保證了無(wú)限序列中存在極限點(diǎn)。

Compact這個(gè)概念雖然有點(diǎn)不那么直觀,可是在分析中有著無(wú)比重要的作用。因?yàn)樗P(guān)系到極限的存在性——這是數(shù)學(xué)分析的基礎(chǔ)。了解泛函分析的朋友都知道,序列是否收斂,很多時(shí)候就看它了。微積分中,一個(gè)重要的定理——有界數(shù)列必然包含收斂子列,就是根源于此。

在 學(xué)習(xí)拓?fù)洌蛘咂渌F(xiàn)代數(shù)學(xué)理論之前,我們的數(shù)學(xué)一直都在有限維歐氏空間之中,那是一個(gè)完美的世界,具有一切良好的屬性,Hausdorff, Locally compact, Simply connected,Completed,還有一套線性代數(shù)結(jié)構(gòu),還有良好定義的度量,范數(shù),與內(nèi)積。可是,隨著研究的加深,終究還是要走出這個(gè)圈子。這 個(gè)時(shí)候,本來(lái)理所當(dāng)然的東西,變得不那么必然了。

       兩個(gè)點(diǎn)必然能分開(kāi)?你要證明空間是Hausdorff的。

       有界數(shù)列必然存在極限點(diǎn)?這只在locally compact的空間如此。

       一個(gè)連續(xù)體內(nèi)任意兩點(diǎn)必然有路徑連接?這可未必。

一 切看上去有悖常理,而又確實(shí)存在。從線性代數(shù)到一般的群,從有限維到無(wú)限維,從度量空間到拓?fù)淇臻g,整個(gè)認(rèn)識(shí)都需要重新清理。而且,這些絕非僅是數(shù)學(xué)家的 概念游戲,因?yàn)槲覀兊氖澜绮皇怯邢蘧S向量能充分表達(dá)的。當(dāng)我們研究一些不是向量能表達(dá)的東西的時(shí)候,度量,代數(shù),以及分析的概念,都要重新建立,而起點(diǎn)就 在拓?fù)洹?/p>





]]>
圖˙譜˙馬爾可夫過(guò)程˙聚類結(jié)構(gòu)zzhttp://www.shnenglu.com/bneliao/articles/61180.htmlbneliaobneliaoSat, 06 Sep 2008 15:47:00 GMThttp://www.shnenglu.com/bneliao/articles/61180.htmlhttp://www.shnenglu.com/bneliao/comments/61180.htmlhttp://www.shnenglu.com/bneliao/articles/61180.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61180.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61180.html圖˙譜˙馬爾可夫過(guò)程˙聚類結(jié)構(gòu)

題目中所說(shuō)到的四個(gè)詞語(yǔ),都是Machine Learning以及相關(guān)領(lǐng)域中熱門的研究課題。表面看屬于不同的topic,實(shí)際上則是看待同一個(gè)問(wèn)題的不同角度。不少文章論述了它們之間的一些聯(lián)系,讓大家看到了這個(gè)世界的奇妙。

從圖說(shuō)起

這里面,最簡(jiǎn)單的一個(gè)概念就是“圖”(Graph),它用于表示事物之間的相互聯(lián)系。每個(gè)圖有一批節(jié)點(diǎn)(Node),每個(gè)節(jié)點(diǎn)表示一個(gè)對(duì) 象,通過(guò)一些邊(Edge)把這些點(diǎn)連在一起,表示它們之間的關(guān)系。就這么一個(gè)簡(jiǎn)單的概念,它對(duì)學(xué)術(shù)發(fā)展的意義可以說(shuō)是無(wú)可估量的。幾乎所有領(lǐng)域研究的東 西,都是存在相互聯(lián)系的,通過(guò)圖,這些聯(lián)系都具有了一個(gè)統(tǒng)一,靈活,而又強(qiáng)大的數(shù)學(xué)抽象。因此,很多領(lǐng)域的學(xué)者都對(duì)圖有著深入探討,而且某個(gè)領(lǐng)域關(guān)于圖的 研究成果,可以被其它領(lǐng)域借鑒。

矩陣表示:讓代數(shù)進(jìn)入圖的世界

在數(shù)學(xué)上,一種被普遍使用的表達(dá)就是鄰接矩陣(Adjacency Matrix)。一個(gè)有N個(gè)節(jié)點(diǎn)的圖,可以用一個(gè)N x N的矩陣G表示,G(i, j)用一個(gè)值表示第i個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)的聯(lián)系,通常來(lái)說(shuō)這個(gè)值越大它們關(guān)系越密切,這個(gè)值為0表示它們不存在直接聯(lián)系。這個(gè)表達(dá),很直接,但是非常重 要,因?yàn)樗褦?shù)學(xué)上兩個(gè)非常根本的概念聯(lián)系在一起:“圖”(Graph)和“矩陣”(Matrix)。矩陣是代數(shù)學(xué)中最重要的概念,給了圖一個(gè)矩陣表達(dá), 就建立了用代數(shù)方法研究圖的途徑。數(shù)學(xué)家們幾十年前開(kāi)始就看到了這一點(diǎn),并且開(kāi)創(chuàng)了數(shù)學(xué)上一個(gè)重要的分支——代數(shù)圖論(Algebraic Graph Theory)。

代數(shù)圖論通過(guò)圖的矩陣表達(dá)來(lái)研究圖。熟悉線性代數(shù)的朋友知道,代數(shù)中一個(gè)很重要的概念叫做“譜”(Spectrum)。一個(gè)矩陣的很多 特性和它的譜結(jié)構(gòu)——就是它的特征值和特征向量是密切相關(guān)的。因此,當(dāng)我們獲得一個(gè)圖的矩陣表達(dá)之后,就可以通過(guò)研究這個(gè)矩陣的譜結(jié)構(gòu)來(lái)研究圖的特性。通 常,我們會(huì)分析一個(gè)圖的鄰接矩陣(Adjacency Matrix)或者拉普拉斯矩陣(Laplace Matrix)的譜——這里多說(shuō)一句,這兩種矩陣的譜結(jié)構(gòu)剛好是對(duì)稱的。

譜:“分而治之”的代數(shù)

譜,這個(gè)詞匯似乎在不少地方出現(xiàn)過(guò),比如我們可能更多聽(tīng)說(shuō)的頻譜,光譜,等等。究竟什么叫“譜”呢?它的概念其實(shí)并不神秘,簡(jiǎn)單地說(shuō),譜這 個(gè)概念來(lái)自“分而治之”的策略。一個(gè)復(fù)雜的東西不好直接研究,就把它分解成簡(jiǎn)單的分量。如果我們把一個(gè)東西看成是一些分量疊加而成,那么這些分量以及它們 各自所占的比例,就叫這個(gè)東西的譜。所謂頻譜,就是把一個(gè)信號(hào)分解成多個(gè)頻率單一的分量。

矩陣的譜,就是它的特征值和特征向量,普通的線性代數(shù)課本會(huì)告訴你定義:如果A v = c v,那么c 就是A的特征值,v就叫特征向量。這僅僅是數(shù)學(xué)家發(fā)明的一種數(shù)學(xué)游戲么?——也許有些人剛學(xué)這個(gè)的時(shí)候,并一定能深入理解這么個(gè)公式代表什么。其實(shí),這里 的譜,還是代表了一種分量結(jié)構(gòu),它為使用“分而治之”策略來(lái)研究矩陣的作用打開(kāi)了一個(gè)重要途徑。這里我們可以把矩陣?yán)斫鉃橐粋€(gè)操作(operator), 它的作用就是把一個(gè)向量變成另外一個(gè)向量:y = A x。對(duì)于某些向量,矩陣對(duì)它的作用很簡(jiǎn)單,A v = cv,相當(dāng)于就把這個(gè)向量v 拉長(zhǎng)了c倍。我們把這種和矩陣A能如此密切配合的向量v1, v2, ... 叫做特征向量,這個(gè)倍數(shù)c1, c2, ...叫特征值。那么來(lái)了一個(gè)新的向量x 的時(shí)候,我們就可以把x 分解為這些向量的組合,x = a1 v1 + a2 v2 + ...,那么A對(duì)x的作用就可以分解了:A x = A (a1 v1 + a2 v2 + ...) = a1 c1 v1 + a2 c2 v2 ... 所以,矩陣的譜就是用于分解一個(gè)矩陣的作用的。

這里再稍微延伸一點(diǎn)。一個(gè)向量可以看成一個(gè)關(guān)于整數(shù)的函數(shù),就是輸入i,它返回v( i )。它可以延伸為一個(gè)連續(xù)函數(shù)(一個(gè)長(zhǎng)度無(wú)限不可數(shù)的向量,呵呵),相應(yīng)的矩陣 A 變成一個(gè)二元連續(xù)函數(shù)(面積無(wú)限大的矩陣)。這時(shí)候矩陣乘法中的求和變成了積分。同樣的,A的作用可以理解為把一個(gè)連續(xù)函數(shù)映射為另外一個(gè)連續(xù)函數(shù),這時(shí) 候A不叫矩陣,通常被稱為算子。對(duì)于算子,上面的譜分析方法同樣適用(從有限到無(wú)限,在數(shù)學(xué)上還需要處理一下,不多說(shuō)了)——這個(gè)就是泛函分析中的一個(gè)重 要部分——譜論(Spectral Theory)。

馬爾可夫過(guò)程——從時(shí)間的角度理解圖

回到“圖”這個(gè)題目,那么圖的譜是干什么的呢?按照上面的理解,似乎是拿來(lái)分解一個(gè)圖的。這里譜的作用還是分治,但是,不是直觀的理解為把 圖的大卸八塊,而是把要把在圖上運(yùn)行的過(guò)程分解成簡(jiǎn)單的過(guò)程的疊加。如果一個(gè)圖上每個(gè)節(jié)點(diǎn)都有一個(gè)值,那么在圖上運(yùn)行的過(guò)程就是對(duì)這些值進(jìn)行更新的過(guò)程。 一個(gè)簡(jiǎn)單,大家經(jīng)常使用的過(guò)程,就是馬爾可夫過(guò)程(Markov Process)。

學(xué)過(guò)隨機(jī)過(guò)程的朋友都了解馬爾可夫過(guò)程。概念很簡(jiǎn)單——“將來(lái)只由現(xiàn)在決定,和過(guò)去無(wú)關(guān)”。考慮一個(gè)圖,圖上每個(gè)點(diǎn)有一個(gè)值,會(huì)被不斷 更新。每個(gè)點(diǎn)通過(guò)一些邊連接到其它一些點(diǎn)上,對(duì)于每個(gè)點(diǎn),這些邊的值都是正的,和為1。在圖上每次更新一個(gè)點(diǎn)的值,就是對(duì)和它相連接的點(diǎn)的值加權(quán)平均。如 果圖是聯(lián)通并且非周期(數(shù)學(xué)上叫各態(tài)歷經(jīng)性, ergodicity),那么這個(gè)過(guò)程最后會(huì)收斂到一個(gè)唯一穩(wěn)定的狀態(tài)(平衡狀態(tài))。

圖上的馬爾可夫更新過(guò)程,對(duì)于很多學(xué)科有著非常重要的意義。這種數(shù)學(xué)抽象,可以用在什么地方呢?(1) Google對(duì)搜索結(jié)果的評(píng)估(PageRank)原理上依賴于這個(gè)核心過(guò)程,(2) 統(tǒng)計(jì)中一種廣泛運(yùn)用的采樣過(guò)程MCMC,其核心就是上述的轉(zhuǎn)移過(guò)程,(3) 物理上廣泛存在的擴(kuò)散過(guò)程(比如熱擴(kuò)散,流體擴(kuò)散)和上面的過(guò)程有很重要的類比,(4) 網(wǎng)絡(luò)中的信息的某些歸納與交換過(guò)程和上述過(guò)程相同 (比如Random Gossiping),還有很多。非常多的實(shí)際過(guò)程通過(guò)某種程度的簡(jiǎn)化和近似,都可以歸結(jié)為上述過(guò)程。因此,對(duì)上面這個(gè)核心過(guò)程的研究,對(duì)于很多現(xiàn)象的理 解有重要的意義。各個(gè)領(lǐng)域的科學(xué)家從本領(lǐng)域的角度出發(fā)研究這個(gè)過(guò)程,得出了很多實(shí)質(zhì)上一致的結(jié)論,并且很多都落在了圖的譜結(jié)構(gòu)的這個(gè)關(guān)鍵點(diǎn)上。

圖和譜在此聯(lián)姻

根據(jù)上面的定義,我們看到鄰接矩陣A其實(shí)就是這個(gè)馬爾可夫過(guò)程的轉(zhuǎn)移概率矩陣。我們把各個(gè)節(jié)點(diǎn)的值放在一起可以得到一個(gè)向量v,那么我們就 可以獲得對(duì)這個(gè)過(guò)程的代數(shù)表示, v(t+1) = A v(t)。穩(wěn)定的時(shí)候,v = A v。我們可以看到穩(wěn)定狀態(tài)就是A的一個(gè)特征向量,特征值就是1。這里譜的概念進(jìn)來(lái)了。我們把A的特征向量都列出來(lái)v1, v2, ...,它們有 A vi = ci vi。vi其實(shí)就是一種很特殊,但是很簡(jiǎn)單的狀態(tài),對(duì)它每進(jìn)行一輪更新,所有節(jié)點(diǎn)的值就變成原來(lái)的ci倍。如果0 < ci < 1,那么,相當(dāng)于所有節(jié)點(diǎn)的值呈現(xiàn)指數(shù)衰減,直到大家都趨近于0。

一般情況下,我們開(kāi)始于一個(gè)任意一個(gè)狀態(tài)u,它的更新過(guò)程就沒(méi)那么簡(jiǎn)單了。我們用譜的方法來(lái)分析,把u分解成 u = v1 + c2 v2 + c3 v3 + ... (在數(shù)學(xué)上可以嚴(yán)格證明,對(duì)于上述的轉(zhuǎn)移概率矩陣,最大的特征值就是1,這里對(duì)應(yīng)于平衡狀態(tài)v1,其它的特征狀態(tài)v2, v3, ..., 對(duì)應(yīng)于特征值1 > c2 > c3 > ... > -1)。那么,我們可以看到,當(dāng)更新進(jìn)行了t 步之后,狀態(tài)變成 u(t) = v1 + c2^t v2 + c3^t v3 + ...,我們看到,除了代表平衡狀態(tài)的分量保持不變外,其它分量隨著t 增長(zhǎng)而指數(shù)衰減,最后,其它整個(gè)趨近于平衡狀態(tài)。

從上面的分析看到,這個(gè)過(guò)程的收斂速度,其實(shí)是和衰減得最慢的那個(gè)非平衡分量是密切相關(guān)的,它的衰減速度取決于第二大特征值c2,c2 的大小越接近于1,收斂越慢,越接近于0,收斂越快。這里,我們看到了譜的意義。第一,它幫助把一個(gè)圖上運(yùn)行的馬爾可夫過(guò)程分解為多個(gè)簡(jiǎn)單的字過(guò)程的疊 加,這里面包含一個(gè)平衡過(guò)程和多個(gè)指數(shù)衰減的非平衡過(guò)程。第二,它指出平衡狀態(tài)是對(duì)應(yīng)于最大特征值1的分量,而收斂速度主要取決于第二大特征值。

我們這里知道了第二大特征值c2對(duì)于描述這個(gè)過(guò)程是個(gè)至關(guān)重要的量,究竟是越大越好,還是越小越好呢?這要看具體解決的問(wèn)題。如果你要 設(shè)計(jì)一個(gè)采樣過(guò)程或者更新過(guò)程,那么就要追求一個(gè)小的c2,它一方面提高過(guò)程的效率,另外一方面,使得圖的結(jié)構(gòu)改變的時(shí)候,能及時(shí)收斂,從而保證過(guò)程的穩(wěn) 定。而對(duì)于網(wǎng)絡(luò)而言,小的c2有利于信息的迅速擴(kuò)散和傳播。

聚類結(jié)構(gòu)——從空間的角度理解圖

c2的大小往往取決于圖上的聚類結(jié)構(gòu)。如果圖上的點(diǎn)分成幾組,各自聚成一團(tuán),缺乏組與組之間的聯(lián)系,那么這種結(jié)構(gòu)是很不利于擴(kuò)散的。在某些 情況下,甚至需要O(exp(N))的時(shí)間才能收斂。這也符合我們的直觀想象,好比兩個(gè)大水缸,它們中間的只有一根很細(xì)的水管相連,那么就需要好長(zhǎng)時(shí)間才 能達(dá)到平衡。有興趣的朋友可以就這個(gè)水缸問(wèn)題推導(dǎo)一下,這個(gè)水缸系統(tǒng)的第二大特征值和水管流量與水缸的容積的比例直接相關(guān),隨比例增大而下降。

對(duì)于這個(gè)現(xiàn)象進(jìn)行推廣,數(shù)學(xué)上有一個(gè)重要的模型叫導(dǎo)率模型(Conductance)。具體的公式不說(shuō)了,大體思想是,節(jié)點(diǎn)集之間的導(dǎo) 通量和節(jié)點(diǎn)集大小的平均比例和第二大特征值之間存在一個(gè)單調(diào)的上下界關(guān)系。導(dǎo)率描述的是圖上的節(jié)點(diǎn)連接的空間結(jié)合,這個(gè)模型把第二特征值c2和圖的空間聚 集結(jié)構(gòu)聯(lián)系在一起了。

圖上的聚類結(jié)構(gòu)越明顯, c2越大;反過(guò)來(lái)說(shuō),c2越大,聚類的結(jié)構(gòu)越明顯,(c2 = 1)時(shí),整個(gè)圖就斷裂成非連通的兩塊或者多塊了。從這個(gè)意義上說(shuō),c2越大,越容易對(duì)這個(gè)圖上的點(diǎn)進(jìn)行聚類。機(jī)器學(xué)習(xí)中一個(gè)重要課題叫做聚類,近十年來(lái), 基于代數(shù)圖論發(fā)展出來(lái)的一種新的聚類方法,就是利用了第二大特征值對(duì)應(yīng)的譜結(jié)構(gòu),這種聚類方法叫做譜聚類(Spectral Clustering)。它在Computer Vision里面對(duì)應(yīng)于一種著名的圖像分割方法,叫做Normalized Cut。很多工作在使用這種方法。其實(shí)這種方法的成功,取決于c2的大小,也就是說(shuō)取決于我們?nèi)绾螛?gòu)造出一個(gè)利于聚類的圖,另外c2的值本身也可以作為衡 量聚類質(zhì)量,或者可聚類性的標(biāo)志。遺憾的是,在paper里面,使用此方法者眾,深入探討此方法的內(nèi)在特點(diǎn)者少。

歸納起來(lái)

圖是表達(dá)事物關(guān)系和傳遞擴(kuò)散過(guò)程的重要數(shù)學(xué)抽象

圖的矩陣表達(dá)提供了使用代數(shù)方法研究圖的途徑

譜,作為一種重要的代數(shù)方法,其意義在于對(duì)復(fù)雜對(duì)象和過(guò)程進(jìn)行分解

圖上的馬爾可夫更新過(guò)程是很多實(shí)際過(guò)程的一個(gè)重要抽象

圖的譜結(jié)構(gòu)的重要意義在于通過(guò)它對(duì)馬爾可夫更新過(guò)程進(jìn)行分解分析

圖的第一特征值對(duì)應(yīng)于馬爾可夫過(guò)程的平衡狀態(tài),第二特征值刻畫(huà)了這個(gè)過(guò)程的收斂速度(采樣的效率,擴(kuò)散和傳播速度,網(wǎng)絡(luò)的穩(wěn)定程度)。

圖的第二特征分量與節(jié)點(diǎn)的聚類結(jié)構(gòu)密切相關(guān)。可以通過(guò)譜結(jié)構(gòu)來(lái)分析圖的聚類結(jié)構(gòu)。

馬爾可夫過(guò)程代表了一種時(shí)間結(jié)構(gòu),聚類結(jié)構(gòu)代表了一種空間結(jié)構(gòu),“譜”把它們聯(lián)系在一起了,在數(shù)學(xué)刻畫(huà)了這種時(shí)與空的深刻關(guān)系




]]>
How to get a solution?zzhttp://www.shnenglu.com/bneliao/articles/61178.htmlbneliaobneliaoSat, 06 Sep 2008 15:39:00 GMThttp://www.shnenglu.com/bneliao/articles/61178.htmlhttp://www.shnenglu.com/bneliao/comments/61178.htmlhttp://www.shnenglu.com/bneliao/articles/61178.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61178.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61178.html4月10日

How to get a solution?

我們所做的topic,一般有幾個(gè)階段:

Analysis: 分析問(wèn)題,找到問(wèn)題的關(guān)鍵

Modeling / Formulation:  對(duì)問(wèn)題進(jìn)行數(shù)學(xué)抽象,建立模型,或者formulate目標(biāo)函數(shù)

Solving: 設(shè)計(jì)出求解的算法

Experiments: 實(shí)驗(yàn)

最近的工作都集中在Solving這部分,就說(shuō)說(shuō)這個(gè)吧。

求解的方法

求解問(wèn)題有很多不同的方法,就我知道的來(lái)說(shuō),大概有這么幾個(gè)大家族。

  1. Heuristics。 就是根據(jù)對(duì)問(wèn)題的觀察而設(shè) 計(jì)的一些簡(jiǎn)單的方法,不一定遵循什么規(guī)范,或者有什么深刻的數(shù)學(xué)根據(jù)。這類方法往往比較簡(jiǎn)單易懂,intuition比較明顯,很多時(shí)候 performance也挺不錯(cuò)的,不見(jiàn)得比高深的方法差,因而在實(shí)際工程中很受歡迎,幾乎應(yīng)用在全部的學(xué)科。不過(guò),好像很多朋友對(duì)這類方法頗為不屑,認(rèn) 為“沒(méi)有技術(shù)含量”,或者叫做“沒(méi)有理論深度”。

    確實(shí),有相當(dāng)部分的Heuristics純粹粗制濫造,投機(jī)取巧。不過(guò),還有很多Heuristics雖然簡(jiǎn)單,但是切中問(wèn)題要害,在 長(zhǎng)期的復(fù)雜的實(shí)際應(yīng)用中經(jīng)受住了考驗(yàn)。這些方法,表面看來(lái)可能只是再簡(jiǎn)單不過(guò)的幾條四則運(yùn)算公式,說(shuō)不上多少理論,但是并不代表它沒(méi)有深刻的理論基礎(chǔ)。一 個(gè)典型的例子是Google PageRank中使用的傳導(dǎo)公式(簡(jiǎn)單版本),道理和公式都很簡(jiǎn)單,可是,做過(guò)類似工作的朋友可能都知道,它和代數(shù)圖論以及馬爾可夫隨機(jī)過(guò)程有著很深的 聯(lián)系。 又比如,F(xiàn)ourier Transform在剛出來(lái)的時(shí)候,僅僅是工程師的一些heuristics,后來(lái)關(guān)于它的理論已經(jīng)成為了泛函分析的一個(gè)核心組成部分,也是信號(hào)處理的理 論基礎(chǔ)之一。

    真正好的heuristics,它的好處肯定不是瞎懵出來(lái),而是有內(nèi)在原因的。對(duì)它們的原理的探索,不斷帶動(dòng)理論方面的發(fā)展,甚至創(chuàng)造 了新的理論方向。說(shuō)到這里,有人可能會(huì)argue,這是“理論家們?cè)诠逝摶祜埑?#8221;。Hmm,這種說(shuō)法我不能認(rèn)同,但是,確實(shí)存在“把工程方法胡亂進(jìn)行 理論化”的事實(shí)。什么才叫有價(jià)值的理論化,而不是故弄玄虛,確實(shí)值得思考,這里先不展開(kāi)了。

  2. Analytical Solution。 當(dāng)你把 問(wèn)題formulate出來(lái)后,有些情況是直接可以從問(wèn)題推導(dǎo)出解析解的。這種情況通常存在于objective function是Linear或者Quadratic的情況。大家都很喜歡這種情況的出現(xiàn),理論漂亮,實(shí)現(xiàn)簡(jiǎn)潔。但是,據(jù)我的觀察,很多情況下,這種 elegance是通過(guò)減化模型換取的。把cost寫(xiě)成quadratic term,把distribution假設(shè)為Gauss,很多時(shí)候都能得到這樣的結(jié)果。

    我不反對(duì)進(jìn)行簡(jiǎn)化,也欣賞漂亮的analytical solution,如果它把問(wèn)題解決得很好。但是,這里面有個(gè)問(wèn)題,很多能獲得簡(jiǎn)單解析解的問(wèn)題已經(jīng)被做過(guò)了,剩下的很多難點(diǎn),未必是一個(gè)簡(jiǎn)化模型能有效 解決的。簡(jiǎn)化是一種很好的方法,但是,使用起來(lái),尤其是在實(shí)際中的應(yīng)用必須慎重,要清楚了解它們可能帶來(lái)的問(wèn)題。

    比如說(shuō),很多模型喜歡使用差的平方來(lái)衡量誤差大小。但是,這很早就被指出是unrobust的,一個(gè)很大的deviation會(huì) dominate整個(gè)optimization,使得solution嚴(yán)重偏離方向。如果這種robustness在帶解決的問(wèn)題中是一個(gè)必須考慮的要 素,那么用平方誤差就要仔細(xì)考慮了。

  3. Numerical Optimization。 如 果formulation沒(méi)有解析解,那么自然的想法就是使用數(shù)值方法求解。目前大家常用的是基于Gradient/Hessian之類的local optimization的方法,有時(shí)會(huì)加上random initialization。如果objective function是convex的,那么這種方法保證收斂到global optimal,這是大家很希望的。convex problem無(wú)論在formulation還是在solution的階段,都是很有學(xué)問(wèn)的。很多問(wèn)題可以formulate成convex的,但是未必 都那么直接,這需要有這方面的基礎(chǔ)。Solving一個(gè)convex problem有現(xiàn)成的方法,但是,如果能對(duì)問(wèn)題的結(jié)構(gòu)有insightful的觀察,可能能利用問(wèn)題本身的特點(diǎn)大幅度降低求解的復(fù)雜度——這往往比直接 把問(wèn)題扔進(jìn)solver里面等答案更有意義。

    除了convex optimization,還有一種數(shù)值方法應(yīng)用非常廣泛,叫做coordinate ascend或者alternate optimization。大概的思路是,幾個(gè)有關(guān)的變量,輪流選擇某個(gè)去優(yōu)化,暫時(shí)固定其它的。在Machine Learning里面非常重要的Expectation-Maximization (EM算法)就屬于這個(gè)大家族。另外,很多復(fù)雜的graphical model采用的variational inference也是屬于此類。使用這類方法,有兩個(gè)問(wèn)題:一個(gè)是如果幾個(gè)variable之間相互影響,變一個(gè),其他跟著變的話,那么直接使用這種方 法可能是錯(cuò)誤的,并不能保證收斂。另外一個(gè)問(wèn)題是,如果problem不是convex的話,可能沒(méi)有任何保證你得到的solution和global solution有聯(lián)系。很可能,你得到的解和真正的全局最優(yōu)解相差十萬(wàn)八千里。這個(gè)沒(méi)有什么通用有效的途徑來(lái)解決。不過(guò),針對(duì)具體問(wèn)題的結(jié)構(gòu)特點(diǎn),在求 解過(guò)程中施加一定的引導(dǎo)是有可能的。

  4. Dynamic Programming。 這個(gè)方 法更多見(jiàn)于經(jīng)典計(jì)算機(jī)算法中,不過(guò)現(xiàn)在越來(lái)越多在Vision和Learning見(jiàn)到它的影子。主要思路是把大問(wèn)題分解為小問(wèn)題,總結(jié)小問(wèn)題的 solution為大問(wèn)題的solution。至于如何設(shè)計(jì)分解和綜合的過(guò)程,依賴于對(duì)問(wèn)題的觀察和分析,并無(wú)通用的法則可循。用DP解決問(wèn)題的洞察力需 要逐步的積累。不少經(jīng)典算法就源自于DP,比如shotest path。一個(gè)可能有用的觀察是,如果問(wèn)題或者模型呈現(xiàn)鏈狀,樹(shù)狀,或者有向無(wú)環(huán)圖結(jié)構(gòu)的,可能很有希望能通過(guò)DP高效解決。

  5. Local Exchange。 很多建立在圖上的 問(wèn)題,都可以通過(guò)某種局部交換來(lái)達(dá)到全局的平衡。像Belief propagation, Junction tree等等在graphical model的重要inference方法,還有tranduction model,都用到了類似的策略。這在實(shí)踐中被證明為非常有效。但是,并不是隨便設(shè)計(jì)的局部交換過(guò)程都是收斂的。這里面需要關(guān)注兩個(gè)問(wèn)題:(1)交換過(guò)程 是不是能保證某些重要的invariance不被破壞;(2)交換過(guò)程中,是不是有一個(gè)objective,比如距離全局平衡的deviation,它在 每一步都保持單調(diào)。有很多交換過(guò)程,在有向無(wú)環(huán)圖中保證收斂,但是,在帶環(huán)圖中由于信息的重復(fù)傳遞可能引起不穩(wěn)定,或者不能收斂到正確的解。

  6. Monte Carlo Sampling。 蒙特 卡羅采樣的原理非常簡(jiǎn)單,就是用樣本平均,來(lái)逼近期望(這個(gè)可能需要用intractable的積分完成,沒(méi)法直接算)。求平均很簡(jiǎn)單,關(guān)鍵在于采樣過(guò) 程。我們求解問(wèn)題,通常是在后驗(yàn)分布中采樣,這種分布在大部分問(wèn)題中,不要說(shuō)直接采樣了,可能連解析形式都沒(méi)法給出。如果采樣問(wèn)題有效解決了,基本上我們 研究的大部分問(wèn)題其實(shí)都可以通過(guò)采樣完成。

    由于直接采樣往往非常困難,于是就產(chǎn)生了其它的方法,間接做這個(gè)事情。一種想法就是,既然p(x)不好直接采,我找一個(gè)比較容易采樣的 q(x)來(lái)逼近p(x),然后給從q(x)采出的每個(gè)樣本加一個(gè)weight,p(x) / q(x)。這在理論上被嚴(yán)格證明是對(duì)的——這種方法叫做Importance Sampling。這里的問(wèn)題在于,如果q(x)和p(x)不太接近,那么采樣效率非常低下,如果在一個(gè)高維空間,可能采1000年都達(dá)不到要求。可是, 要得到一個(gè)approximate很好的q(x)本身不比直接從p(x)采樣來(lái)得容易。

    還有一種聰明一點(diǎn)的方法,叫sequential importance sampling。在這里面q(x),不是一蹴而就建立起來(lái)的,而是每個(gè)樣本先采一部分,然后根據(jù)那部分,確定下一部分的proposal distribution,繼續(xù)采,也就是說(shuō)q(x)和樣本都是dynamically built up。這個(gè)方法在vision里面一個(gè)非常著名的應(yīng)用是用于tracking,相應(yīng)發(fā)展出來(lái)的方法論叫做particle filtering。

    另外一大類重要的采樣方法,叫Markov Chain Monte Carlo(MCMC)。這個(gè)的想法是,設(shè)計(jì)一個(gè)馬爾科夫鏈,讓它的平衡分布恰好是p(x),那么等它平衡時(shí)開(kāi)始采。以前我們做隨機(jī)過(guò)程作業(yè)是已知一個(gè) markov chain,求equilibrium distribution,設(shè)計(jì)MCMC就是反過(guò)來(lái)了。最重要的MCMC方法莫過(guò)于Metropolis-Hastings Algorithm和Gibbs Sampling,前者常被用于設(shè)計(jì)在solution space的隨機(jī)游走(Random walk),后者則是conditional sampling的基礎(chǔ)方法。

    可是Markov過(guò)程怎么轉(zhuǎn)移呢。最簡(jiǎn)單的Random Walk結(jié)合acceptance rate之后理論上是對(duì)的。可是,讓sampler隨便亂走,猴年馬月才能把solution space走一遍阿。于是,有人提出結(jié)合一個(gè)solution space的局部信息來(lái)引導(dǎo)它往有用的方向走。一個(gè)重要的方法叫做Hybric Monte Carlo(HMC),想法就是把它模擬成一個(gè)物理場(chǎng),把要sample的分布視為波爾茲曼分布后獲得物理場(chǎng)的勢(shì)能,通過(guò)哈密頓動(dòng)力學(xué)模型(其實(shí)就是牛頓 力學(xué)的推廣)來(lái)驅(qū)動(dòng)sampler。可是,如果問(wèn)題更為復(fù)雜呢,比如整個(gè)solution space有幾個(gè)井,sample掉到某一個(gè)井可能出不來(lái)了。為了解決這個(gè)問(wèn)題,一種重要的方法叫Tempering,就是開(kāi)始給分子充分加熱,讓它獲得 足夠的動(dòng)能能在各個(gè)井之間來(lái)回跳,然后逐步冷卻,從而能捕捉到多個(gè)勢(shì)井。

    Monte Carlo方法較早的時(shí)候主要用于統(tǒng)計(jì)物理,目前已經(jīng)廣泛應(yīng)用于計(jì)算機(jī),生物,化學(xué),地質(zhì)學(xué),經(jīng)濟(jì)學(xué),社會(huì)學(xué)等等的研究。這是目前所知道的用于求解復(fù)雜的 真實(shí)模型的最有效的方法。它的核心,就是猜——你直接解不出來(lái),只好猜了,呵呵。但是,怎樣才能猜得準(zhǔn),則是大有學(xué)問(wèn)——幾十年來(lái)各個(gè)領(lǐng)域關(guān)于Monte Carlo研究的工作汗牛充棟,有很多進(jìn)展,但是還有很長(zhǎng)的路要走。

和這里很多留學(xué)生一樣,我一向潛心于自己的學(xué)習(xí)和研究。可是最近,我們的世界并不寧?kù)o,我認(rèn)識(shí)的不只一個(gè)在美國(guó)的朋友受到了不太友好的挑釁——在不 知不覺(jué)中,我們可能已經(jīng)身處反分裂和支持奧運(yùn)的前線。我看到包括MIT CSSA在內(nèi)的很多學(xué)生團(tuán)體開(kāi)始組織起來(lái)支持自己的祖國(guó)。我沒(méi)有具體幫上什么,但是,我對(duì)所有在用自己的行動(dòng)捍衛(wèi)國(guó)家榮譽(yù)的同胞懷有最深的敬意。我也希 望,我的努力,能讓外國(guó)的朋友明白中國(guó)人是值得尊敬的。





]]>
漫話距離zzhttp://www.shnenglu.com/bneliao/articles/61147.htmlbneliaobneliaoSat, 06 Sep 2008 09:38:00 GMThttp://www.shnenglu.com/bneliao/articles/61147.htmlhttp://www.shnenglu.com/bneliao/comments/61147.htmlhttp://www.shnenglu.com/bneliao/articles/61147.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61147.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61147.html1月23日

漫話距離

我 們的生活從來(lái)不缺乏距離的概念,無(wú)論是時(shí)間的還是空間的,可以測(cè)量的還是不可以測(cè)量的。自我們來(lái)到這個(gè)世界,就會(huì)用我們還很幼小的眼睛測(cè)量著自己和身邊的 人的距離,然后跟著距離自己最近的人學(xué)叫“媽媽”;長(zhǎng)大了,我們學(xué)會(huì)了用“距離產(chǎn)生美”這種不知道屬于公理還是定理的命題,提醒自己不要和心儀的mm走得 太近;而垂垂老矣的人們則開(kāi)始計(jì)算自己到生命終點(diǎn)的距離,盤(pán)算著什么時(shí)候該立遺囑了。

什么叫距離呢?隨便翻開(kāi)一本數(shù)學(xué)教科書(shū),你會(huì)發(fā) 現(xiàn),這些書(shū)會(huì)在這個(gè)或者那個(gè)角落告訴你,所謂距離,就是一個(gè)符合對(duì)稱性和三角不等式的非負(fù)二元函數(shù)。為什么要符合對(duì)稱性和三角不等式呢——大部分的書(shū)會(huì)告 訴你,這是規(guī)定——不符合的就不是距離。少部分負(fù)責(zé)任一些的書(shū)會(huì)告訴你,不符合這些條件的“距離”會(huì)多麻煩。于是你接受了。

當(dāng)你放下書(shū) 本,回到我們多姿多彩的生活中的時(shí)候,這個(gè)呆板的定義似乎不能有效地解決你生活中的問(wèn)題。你去hiking的時(shí)候,入口處告訴你,從山下到山上的距離是多 少多少里路,按說(shuō)上山和下山的距離是一樣的,可是當(dāng)你攀到山頂又走回來(lái)的時(shí)候,心里可能犯嘀咕,怎么感覺(jué)距離不一樣呢?偉大的數(shù)學(xué)家們是不會(huì)錯(cuò)的。這是相 對(duì)論!——那些費(fèi)了半天勁才把洛侖茲變換搞明白的人們,生怕錯(cuò)過(guò)了這個(gè)機(jī)會(huì)就沒(méi)有機(jī)會(huì)顯示自己深厚的物理底蘊(yùn)了。不過(guò),我只是相信一點(diǎn),根據(jù)目前人類的進(jìn) 化水平,即使把世界短跑冠軍的運(yùn)動(dòng)速度和地球公轉(zhuǎn)自轉(zhuǎn)速度加起來(lái)再乘以10,離光速還遠(yuǎn)著呢。

再說(shuō)一個(gè)例子,不知道男同胞們是不是發(fā) 現(xiàn),當(dāng)你想去接近你的夢(mèng)中情人的時(shí)候,距離似乎遙不可及——走出太陽(yáng)系似乎都沒(méi)有那么遠(yuǎn),反過(guò)來(lái),當(dāng)她想接近你的時(shí)候,這個(gè)距離比任何預(yù)先給定的正實(shí)數(shù)都 小——我有點(diǎn)懷疑,牛頓或者萊布尼茨當(dāng)年是不是有過(guò)類似體驗(yàn),才總結(jié)出了微機(jī)分——這告訴我們?yōu)槭裁次C(jī)分不是女生提出的。

為了能讓距 離去解釋上面說(shuō)到的現(xiàn)象,我們有必要把它的概念推廣一下,把對(duì)稱性去掉——很多情況下,我們甚至把三角不等式也去掉。一個(gè)著名的例子,就是 Kullback-Leibler divergence——用來(lái)描述兩個(gè)分布的“距離”。大家注意了,這里定義這個(gè)的人很聰明,為了不和數(shù)學(xué)家作對(duì),他選擇叫做divergence,而不 是distance。不過(guò),很多信息論和統(tǒng)計(jì)學(xué)的書(shū)都猶抱琵琶半遮面地告訴我們,其實(shí)可以把它YY成為某種距離。伴隨著對(duì)稱性的喪失,距離的方向性出現(xiàn) 了。就是說(shuō)從a到b的距離,和從b到a的距離是不一樣的——恩,這種推廣看起來(lái)很適合用來(lái)計(jì)算你和你心儀的人的距離,或者山頂和山腳的距離。

小 學(xué)老師告訴我們?cè)趺慈チ慷葍蓚€(gè)點(diǎn)之間的距離,就是拿一把尺子。可是,很多時(shí)候,你沒(méi)有機(jī)會(huì)使用直尺的。你所能做的就是從這點(diǎn)走到那點(diǎn),看看費(fèi)了多少勁—— 這就是我們大多數(shù)人在生活經(jīng)驗(yàn)中的距離。黎曼老先生,作為理論聯(lián)系實(shí)際的代表,第一次從在數(shù)學(xué)上總結(jié)了這種生活上的距離——geodesic distance,中文叫做測(cè)地距離。它是怎么算距離的呢?就是從起點(diǎn)出發(fā),一步步走向目標(biāo),然后把每一步費(fèi)了多少勁加起來(lái)。至于,每一步費(fèi)了多少勁怎么 算,大家都可以有不同的算法——但是,這些都叫Riemann Metric。 為了大家計(jì)算距離時(shí)的身體健康,鼓勵(lì)大家節(jié)省能源,規(guī)定,只有按照最省事的方法到達(dá)目標(biāo),這樣算出來(lái)的才叫距離。 不過(guò),在很多實(shí)際應(yīng)用中,大家只能找到比較省事的方法,未必是“最省的”,也睜一只眼閉一只眼,把算出來(lái)的東西追加“距離”的光榮稱號(hào)。

打 破對(duì)稱性的千年枷鎖,扔掉直尺這種陳腐工具,人們獲得了空前的思想解放。男生和女生們開(kāi)始附庸風(fēng)雅地用曾經(jīng)只存在于象牙塔的概念——距離——去評(píng)價(jià)自己和 她或者他的關(guān)系。如何評(píng)價(jià),見(jiàn)仁見(jiàn)智——在我看來(lái),很多人的metric里面不外乎寫(xiě)了多少情書(shū),給電信公司貢獻(xiàn)了多少短信費(fèi),qq/msn在線了多少時(shí) 間,又或者吃了多少頓麥當(dāng)勞。。。。。。在這個(gè)定義的基礎(chǔ)上,“距離產(chǎn)生美”——這個(gè)掛在多少人口頭的箴言橫空出世了。根據(jù)距離就是費(fèi)了多少勁的意思,這 句話告訴我們,只有費(fèi)了很多功夫,死了無(wú)數(shù)腦細(xì)胞,才能得到,或者還得不到的才是美的;信手而獲,不需要追求的,就談不上美了。從這個(gè)意義上說(shuō),這句話和 高中的學(xué)到的“勞動(dòng)產(chǎn)生價(jià)值”的道理是一樣的,只不過(guò),“勞動(dòng)產(chǎn)生價(jià)值”是物質(zhì)層次的——太俗了,“距離產(chǎn)生美”是精神層次的,檔次和格調(diào)顯然不一樣。





]]>
學(xué)習(xí)數(shù)學(xué)zzhttp://www.shnenglu.com/bneliao/articles/61143.htmlbneliaobneliaoSat, 06 Sep 2008 09:34:00 GMThttp://www.shnenglu.com/bneliao/articles/61143.htmlhttp://www.shnenglu.com/bneliao/comments/61143.htmlhttp://www.shnenglu.com/bneliao/articles/61143.html#Feedback1http://www.shnenglu.com/bneliao/comments/commentRss/61143.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61143.html1月9日

學(xué)習(xí)數(shù)學(xué)

感覺(jué)數(shù)學(xué)似乎總是不夠的。這些日子為了解決research中的一些問(wèn)題,又在圖書(shū)館捧起了數(shù)學(xué)的教科書(shū)。

從 大學(xué)到現(xiàn)在,課堂上學(xué)的和自學(xué)的數(shù)學(xué)其實(shí)不算少了,可是在研究的過(guò)程中總是發(fā)現(xiàn)需要補(bǔ)充新的數(shù)學(xué)知識(shí)。Learning和Vision都是很多種數(shù)學(xué)的交 匯場(chǎng)。看著不同的理論體系的交匯,對(duì)于一個(gè)researcher來(lái)說(shuō),往往是非常exciting的enjoyable的事情。不過(guò),這也代表著要充分了 解這個(gè)領(lǐng)域并且取得有意義的進(jìn)展是很艱苦的。

記得在兩年前的一次blog里面,提到過(guò)和learning有關(guān)的數(shù)學(xué)。今天看來(lái),我對(duì)于數(shù)學(xué)在這個(gè)領(lǐng)域的作用有了新的思考。

對(duì)于Learning的研究,

Linear Algebra (線性代數(shù))Statistics (統(tǒng)計(jì)學(xué)) 是最重要和不可缺少的。這代表了Machine Learning中最主流的兩大類方法的基礎(chǔ)。一種是以研究函數(shù)和變換為重點(diǎn)的代數(shù)方法,比如Dimension reduction,feature extraction,Kernel等,一種是以研究統(tǒng)計(jì)模型和樣本分布為重點(diǎn)的統(tǒng)計(jì)方法,比如Graphical model, Information theoretical models等。它們側(cè)重雖有不同,但是常常是共同使用的,對(duì)于代數(shù)方法,往往需要統(tǒng)計(jì)上的解釋,對(duì)于統(tǒng)計(jì)模型,其具體計(jì)算則需要代數(shù)的幫助。

以代數(shù)和統(tǒng)計(jì)為出發(fā)點(diǎn),繼續(xù)往深處走,我們會(huì)發(fā)現(xiàn)需要更多的數(shù)學(xué)。

Calculus (微積分),只 是數(shù)學(xué)分析體系的基礎(chǔ)。其基礎(chǔ)性作用不言而喻。Learning研究的大部分問(wèn)題是在連續(xù)的度量空間進(jìn)行的,無(wú)論代數(shù)還是統(tǒng)計(jì),在研究?jī)?yōu)化問(wèn)題的時(shí)候,對(duì) 一個(gè)映射的微分或者梯度的分析總是不可避免。而在統(tǒng)計(jì)學(xué)中,Marginalization和積分更是密不可分——不過(guò),以解析形式把積分導(dǎo)出來(lái)的情況則 不多見(jiàn)。

Partial Differential Equation (偏微分方程)這主要用于描述動(dòng)態(tài)過(guò)程,或者仿動(dòng)態(tài)過(guò)程。這個(gè)學(xué)科在Vision中用得比Learning多,主要用于描述連續(xù)場(chǎng)的運(yùn)動(dòng)或者擴(kuò)散過(guò)程。比如Level set, Optical flow都是這方面的典型例子。

Functional Analysis (泛函分析), 通俗地,可以理解為微積分從有限維空間到無(wú)限維空間的拓展——當(dāng)然了,它實(shí)際上遠(yuǎn)不止于此。在這個(gè)地方,函數(shù)以及其所作用的對(duì)象之間存在的對(duì)偶關(guān)系扮演了 非常重要的角色。Learning發(fā)展至今,也在向無(wú)限維延伸——從研究有限維向量的問(wèn)題到以無(wú)限維的函數(shù)為研究對(duì)象。Kernel Learning 和 Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel簡(jiǎn)單理解為Kernel trick的運(yùn)用,這就把kernel的意義嚴(yán)重弱化了。在泛函里面,Kernel (Inner Product) 是建立整個(gè)博大的代數(shù)體系的根本,從metric, transform到spectrum都根源于此。

Measure Theory (測(cè)度理論),這 是和實(shí)分析關(guān)系非常密切的學(xué)科。但是測(cè)度理論并不限于此。從某種意義上說(shuō),Real Analysis可以從Lebesgue Measure(勒貝格測(cè)度)推演,不過(guò)其實(shí)還有很多別的測(cè)度體系——概率本身就是一種測(cè)度。測(cè)度理論對(duì)于Learning的意義是根本的,現(xiàn)代統(tǒng)計(jì)學(xué)整 個(gè)就是建立在測(cè)度理論的基礎(chǔ)之上——雖然初級(jí)的概率論教科書(shū)一般不這樣引入。在看一些統(tǒng)計(jì)方面的文章的時(shí)候,你可能會(huì)發(fā)現(xiàn),它們會(huì)把統(tǒng)計(jì)的公式改用測(cè)度來(lái) 表達(dá),這樣做有兩個(gè)好處:所有的推導(dǎo)和結(jié)論不用分別給連續(xù)分布和離散分布各自寫(xiě)一遍了,這兩種東西都可以用同一的測(cè)度形式表達(dá):連續(xù)分布的積分基于 Lebesgue測(cè)度,離散分布的求和基于計(jì)數(shù)測(cè)度,而且還能推廣到那種既不連續(xù)又不離散的分布中去(這種東西不是數(shù)學(xué)家的游戲,而是已經(jīng)在實(shí)用的東西, 在Dirchlet Process或者Pitman-Yor Process里面會(huì)經(jīng)常看到)。而且,即使是連續(xù)積分,如果不是在歐氏空間進(jìn)行,而是在更一般的拓?fù)淇臻g(比如微分流形或者變換群),那么傳統(tǒng)的黎曼積 分(就是大學(xué)一年級(jí)在微積分課學(xué)的那種)就不work了,你可能需要它們的一些推廣,比如Haar Measure或者Lebesgue-Stieltjes積分。

Topology(拓?fù)鋵W(xué)),這 是學(xué)術(shù)中很基礎(chǔ)的學(xué)科。它一般不直接提供方法,但是它的很多概念和定理是其它數(shù)學(xué)分支的基石。看很多別的數(shù)學(xué)的時(shí)候,你會(huì)經(jīng)常接觸這樣一些概念:Open set / Closed set,set basis,Hausdauf,  continuous function,metric space,  Cauchy sequence, neighborhood,  compactness, connectivity。很多這些也許在大學(xué)一年級(jí)就學(xué)習(xí)過(guò)一些,當(dāng)時(shí)是基于極限的概念獲得的。如果,看過(guò)拓?fù)鋵W(xué)之后,對(duì)這些概念的認(rèn)識(shí)會(huì)有根本性的拓 展。比如,連續(xù)函數(shù),當(dāng)時(shí)是由epison法定義的,就是無(wú)論取多小的正數(shù)epsilon,都存在xxx,使得xxx。這是需要一種metric去度量距 離的,在general topology里面,對(duì)于連續(xù)函數(shù)的定義連坐標(biāo)和距離都不需要——如果一個(gè)映射使得開(kāi)集的原像是開(kāi)集,它就是連續(xù)的——至于開(kāi)集是基于集合論定義的,不 是通常的開(kāi)區(qū)間的意思。這只是最簡(jiǎn)單的例子。當(dāng)然,我們研究learning也許不需要深究這些數(shù)學(xué)概念背后的公理體系,但是,打破原來(lái)定義的概念的局限 在很多問(wèn)題上是必須的——尤其是當(dāng)你研究的東西它不是在歐氏空間里面的時(shí)候——正交矩陣,變換群,流形,概率分布的空間,都屬于此。

Differential Manifold (微分流形), 通俗地說(shuō)它研究的是平滑的曲面。一個(gè)直接的印象是它是不是可以用來(lái)fitting一個(gè)surface什么的——當(dāng)然這算是一種應(yīng)用,但是這是非常初步的。 本質(zhì)上說(shuō),微分流形研究的是平滑的拓?fù)浣Y(jié)構(gòu)。一個(gè)空間構(gòu)成微分流形的基本要素是局部平滑:從拓?fù)鋵W(xué)來(lái)理解,就是它的任意局部都同胚于歐氏空間,從解析的角 度來(lái)看,就是相容的局部坐標(biāo)系統(tǒng)。當(dāng)然,在全局上,它不要求和歐氏空間同胚。它除了可以用于刻畫(huà)集合上的平滑曲面外,更重要的意義在于,它可以用于研究很 多重要的集合。一個(gè)n-維線性空間的全部k-維子空間(k < n)就構(gòu)成了一個(gè)微分流形——著名的Grassman Manifold。所有的標(biāo)準(zhǔn)正交陣也構(gòu)成一個(gè)流形。一個(gè)變換群作用于一個(gè)空間形成的軌跡(Orbit) 也是通常會(huì)形成流形。在流形上,各種的分析方法,比如映射,微分,積分都被移植過(guò)來(lái)了。前一兩年在Learning里面火了好長(zhǎng)時(shí)間的Manifold Learning其實(shí)只是研究了這個(gè)分支的其中一個(gè)概念的應(yīng)用: embedding。其實(shí),它還有很多可以發(fā)掘的空間。

Lie Group Theory (李群論),一 般意義的群論在Learning中被運(yùn)用的不是很多,群論在Learning中用得較多的是它的一個(gè)重要方向Lie group。定義在平滑流行上的群,并且其群運(yùn)算是平滑的話,那么這就叫李群。因?yàn)長(zhǎng)earning和編碼不同,更多關(guān)注的是連續(xù)空間,因?yàn)長(zhǎng)ie group在各種群中對(duì)于Learning特別重要。各種子空間,線性變換,非奇異矩陣都基于通常意義的矩陣乘法構(gòu)成李群。在李群中的映射,變換,度量, 劃分等等都對(duì)于Learning中代數(shù)方法的研究有重要指導(dǎo)意義。

Graph Theory(圖論),圖, 由于它在表述各種關(guān)系的強(qiáng)大能力以及優(yōu)雅的理論,高效的算法,越來(lái)越受到Learning領(lǐng)域的歡迎。經(jīng)典圖論,在Learning中的一個(gè)最重要應(yīng)用就 是graphical models了,它被成功運(yùn)用于分析統(tǒng)計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)和規(guī)劃統(tǒng)計(jì)推斷的流程。Graphical model所取得的成功,圖論可謂功不可沒(méi)。在Vision里面,maxflow (graphcut)算法在圖像分割,Stereo還有各種能量?jī)?yōu)化中也廣受應(yīng)用。另外一個(gè)重要的圖論分支就是Algebraic graph theory (代數(shù)圖論),主要運(yùn)用于圖的譜分析,著名的應(yīng)用包括Normalized Cut和Spectral Clustering。近年來(lái)在semi-supervised learning中受到特別關(guān)注。





]]>
關(guān)于平均值z(mì)zhttp://www.shnenglu.com/bneliao/articles/61140.htmlbneliaobneliaoSat, 06 Sep 2008 09:06:00 GMThttp://www.shnenglu.com/bneliao/articles/61140.htmlhttp://www.shnenglu.com/bneliao/comments/61140.htmlhttp://www.shnenglu.com/bneliao/articles/61140.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61140.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61140.html1月27日

關(guān)于平均值

小時(shí)候,老師就告訴我們,讀書(shū)講究先由薄而厚,再由厚而薄。前者是吸收和積累,后者是融會(huì)和消化。

這些年,讀了不少關(guān)于統(tǒng)計(jì)學(xué)習(xí)的東西,很多東西都記不清楚了。從我自己的角度看來(lái)(可能是很膚淺的),學(xué)概率和統(tǒng)計(jì),關(guān)鍵是記住三個(gè)概念:測(cè)度(measure),期望(expectation),和獨(dú)立性(independence)。

測(cè)度是現(xiàn)代概率理論的基石。在經(jīng)典的概率論里面——比如我們?cè)诒究茖W(xué)的那些——大多是通過(guò)舉例子和文字說(shuō)明的方式告訴你概率是什么,這容易 明白,不過(guò)缺乏嚴(yán)密的公理化根基。現(xiàn)代概率論整個(gè)建立在測(cè)度理論的基礎(chǔ)上,概率的定義非常簡(jiǎn)單,不過(guò)也很抽象——所謂“概率”,就是歸一化的測(cè)度。沒(méi)有測(cè) 度,就沒(méi)有整個(gè)概率論的大廈,所以它很重要——不過(guò),它在實(shí)用中直接用上的機(jī)會(huì)不大,所以不是這篇文章的主體。關(guān)于獨(dú)立性,以及它的一個(gè)孿生的名 詞:Markov,也扮演著非常重要的角色,它是Graphical models的基礎(chǔ)。有興趣的可以去讀M. I. Jordan的書(shū)。

而在統(tǒng)計(jì)學(xué)習(xí)的實(shí)際應(yīng)用中,就是你平時(shí)寫(xiě)code,用得最多的就是期望,或者一個(gè)通俗點(diǎn)的版本——平均值。其實(shí)這兩者不太一樣,期望是從model出發(fā)演繹的,平均值通常是指從data出發(fā)歸納的。不過(guò)它們的關(guān)系確實(shí)非常密切。

統(tǒng)計(jì)學(xué)習(xí)在很多情況下,就是求平均值

我們平常說(shuō)去Learn一個(gè)model——其實(shí),在很多情況下,這就是干一件聽(tīng)上去很簡(jiǎn)單的事情,求平均值。我們知道,我們所接觸的大部分 重要的概率分布,都屬于exponential family,比如Gauss, Binomial, Multinomial, Dirichlet, Poisson, Exponential, Gamma等等分布都屬于這個(gè)家族。它的一個(gè)重要特點(diǎn)就是——得期望者得天下。就是說(shuō),知道了某些統(tǒng)計(jì)量的期望,就知道了整個(gè)model,至于model 的參數(shù),或者就是期望本身(比如Gauss),或者不難從期望中得到。可以證明,對(duì)于這些model,對(duì)它們的最大似然估計(jì)(Maximum Likelihood estimation),就是從data中算出某些統(tǒng)計(jì)量的平均值作為model的期望。

在Bayes學(xué)習(xí)中,我們還考慮先驗(yàn)分布(prior)。在這里,model的估計(jì)還是求平均值。所謂prior是怎么來(lái)的?就是以前 曾經(jīng)觀察過(guò)的data那里總結(jié)得到的,然后以prior的形式影響當(dāng)前的model估計(jì)。一般而言,使用exponential family,我們通常會(huì)使用conjugate prior,這種prior,基本就是沿著剛才說(shuō)的,假想我們已經(jīng)看過(guò)一些data的思路得到的,它的形式和data mean幾乎如出一轍。而帶了prior的估計(jì),還是在求平均值,不過(guò)這里的平均值就是(假想)以前觀察過(guò)的數(shù)據(jù)和當(dāng)前的數(shù)據(jù)合在一起求平均。

對(duì)于更加復(fù)雜的Graphical model,每個(gè)節(jié)點(diǎn)的estimate和update,很多時(shí)候,其實(shí)是做了這樣的事情——把其它節(jié)點(diǎn)傳來(lái)的平均值和這個(gè)節(jié)點(diǎn)接觸的數(shù)據(jù)的平均值混合進(jìn) 行新的平均。從最簡(jiǎn)單的Gauss, 到更加復(fù)雜的Gaussian Mixture Model, Latent Dirichlet Allocation, Markov Random Field, Generalized Kalman Filtering概莫能外——大家可以仔細(xì)看看它們的每一個(gè)update公式,看看哪個(gè)不是在求平均值。

怎樣求平均值

平均值是很重要的。不過(guò)怎么求呢?這似乎是小學(xué)初中就解決了的問(wèn)題。不過(guò),求平均值的世界其實(shí)是如此博大精深。如果說(shuō)它是少林武學(xué),我現(xiàn)在這點(diǎn)水平,也就夠在嵩山下掃掃地罷了。很多在世界上赫赫有名的數(shù)學(xué)家,窮畢生心血,方能一窺堂奧。

雖然,只有掃地的水平,不過(guò)起碼也看過(guò)大師們練武。這門學(xué)問(wèn)主要有兩個(gè)方面:得到data求平均值,得到model求期望。

先說(shuō)說(shuō)求data的平均值。這太簡(jiǎn)單了,有什么好說(shuō)的。不就是加法和乘法么,小學(xué)學(xué)過(guò)算術(shù)的人都會(huì)算,即使沒(méi)學(xué)過(guò),拿個(gè)計(jì)算器也照樣算。在 通常的實(shí)數(shù)空間內(nèi),確實(shí)很簡(jiǎn)單;不過(guò)對(duì)于一般的求平均值的情況,就非常非常困難了。一般來(lái)說(shuō),求平均值有兩個(gè)流派,一種是基于線性代數(shù)(linear algebra),另外一種是基于度量空間(metric space)。前面一種大家很熟悉:

m = (x1 + x2 + ... + xn) * (1/n)。

這是我們讀了這么多年書(shū)最常見(jiàn)的平均值。不過(guò),這樣定義太局限了,它要求這些東西能做加法和數(shù)乘——我不得不說(shuō),這個(gè)要求實(shí)在太高,只有線性空間 (這種空間是數(shù)學(xué)里面的貴族,它們什么好處都全了)能夠滿足——對(duì)于數(shù)學(xué)領(lǐng)域更廣大的人民群眾(各種更一般的數(shù)學(xué)結(jié)構(gòu),比如群,拓?fù)淞餍危臃ê蛿?shù)乘簡(jiǎn) 直是一種奢侈得不切實(shí)際的活動(dòng)。

其實(shí)平均值是一個(gè)非常廣泛的概念,不僅僅存在于線性空間中,還為廣大人民群眾服務(wù)。對(duì)于某個(gè)度量空間,它的一般性定義是這么給出的

使得 d(m, x1) + d(m, x2) + ... + d(m, xn) 最小的那個(gè)m

也就是說(shuō),求平均值是一個(gè)優(yōu)化問(wèn)題。關(guān)于這個(gè)問(wèn)題,在不同的空間中有不同的答案:在最高級(jí)的希爾伯特空間中(定義了內(nèi)積的完備線性空間),m就是上 面給出的基于線性代數(shù)的形式。所以說(shuō),基于線性代數(shù)的定義僅僅是基于度量空間的定義的一個(gè)特例。不過(guò)由于這個(gè)特例被廣泛使用,所以大家一說(shuō)平均值就想起 它,而不是一般形式。在推廣一些的巴拿赫空間中(定義了范數(shù)的完備線性空間),上述的問(wèn)題是一個(gè)凸優(yōu)化問(wèn)題,因?yàn)榉稊?shù)必然是凸函數(shù)。它具有唯一的最優(yōu)解。

最困難的是在非線性空間中。一個(gè)典型的例子是黎曼流形(注意,這里我們只討論黎曼流形,對(duì)于更為一般的拓?fù)淞餍位蛘呶⒎至餍危驗(yàn)椴痪哂? 度量結(jié)構(gòu),所以不能定義均值。)在黎曼流形上,兩點(diǎn)間的距離是通過(guò)測(cè)地距離給出的。在黎曼流形上,通過(guò)測(cè)地距離定義的平均值,叫做黎曼中心。一部分朋友對(duì) 于這幾個(gè)術(shù)語(yǔ)可能不太熟悉,還是舉個(gè)形象點(diǎn)的例子。比如,在地球上給出幾個(gè)地點(diǎn),你要在地面上找一個(gè)“平均地點(diǎn)”,使得它到那幾個(gè)地點(diǎn)的“地面距離”的平 方和最小。如果,用傳統(tǒng)的算術(shù)方法拿這些地點(diǎn)的三維坐標(biāo)來(lái)算,你估計(jì)得在那鉆個(gè)油井了。對(duì)于“球面平均”問(wèn)題(專門一點(diǎn)的說(shuō)法叫做特殊正交群SO(3)的 黎曼中心,恩,這個(gè)名詞我也有點(diǎn)暈),到了在本世紀(jì),在數(shù)學(xué)里依舊可以發(fā)paper,目前還沒(méi)有一般情況下的解析解。

別的領(lǐng)域我不懂,不過(guò)“球面平均”在vision里面價(jià)值是很大的,它是對(duì)三維旋轉(zhuǎn)變換建立統(tǒng)計(jì)模型的基礎(chǔ)——我們?cè)僖淮慰吹搅饲笃骄? 值對(duì)于統(tǒng)計(jì)的重要意義。球面平均求的是“平均”的旋轉(zhuǎn),如果對(duì)于一般的仿射變換(Affiine transform),“平均”的變換又怎么求呢?這是個(gè)open problem,留待大家思考。

怎樣求期望

說(shuō)完從data求平均值,再說(shuō)說(shuō)從model得到期望(expectation)——這們學(xué)問(wèn)就更博大了。雖然,期望的定義很簡(jiǎn)單——求和或者積分就行了。不過(guò),它的實(shí)際計(jì)算,對(duì)于很多實(shí)際模型是intractable的。

概率論最早源于擲色子,我們的前輩數(shù)學(xué)家們?yōu)榱似平馇髲?fù)雜模型求期望的問(wèn)題,提出的方法就是擲色子。在學(xué)術(shù)上,美其名曰“蒙特卡羅方法”(Monte Carlo)。原理很簡(jiǎn)單,不斷地?cái)S色子來(lái)大量采樣,然后從采來(lái)的樣本求平均值來(lái)逼近模型的期望。

擲色子是世界上最有學(xué)問(wèn)的之一,正因?yàn)槿绱耍覀儗?duì)于“賭神”,“賭王”之類的人物崇拜猶如滔滔江水,因?yàn)樗鼈償S色子擲得好。無(wú)數(shù)的統(tǒng)計(jì)學(xué)家把畢生經(jīng)歷奉獻(xiàn)給擲色子(采樣)事業(yè),并且做出偉大成就。關(guān)于采樣的專著和文獻(xiàn),汗牛充棟。

擲色子就這么難么?是的。據(jù)估算,即使對(duì)于一個(gè)復(fù)雜度不高的model,要得到一個(gè)可以接受的估計(jì),所需的樣本量往往大得驚人,而且指數(shù)增 長(zhǎng)。如果不掌握要領(lǐng),你即使擲到宇宙末日,估計(jì)離一個(gè)靠譜的估計(jì)還遠(yuǎn)著呢。采樣技術(shù)名目繁多,最流行的莫過(guò)于重要性采樣(importance sampling)和馬爾科夫鏈蒙特卡羅過(guò)程(MCMC)。具體就不多說(shuō)了。





]]>
Learning中的代數(shù)結(jié)構(gòu)的建立zzhttp://www.shnenglu.com/bneliao/articles/61139.htmlbneliaobneliaoSat, 06 Sep 2008 09:04:00 GMThttp://www.shnenglu.com/bneliao/articles/61139.htmlhttp://www.shnenglu.com/bneliao/comments/61139.htmlhttp://www.shnenglu.com/bneliao/articles/61139.html#Feedback0http://www.shnenglu.com/bneliao/comments/commentRss/61139.htmlhttp://www.shnenglu.com/bneliao/services/trackbacks/61139.html

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2489.entry

7月9日

Learning中的代數(shù)結(jié)構(gòu)的建立

Learning是一個(gè)融會(huì)多種數(shù)學(xué)于一體的領(lǐng)域。說(shuō)起與此有關(guān)的數(shù)學(xué)學(xué)科,我們可能會(huì)迅速聯(lián)想到線性代數(shù)以及建立在向量空間基礎(chǔ)上的統(tǒng)計(jì)模型——事實(shí)上,主流的論文中確實(shí)在很大程度上基于它們。

R^n (n-維實(shí)向量空間) 是我們?cè)趐aper中見(jiàn)到最多的空間,它確實(shí)非常重要和實(shí)用,但是,僅僅依靠它來(lái)描述我們的世界并不足夠。事實(shí)上,數(shù)學(xué)家們給我們提供了豐富得多的工具。

“空間”(space),這是一個(gè)很有意思的名詞,幾乎出現(xiàn)在所有的數(shù)學(xué)分支的基礎(chǔ)定義之中。歸納起來(lái),所謂空間就是指一個(gè)集合以及在上面定義的某種數(shù)學(xué)結(jié)構(gòu)。關(guān)于這個(gè)數(shù)學(xué)結(jié)構(gòu)的定義或者公理,就成為這個(gè)數(shù)學(xué)分支的基礎(chǔ),一切由此而展開(kāi)。

還是從我們最熟悉的空間——R^n 說(shuō)起吧。大家平常使用這個(gè)空間的時(shí)候,除了線性運(yùn)算,其實(shí)還用到了別的數(shù)學(xué)結(jié)構(gòu),包括度量結(jié)構(gòu)和內(nèi)積結(jié)構(gòu)。

第 一,它是一個(gè)拓?fù)淇臻g(Topological space)。而且從拓?fù)鋵W(xué)的角度看,具有非常優(yōu)良的性質(zhì):Normal (implying Hausdorff and Regular), Locally Compact, Paracompact, with Countable basis, Simply connected (implying connected and path connected), Metrizable. 

第二,它是一個(gè)度量空間(Metric space)。我們可以計(jì)算上面任意兩點(diǎn)的距離。

第三,它是一個(gè)有限維向量空間(Finite dimensional space)。因此,我們可以對(duì)里面的元素進(jìn)行代數(shù)運(yùn)算(加法和數(shù)乘),我們還可以賦予它一組有限的基,從而可以用有限維坐標(biāo)表達(dá)每個(gè)元素。

第四,基于度量結(jié)構(gòu)和線性運(yùn)算結(jié)構(gòu),可以建立起分析(Analysis)體系。我們可以對(duì)連續(xù)函數(shù)進(jìn)行微分,積分,建立和求解微分方程,以及進(jìn)行傅立葉變換和小波分析。

第 五,它是一個(gè)希爾伯特空間(也就是完備的內(nèi)積空間)(Hilbert space, Complete inner product space)。它有一套很方便計(jì)算的內(nèi)積(inner product)結(jié)構(gòu)——這個(gè)空間的度量結(jié)構(gòu)其實(shí)就是從其內(nèi)積結(jié)構(gòu)誘導(dǎo)出來(lái)。更重要的,它是完備的(Complete)——代表任何一個(gè)柯西序列 (Cauchy sequence)都有極限——很多人有意無(wú)意中其實(shí)用到了這個(gè)特性,不過(guò)習(xí)慣性地認(rèn)為是理所當(dāng)然了。

第六,它上面的線性映射構(gòu)成的算子空間仍舊是有限維的——一個(gè)非常重要的好處就是,所有的線性映射都可以用矩陣唯一表示。特別的,因?yàn)樗怯邢蘧S完備空間,它的泛函空間和它本身是同構(gòu)的,也是R^n。因而,它們的譜結(jié)構(gòu),也就可以通過(guò)矩陣的特征值和特征向量獲得。

第七,它是一個(gè)測(cè)度空間——可以計(jì)算子集的大小(面積/體積)。正因?yàn)榇耍覀儾趴赡茉谏厦娼⒏怕史植?distribution)——這是我們接觸的絕大多數(shù)連續(xù)統(tǒng)計(jì)模型的基礎(chǔ)。

我 們可以看到,這是一個(gè)非常完美的空間,為我們的應(yīng)用在數(shù)學(xué)上提供了一切的方便,在上面,我們可以理所當(dāng)然地認(rèn)為它具有我們希望的各種良好性質(zhì),而無(wú)須特別 的證明;我們可以直接使用它的各種運(yùn)算結(jié)構(gòu),而不需要從頭建立;而且很多本來(lái)不一樣的概念在這里變成等價(jià)的了,我們因此不再需要辨明它們的區(qū)別。

以此為界,Learning的主要工作分成兩個(gè)大的范疇:

  1. 建立一種表達(dá)形式,讓它處于上面討論的R^n空間里面。
  2. 獲得了有限維向量表達(dá)后,建立各種代數(shù)算法或者統(tǒng)計(jì)模型進(jìn)行分析和處理。

這里只討論第一個(gè)范疇。先看看,目前用得比較廣泛的一些方法:

  1. 直 接基于原始數(shù)據(jù)建立表達(dá)。我們關(guān)心的最終目標(biāo)是一個(gè)個(gè)現(xiàn)實(shí)世界中的對(duì)象:一幅圖片,一段語(yǔ)音,一篇文章,一條交易記錄,等等。這些東西大部分本身沒(méi)有附著 一個(gè)數(shù)值向量的。為了構(gòu)造一個(gè)向量表達(dá),我們可以把傳感器中記錄的數(shù)值,或者別的什么方式收集的數(shù)值數(shù)據(jù)按照一定的順序羅列出來(lái),就形成一個(gè)向量了。如果 有n個(gè)數(shù)字,就認(rèn)為它們?cè)赗^n里面。

不過(guò),這在數(shù)學(xué)上有一點(diǎn)小問(wèn)題,在大部分情況下,根據(jù)數(shù)據(jù)產(chǎn)生的物理原理,這些向量的值域并不能 充滿整個(gè)空間。比如圖像的像素值一般是正值,而且在一個(gè)有界閉集之中。這帶來(lái)的問(wèn)題是,對(duì)它們進(jìn)行線性運(yùn)算很可能得到的結(jié)果會(huì)溢出正常的范圍——在大部分 paper中,可能只是采用某些heuristics的手段進(jìn)行簡(jiǎn)單處理,或者根本不管,很少見(jiàn)到在數(shù)學(xué)上對(duì)此進(jìn)行深入探討的——不過(guò)如果能解決實(shí)際問(wèn) 題,這也是無(wú)可厚非的,畢竟不是所有的工作都需要像純數(shù)學(xué)那樣追求嚴(yán)謹(jǐn)。

  1. 量化(quantization)。這是 在處理連續(xù)信號(hào)時(shí)被廣泛采用的方式。只是習(xí)以為常,一般不提名字而已。比如一個(gè)空間信號(hào)(Vision中的image)或者時(shí)間信號(hào),它們的domain 中的值是不可數(shù)無(wú)限大的(uncountably infinite),不要說(shuō)表示為有限維向量,即使表達(dá)為無(wú)限序列也是不可能的。在這種情況下,一般在有限域內(nèi),按照一定順序每隔一定距離取一個(gè)點(diǎn)來(lái)代表 其周圍的點(diǎn),從而形成有限維的表達(dá)。這就是信號(hào)在時(shí)域或空域的量化。

這樣做不可避免要丟失信息。但是,由于小鄰域內(nèi)信號(hào)的高度相關(guān),信息丟失的程度往往并不顯著。而且,從理論上說(shuō),這相當(dāng)于在頻域中的低通過(guò)率。對(duì)于有限能量的連續(xù)信號(hào),不可能在無(wú)限高的頻域中依然保持足夠的強(qiáng)度,只要采樣密度足夠,丟失的東西可以任意的少。

除了表示信號(hào),對(duì)于幾何形體的表達(dá)也經(jīng)常使用量化,比如表示curve和surface。

  1. 找 出有限個(gè)數(shù)充分表達(dá)一個(gè)對(duì)象也許不是最困難的。不過(guò),在其上面建立數(shù)學(xué)結(jié)構(gòu)卻未必了。一般來(lái)說(shuō),我們要對(duì)其進(jìn)行處理,首先需要一個(gè)拓?fù)浣Y(jié)構(gòu)用以描述空間上 的點(diǎn)是如何聯(lián)系在一起。直接建立拓?fù)浣Y(jié)構(gòu)在數(shù)學(xué)上往往非常困難,也未必實(shí)用。因此,絕大部分工作采取的方式是首先建立度量結(jié)構(gòu)。一個(gè)度量空間,其度量會(huì)自 然地誘導(dǎo)出一個(gè)拓?fù)浣Y(jié)構(gòu)——不過(guò),很多情況下我們似乎會(huì)無(wú)視它的存在。

最簡(jiǎn)單的情況,就是使用原始向量表達(dá)的歐氏距離 (Euclidean distance)作為metric。不過(guò),由于原始表達(dá)數(shù)值的不同特性,這種方式效果一般不是特別好,未必能有效表達(dá)實(shí)際對(duì)象的相似性(或者不相似 性)。因此,很多工作會(huì)有再此基礎(chǔ)上進(jìn)行度量的二次建立。方式是多種多樣的,一種是尋求一個(gè)映射,把原空間的元素變換到一個(gè)新的空間,在那里歐氏距離變得 更加合適。這個(gè)映射發(fā)揮的作用包括對(duì)信息進(jìn)行篩選,整合,對(duì)某些部分進(jìn)行加強(qiáng)或者抑制。這就是大部分關(guān)于feature selection,feature extraction,或者subspace learning的文章所要做的。另外一種方式,就是直接調(diào)節(jié)距離的計(jì)算方式(有些文章稱之為metric learning)。

這兩種方式未必是不同的。如果映射是單射,那么它相當(dāng)于在原空間建立了一個(gè)不同的度量。反過(guò)來(lái),通過(guò)改變距離計(jì)算方式建立的度量在特定的條件下對(duì)應(yīng)于某種映射。

  1. 大 家可能注意到,上面提到的度量建立方法,比如歐氏距離,它需要對(duì)元素進(jìn)行代數(shù)運(yùn)算。對(duì)于普通的向量空間,線性運(yùn)算是天然賦予的,我們無(wú)須專門建立,所以可 以直接進(jìn)行度量的構(gòu)造——這也是大部分工作的基礎(chǔ)。可是,有些事物其原始表達(dá)不是一個(gè)n-tuple,它可能是一個(gè)set,一個(gè)graph,或者別的什么 特別的object。怎么建立代數(shù)運(yùn)算呢?

一種方法是直接建立。就是給這些東西定義自己的加法和數(shù)乘。這往往不是那么直接(能很容易建 立的線性運(yùn)算結(jié)構(gòu)早已經(jīng)被建立好并廣泛應(yīng)用了),可能需要涉及很深的數(shù)學(xué)知識(shí),并且要有對(duì)問(wèn)題本身的深入了解和數(shù)學(xué)上的洞察力。不過(guò),一個(gè)新的代數(shù)結(jié)構(gòu)一 旦建立起來(lái),其它的數(shù)學(xué)結(jié)構(gòu),包括拓?fù)洌攘浚治觯约皟?nèi)積結(jié)構(gòu)也隨之能被自然地誘導(dǎo)出來(lái),我們也就具有了對(duì)這個(gè)對(duì)象空間進(jìn)行各種數(shù)學(xué)運(yùn)算和操作的基 礎(chǔ)。加法和數(shù)乘看上去簡(jiǎn)單,但是如果我們對(duì)于本來(lái)不知道如何進(jìn)行加法和數(shù)乘的空間建立了這兩樣?xùn)|西,其理論上的貢獻(xiàn)是非常大的。

(一個(gè) 小問(wèn)題:大家常用各種graphical model,但是,每次這些model都是分別formulate,然后推導(dǎo)出estimation和evaluation的步驟方法。是否可能 對(duì)"the space of graphical model"或者它的某個(gè)特定子集建立某種代數(shù)結(jié)構(gòu)呢?(不一定是線性空間,比如群,環(huán),廣群, etc)從而使得它們?cè)诖鷶?shù)意義上統(tǒng)一起來(lái),而相應(yīng)的estimation或者evaluation也可以用過(guò)代數(shù)運(yùn)算derive。這不是我的研究范 圍,也超出了我目前的能力和知識(shí)水平,只是我相信它在理論上的重要意義,留作一個(gè)遠(yuǎn)景的問(wèn)題。事實(shí)上,數(shù)學(xué)中確實(shí)有一個(gè)分支叫做 Algebraic statistics 可能在探討類似的問(wèn)題,不過(guò)我現(xiàn)在對(duì)此了解非常有限。)

  1. 回到我們的正題,除了直接建立運(yùn)算 定義,另外一種方式就是嵌入(embedding)到某個(gè)向量空間,從而繼承其運(yùn)算結(jié)構(gòu)為我所用。當(dāng)然這種嵌入也不是亂來(lái),它需要保持原來(lái)這些對(duì)象的某種 關(guān)系。最常見(jiàn)的就是保距嵌入(isometric embedding),我們首先建立度量結(jié)構(gòu)(繞過(guò)向量表達(dá),直接對(duì)兩個(gè)對(duì)象的距離通過(guò)某種方法進(jìn)行計(jì)算),然后把這個(gè)空間嵌入到目標(biāo)空間,通常是有限維 向量空間,要求保持度量不變。

“嵌入”是一種在數(shù)學(xué)上應(yīng)用廣泛的手段,其主要目標(biāo)就是通過(guò)嵌入到一個(gè)屬性良好,結(jié)構(gòu)豐富的空間,從而利 用其某種結(jié)構(gòu)或者運(yùn)算體系。在拓?fù)鋵W(xué)中,嵌入到metric space是對(duì)某個(gè)拓?fù)淇臻g建立度量的重要手段。而在這里,我們是已有度量的情況下,通過(guò)嵌入獲取線性運(yùn)算的結(jié)構(gòu)。除此以來(lái),還有一種就是前些年比較熱的 manifold embedding,這個(gè)是通過(guò)保持局部結(jié)構(gòu)的嵌入,獲取全局結(jié)構(gòu),后面還會(huì)提到。

  1. 接下來(lái)的一 個(gè)重要的代數(shù)結(jié)構(gòu),就是內(nèi)積(inner product)結(jié)構(gòu)。內(nèi)積結(jié)構(gòu)一旦建立,會(huì)直接誘導(dǎo)出一種性質(zhì)良好的度量,就是范數(shù)(norm),并且進(jìn)而誘導(dǎo)出拓?fù)浣Y(jié)構(gòu)。一般來(lái)說(shuō),內(nèi)積需要建立在線 性空間的基礎(chǔ)上,否則連一個(gè)二元運(yùn)算是否是內(nèi)積都無(wú)法驗(yàn)證。不過(guò),kernel理論指出,對(duì)于一個(gè)空間,只要定義一個(gè)正定核(positive kernel)——一個(gè)符合正定條件的二元運(yùn)算,就必然存在一個(gè)希爾伯特空間,其內(nèi)積運(yùn)算等效于核運(yùn)算。這個(gè)結(jié)論的重要意義在于,我們可以繞開(kāi)線性空間, 通過(guò)首先定義kernel的方式,誘導(dǎo)出一個(gè)線性空間(叫做再生核希爾伯特空間 Reproducing Kernel Hilbert Space),從而我們就自然獲得我們所需要的度量結(jié)構(gòu)和線性運(yùn)算結(jié)構(gòu)。這是kernel theory的基礎(chǔ)。

在很多教科書(shū)中,以二 次核為例子,把二維空間變成三維,然后告訴大家kernel用于升維。對(duì)于這種說(shuō)法,我一直認(rèn)為在一定程度上是誤導(dǎo)的。事實(shí)上,kernel的最首要意義 是內(nèi)積的建立(或者改造),從而誘導(dǎo)出更利于表達(dá)的度量和運(yùn)算結(jié)構(gòu)。對(duì)于一個(gè)問(wèn)題而言,選擇一個(gè)切合問(wèn)題的kernel比起關(guān)注“升維”來(lái)得更為重要。

kernel被視為非線性化的重要手段,用于處理非高斯的數(shù)據(jù)分布。這是有道理的。通過(guò)nonlinear kernel改造的內(nèi)積空間,其結(jié)構(gòu)和原空間的結(jié)構(gòu)確實(shí)不是線性關(guān)聯(lián),從這個(gè)意義上說(shuō),它實(shí)施了非線性化。不過(guò),我們還應(yīng)該明白,它的最終目標(biāo)還是要回到 線性空間,新的內(nèi)積空間仍舊是一個(gè)線性空間,它一旦建立,其后的運(yùn)算都是線性的,因此,kernel的使用就是為了尋求一個(gè)新的線性空間,使得線性運(yùn)算更 加合理——非線性化的改造最終仍舊是要為線性運(yùn)算服務(wù)。

值得一提的是,kernelization本質(zhì)上說(shuō)還是一種嵌入過(guò)程:對(duì)于一個(gè)空間先建立內(nèi)積結(jié)構(gòu),并且以保持內(nèi)積結(jié)構(gòu)不變的方式嵌入到一個(gè)高維的線性空間,從而繼承其線性運(yùn)算體系。

  1. 上 面說(shuō)到的都是從全局的方式建立代數(shù)結(jié)構(gòu)的過(guò)程,但是那必須以某種全局結(jié)構(gòu)為基礎(chǔ)(無(wú)論預(yù)先定義的是運(yùn)算,度量還是內(nèi)積,都必須適用于全空間。)但是,全局 結(jié)構(gòu)未必存在或者適合,而局部結(jié)構(gòu)往往簡(jiǎn)單方便得多。這里就形成一種策略,以局部而達(dá)全局——這就是流形(manifold)的思想,而其則根源于拓?fù)?學(xué)。

從拓?fù)鋵W(xué)的角度說(shuō),流形就是一個(gè)非常優(yōu)良的拓?fù)淇臻g:符合Hausdorff分離公理(任何不同的兩點(diǎn)都可以通過(guò)不相交的鄰域分 離),符合第二可數(shù)公理(具有可數(shù)的拓?fù)浠⑶腋匾氖牵植客哂赗^n。因此,一個(gè)正則(Regular)流形基本就具有了各種最良好的拓?fù)涮?性。而局部同胚于R^n,代表了它至少在局部上可以繼承R^n的各種結(jié)構(gòu),比如線性運(yùn)算和內(nèi)積,從而建立分析體系。事實(shí)上,拓?fù)淞餍卫^承這些結(jié)構(gòu)后形成的 體系,正是現(xiàn)代流形理論研究的重點(diǎn)。繼承了分析體系的流形,就形成了微分流形(Differential manifold),這是現(xiàn)代微分幾何的核心。而微分流形各點(diǎn)上的切空間(Tangent Space),則獲得了線性運(yùn)算的體系。而進(jìn)一步繼承了局部?jī)?nèi)積結(jié)構(gòu)的流形,則形成黎曼流形(Riemann manifold),而流形的全局度量體系——測(cè)地距離(geodesics)正是通過(guò)對(duì)局部度量的延伸來(lái)獲得。進(jìn)一步的,當(dāng)流行本身的拓?fù)浣Y(jié)構(gòu)和切空間 上的線性結(jié)構(gòu)發(fā)生關(guān)系——也就獲得一簇拓?fù)潢P(guān)聯(lián)的線性空間——向量叢(Vector bundle)。

雖然manifold theory作為現(xiàn)代幾何學(xué)的核心,是一個(gè)博大精深的領(lǐng)域,但是它在learning中的應(yīng)用則顯得非常狹窄。事實(shí)上,對(duì)于manifold,很多做 learning的朋友首先反應(yīng)的是ISOMAP, LLE, eigenmap之類的算法。這些都屬于embedding。當(dāng)然,這確實(shí)是流形理論的一個(gè)重要方面。嚴(yán)格來(lái)說(shuō),這要求是從原空間到其映像的微分同胚映 射,因此,嵌入后的空間在局部上具有相同的分析結(jié)構(gòu),同時(shí)也獲得了各種好處——全局的線性運(yùn)算和度量。不過(guò),這個(gè)概念在learning的應(yīng)用中被相當(dāng)程 度的放寬了——微分同胚并不能被完全保證,而整個(gè)分析結(jié)構(gòu)也不能被完全保持。大家更關(guān)注的是保持局部結(jié)構(gòu)中的某個(gè)方面——不過(guò)這在實(shí)際應(yīng)用中的折衷方案也 是可以理解的。事實(shí)表明,當(dāng)原空間中的數(shù)據(jù)足夠密集的情況下,這些算法工作良好。

Learning中流形應(yīng)用的真正問(wèn)題在于它被過(guò)濫地 運(yùn)用于稀疏空間(Sparse space),事實(shí)上在高維空間中撒進(jìn)去幾千乃至幾十萬(wàn)點(diǎn),即使最相鄰的幾點(diǎn)也難稱為局部了,局部的范圍和全局的范圍其實(shí)已經(jīng)沒(méi)有了根本差別,連局部的概 念都立不住腳的時(shí)候,后面基于其展開(kāi)的一切工作也都沒(méi)有太大的意義。事實(shí)上,稀疏空間有其本身的規(guī)律和法則,通過(guò)局部形成全局的流形思想從本質(zhì)上是不適合 于此的。雖然,流形是一種非常美的理論,但是再漂亮的理論也需要用得其所——它應(yīng)該用于解決具有密集數(shù)據(jù)分布的低維空間。至于,一些paper所報(bào)告的在 高維空間(比如人臉)運(yùn)用流形方法獲得性能提升,其實(shí)未必是因?yàn)?#8220;流形”本身所起的作用,而很可能是其它方面的因素。

  1. 流 形在實(shí)際應(yīng)用中起重要作用的還有兩個(gè)方面:一個(gè)是研究幾何形體的性質(zhì)(我們暫且不談這個(gè)),還有就是它和代數(shù)結(jié)構(gòu)的結(jié)合形成的李群(Lie group)和李代數(shù)(Lie algebra)。 當(dāng)我們研究的對(duì)象是變換本身的時(shí)候,它們構(gòu)成的空間是有其特殊性的,比如所有子空間投影形成了Grassmann流形,所有的可逆線性算子,或者仿射算 子,也形成各自的流形。對(duì)他們的最重要操作是變換的結(jié)合,而不是加法數(shù)乘,因此,它們上面定義的更合適的代數(shù)結(jié)構(gòu)應(yīng)該是群和不是線性空間。而群和微分流形 的結(jié)合體——李群則成為它們最合適的描述體系——而其切空間則構(gòu)成了一種加強(qiáng)的線性空間:李代數(shù),用于描述其局部變化特性。

李代數(shù)和李 群的關(guān)系是非常漂亮的。它把變換的微變化轉(zhuǎn)換成了線性空間的代數(shù)運(yùn)算,使得移植傳統(tǒng)的基于線性空間的模型和算法到李空間變得可能。而且李代數(shù)中的矩陣比起 變換本身的矩陣甚至更能反映變換的特性。幾何變換的李代數(shù)矩陣的譜結(jié)構(gòu)就能非常方便地用于分析變換的幾何特性。

最后,回頭總結(jié)一下關(guān)于 嵌入這個(gè)應(yīng)用廣泛的策略,在learning中的isometry, kernel和manifold embedding都屬于此范疇,它們分別通過(guò)保持原空間的度量結(jié)構(gòu),內(nèi)積結(jié)構(gòu)和局部結(jié)構(gòu)來(lái)獲得到目標(biāo)(通常是向量空間)的嵌入,從而獲得全局的坐標(biāo)表 達(dá),線性運(yùn)算和度量,進(jìn)而能被各種線性算法和模型所應(yīng)用。

在獲得這一系列好處的同時(shí),也有值得我們注意的地方。首先,嵌入只是一種數(shù)學(xué) 手段,并不能取代對(duì)問(wèn)題本身的研究和分析。一種不恰當(dāng)?shù)脑冀Y(jié)構(gòu)或者嵌入策略,很多時(shí)候甚至適得其反——比如稀疏空間的流形嵌入,或者選取不恰當(dāng)?shù)?kernel。另外,嵌入適合于分析,而未必適合于重建或者合成。這是因?yàn)榍度胧且粋€(gè)單射(injection),目標(biāo)空間不是每一個(gè)點(diǎn)都和原空間能有效 對(duì)應(yīng)的。嵌入之后的運(yùn)算往往就打破了原空間施加的限制。比如兩個(gè)元素即使都是從原空間映射過(guò)來(lái),它們的和卻未必有原像,這時(shí)就不能直接地回到原空間了。當(dāng) 然可以考慮在原空間找一個(gè)點(diǎn)它的映射與之最近,不過(guò)這在實(shí)際中的有效性是值得商榷的。

和Learning有關(guān)的數(shù)學(xué) 世界是非常廣博的,我隨著學(xué)習(xí)和研究的深入,越來(lái)越發(fā)現(xiàn)在一些我平常不注意的數(shù)學(xué)分支中有著適合于問(wèn)題的結(jié)構(gòu)和方法。比如,廣群(groupoid)和廣 代數(shù)(algebroid)能克服李群和李代數(shù)在表示連續(xù)變換過(guò)程中的一些困難——這些困難困擾了我很長(zhǎng)時(shí)間。解決問(wèn)題和建立數(shù)學(xué)模型是相輔相成的,一方 面,一個(gè)清晰的問(wèn)題將使我們有明確的目標(biāo)去尋求合適的數(shù)學(xué)結(jié)構(gòu),另一方面,對(duì)數(shù)學(xué)結(jié)構(gòu)的深入理解對(duì)于指導(dǎo)問(wèn)題的解決也是有重要作用的。對(duì)于解決一個(gè)問(wèn)題來(lái) 說(shuō),數(shù)學(xué)工具的選擇最重要的是適合,而不是高深,但是如果在現(xiàn)有數(shù)學(xué)方法陷入困難的時(shí)候,尋求更高級(jí)別的數(shù)學(xué)的幫助,往往能柳暗花明。數(shù)學(xué)家長(zhǎng)時(shí)間的努力 解決的很多問(wèn)題,并不都是理論游戲,他們的解決方案中很多時(shí)候蘊(yùn)含著我們需要的東西,而且可能導(dǎo)致對(duì)更多問(wèn)題的解決——但是我們需要時(shí)間去學(xué)習(xí)和發(fā)現(xiàn)它 們。

 



]]>
狠狠精品久久久无码中文字幕| 色综合久久最新中文字幕| 久久亚洲国产最新网站| 色综合久久综合中文综合网| 97久久天天综合色天天综合色hd| 亚洲一区中文字幕久久| 噜噜噜色噜噜噜久久| 久久婷婷成人综合色综合| 精品久久久久久无码中文野结衣| 97香蕉久久夜色精品国产| 久久综合久久综合九色| 一本久久免费视频| 久久久精品午夜免费不卡| 久久精品国产日本波多野结衣| 人人狠狠综合久久亚洲婷婷| 久久这里都是精品| 国产成人精品久久亚洲高清不卡 | 亚洲精品高清一二区久久| 99热成人精品热久久669| 久久久久国产精品嫩草影院| 国产精品美女久久久久AV福利| 欧美一区二区三区久久综合| 亚洲国产成人精品91久久久 | 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 无码人妻少妇久久中文字幕蜜桃| 国产福利电影一区二区三区久久久久成人精品综合 | 久久国产精品成人免费| 无码乱码观看精品久久| 久久99中文字幕久久| 伊人久久大香线蕉AV色婷婷色| 久久狠狠一本精品综合网| 久久精品国产亚洲欧美| 亚洲精品美女久久777777| 亚洲午夜久久久| 日批日出水久久亚洲精品tv| 精品人妻伦九区久久AAA片69 | 久久久久亚洲Av无码专| 欧美精品九九99久久在观看| 香港aa三级久久三级老师2021国产三级精品三级在 | 一本久久a久久精品亚洲| 久久免费视频1|