全文轉(zhuǎn)載薛貴榮博士的文章《遷移學(xué)習(xí)( Transfer Learning )》。原文點(diǎn)擊
這里!
在傳統(tǒng)的機(jī)器學(xué)習(xí)的框架下,學(xué)習(xí)的任務(wù)就是在給定充分訓(xùn)練數(shù)據(jù)的基礎(chǔ)上來學(xué)習(xí)一個(gè)分類模型;然后利用這個(gè)學(xué)習(xí)到的模型來對(duì)測試文檔進(jìn)行分類與預(yù)測。然而,我們看到機(jī)器學(xué)習(xí)算法在當(dāng)前的Web挖掘研究中存在著一個(gè)關(guān)鍵的問題:一些新出現(xiàn)的領(lǐng)域中的大量訓(xùn)練數(shù)據(jù)非常難得到。我們看到Web應(yīng)用領(lǐng)域的發(fā)展非常快速。大量新的領(lǐng)域不斷涌現(xiàn),從傳統(tǒng)的新聞,到網(wǎng)頁,到圖片,再到博客、播客等等。傳統(tǒng)的機(jī)器學(xué)習(xí)需要對(duì)每個(gè)領(lǐng)域都標(biāo)定大量訓(xùn)練數(shù)據(jù),這將會(huì)耗費(fèi)大量的人力與物力。而沒有大量的標(biāo)注數(shù)據(jù),會(huì)使得很多與學(xué)習(xí)相關(guān)研究與應(yīng)用無法開展。其次,傳統(tǒng)的機(jī)器學(xué)習(xí)假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)服從相同的數(shù)據(jù)分布。然而,在許多情況下,這種同分布假設(shè)并不滿足。通常可能發(fā)生的情況如訓(xùn)練數(shù)據(jù)過期。這往往需要我們?nèi)ブ匦聵?biāo)注大量的訓(xùn)練數(shù)據(jù)以滿足我們訓(xùn)練的需要,但標(biāo)注新數(shù)據(jù)是非常昂貴的,需要大量的人力與物力。從另外一個(gè)角度上看,如果我們有了大量的、在不同分布下的訓(xùn)練數(shù)據(jù),完全丟棄這些數(shù)據(jù)也是非常浪費(fèi)的。如何合理的利用這些數(shù)據(jù)就是遷移學(xué)習(xí)主要解決的問題。遷移學(xué)習(xí)可以從現(xiàn)有的數(shù)據(jù)中遷移知識(shí),用來幫助將來的學(xué)習(xí)。遷移學(xué)習(xí)(Transfer Learning)的目標(biāo)是將從一個(gè)環(huán)境中學(xué)到的知識(shí)用來幫助新環(huán)境中的學(xué)習(xí)任務(wù)。因此,遷移學(xué)習(xí)不會(huì)像傳統(tǒng)機(jī)器學(xué)習(xí)那樣作同分布假設(shè)。
我們?cè)谶w移學(xué)習(xí)方面的工作目前可以分為以下三個(gè)部分:同構(gòu)空間下基于實(shí)例的遷移學(xué)習(xí),同構(gòu)空間下基于特征的遷移學(xué)習(xí)與異構(gòu)空間下的遷移學(xué)習(xí)。我們的研究指出,基于實(shí)例的遷移學(xué)習(xí)有更強(qiáng)的知識(shí)遷移能力,基于特征的遷移學(xué)習(xí)具有更廣泛的知識(shí)遷移能力,而異構(gòu)空間的遷移具有廣泛的學(xué)習(xí)與擴(kuò)展能力。這幾種方法各有千秋。
1.同構(gòu)空間下基于實(shí)例的遷移學(xué)習(xí)
基于實(shí)例的遷移學(xué)習(xí)的基本思想是,盡管輔助訓(xùn)練數(shù)據(jù)和源訓(xùn)練數(shù)據(jù)或多或少會(huì)有些不同,但是輔助訓(xùn)練數(shù)據(jù)中應(yīng)該還是會(huì)存在一部分比較適合用來訓(xùn)練一個(gè)有效的分類模型,并且適應(yīng)測試數(shù)據(jù)。于是,我們的目標(biāo)就是從輔助訓(xùn)練數(shù)據(jù)中找出那些適合測試數(shù)據(jù)的實(shí)例,并將這些實(shí)例遷移到源訓(xùn)練數(shù)據(jù)的學(xué)習(xí)中去。在基于實(shí)例的遷移學(xué)習(xí)方面,我們推廣了傳統(tǒng)的AdaBoost算法,提出一種具有遷移能力的boosting算法:Tradaboosting [9],使之具有遷移學(xué)習(xí)的能力,從而能夠最大限度的利用輔助訓(xùn)練數(shù)據(jù)來幫助目標(biāo)的分類。我們的關(guān)鍵想法是,利用boosting的技術(shù)來過濾掉輔助數(shù)據(jù)中那些與源訓(xùn)練數(shù)據(jù)最不像的數(shù)據(jù)。其中,boosting的作用是建立一種自動(dòng)調(diào)整權(quán)重的機(jī)制,于是重要的輔助訓(xùn)練數(shù)據(jù)的權(quán)重將會(huì)增加,不重要的輔助訓(xùn)練數(shù)據(jù)的權(quán)重將會(huì)減小。調(diào)整權(quán)重之后,這些帶權(quán)重的輔助訓(xùn)練數(shù)據(jù)將會(huì)作為額外的訓(xùn)練數(shù)據(jù),與源訓(xùn)練數(shù)據(jù)一起從來提高分類模型的可靠度。
基于實(shí)例的遷移學(xué)習(xí)只能發(fā)生在源數(shù)據(jù)與輔助數(shù)據(jù)非常相近的情況下。但是,當(dāng)源數(shù)據(jù)和輔助數(shù)據(jù)差別比較大的時(shí)候,基于實(shí)例的遷移學(xué)習(xí)算法往往很難找到可以遷移的知識(shí)。但是我們發(fā)現(xiàn),即便有時(shí)源數(shù)據(jù)與目標(biāo)數(shù)據(jù)在實(shí)例層面上并沒有共享一些公共的知識(shí),它們可能會(huì)在特征層面上有一些交集。因此我們研究了基于特征的遷移學(xué)習(xí),它討論的是如何利用特征層面上公共的知識(shí)進(jìn)行學(xué)習(xí)的問題。
2.同構(gòu)空間下基于特征的遷移學(xué)習(xí)
在基于特征的遷移學(xué)習(xí)研究方面,我們提出了多種學(xué)習(xí)的算法,如CoCC算法[7],TPLSA算法[4],譜分析算法[2]與自學(xué)習(xí)算法[3]等。其中利用互聚類算法產(chǎn)生一個(gè)公共的特征表示,從而幫助學(xué)習(xí)算法。我們的基本思想是使用互聚類算法同時(shí)對(duì)源數(shù)據(jù)與輔助數(shù)據(jù)進(jìn)行聚類,得到一個(gè)共同的特征表示,這個(gè)新的特征表示優(yōu)于只基于源數(shù)據(jù)的特征表示。通過把源數(shù)據(jù)表示在這個(gè)新的空間里,以實(shí)現(xiàn)遷移學(xué)習(xí)。應(yīng)用這個(gè)思想,我們提出了基于特征的有監(jiān)督遷移學(xué)習(xí)與基于特征的無監(jiān)督遷移學(xué)習(xí)。
2.1 基于特征的有監(jiān)督遷移學(xué)習(xí)
我們?cè)诨谔卣鞯挠斜O(jiān)督遷移學(xué)習(xí)方面的工作是基于互聚類的跨領(lǐng)域分類[7],這個(gè)工作考慮的問題是:當(dāng)給定一個(gè)新的、不同的領(lǐng)域,標(biāo)注數(shù)據(jù)及其稀少時(shí),如何利用原有領(lǐng)域中含有的大量標(biāo)注數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)的問題。在基于互聚類的跨領(lǐng)域分類這個(gè)工作中,我們?yōu)榭珙I(lǐng)域分類問題定義了一個(gè)統(tǒng)一的信息論形式化公式,其中基于互聚類的分類問題的轉(zhuǎn)化成對(duì)目標(biāo)函數(shù)的最優(yōu)化問題。在我們提出的模型中,目標(biāo)函數(shù)被定義為源數(shù)據(jù)實(shí)例,公共特征空間與輔助數(shù)據(jù)實(shí)例間互信息的損失。
2.2 基于特征的無監(jiān)督遷移學(xué)習(xí):自學(xué)習(xí)聚類
我們提出的自學(xué)習(xí)聚類算法[3]屬于基于特征的無監(jiān)督遷移學(xué)習(xí)方面的工作。這里我們考慮的問題是:現(xiàn)實(shí)中可能有標(biāo)記的輔助數(shù)據(jù)都難以得到,在這種情況下如何利用大量無標(biāo)記數(shù)據(jù)輔助數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)的問題。自學(xué)習(xí)聚類 的基本思想是通過同時(shí)對(duì)源數(shù)據(jù)與輔助數(shù)據(jù)進(jìn)行聚類得到一個(gè)共同的特征表示,而這個(gè)新的特征表示由于基于大量的輔助數(shù)據(jù),所以會(huì)優(yōu)于僅基于源數(shù)據(jù)而產(chǎn)生的特征表示,從而對(duì)聚類產(chǎn)生幫助。
上面提出的兩種學(xué)習(xí)策略(基于特征的有監(jiān)督遷移學(xué)習(xí)與無監(jiān)督遷移學(xué)習(xí))解決的都是源數(shù)據(jù)與輔助數(shù)據(jù)在同一特征空間內(nèi)的基于特征的遷移學(xué)習(xí)問題。當(dāng)源數(shù)據(jù)與輔助數(shù)據(jù)所在的特征空間中不同時(shí),我們還研究了跨特征空間的基于特征的遷移學(xué)習(xí),它也屬于基于特征的遷移學(xué)習(xí)的一種。
3 異構(gòu)空間下的遷移學(xué)習(xí):翻譯學(xué)習(xí)
我們提出的翻譯學(xué)習(xí)[1][5]致力于解決源數(shù)據(jù)與測試數(shù)據(jù)分別屬于兩個(gè)不同的特征空間下的情況。在[1]中,我們使用大量容易得到的標(biāo)注過文本數(shù)據(jù)去幫助僅有少量標(biāo)注的圖像分類的問題,如上圖所示。我們的方法基于使用那些用有兩個(gè)視角的數(shù)據(jù)來構(gòu)建溝通兩個(gè)特征空間的橋梁。雖然這些多視角數(shù)據(jù)可能不一定能夠用來做分類用的訓(xùn)練數(shù)據(jù),但是,它們可以用來構(gòu)建翻譯器。通過這個(gè)翻譯器,我們把近鄰算法和特征翻譯結(jié)合在一起,將輔助數(shù)據(jù)翻譯到源數(shù)據(jù)特征空間里去,用一個(gè)統(tǒng)一的語言模型進(jìn)行學(xué)習(xí)與分類。
引文:
[1]. Wenyuan Dai, Yuqiang Chen, Gui-Rong Xue, Qiang Yang, and Yong Yu. Translated Learning: Transfer Learning across Different Feature Spaces. Advances in Neural Information Processing Systems 21 (NIPS 2008), Vancouver, British Columbia, Canada, December 8-13, 2008.
[2]. Xiao Ling, Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu. Spectral Domain-Transfer Learning. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2008), Pages 488-496, Las Vegas, Nevada, USA, August 24-27, 2008.
[3]. Wenyuan Dai, Qiang Yang, Gui-Rong Xue and Yong Yu. Self-taught Clustering. In Proceedings of the Twenty-Fifth International Conference on Machine Learning (ICML 2008), pages 200-207, Helsinki, Finland, 5-9 July, 2008.
[4]. Gui-Rong Xue, Wenyuan Dai, Qiang Yang and Yong Yu. Topic-bridged PLSA for Cross-Domain Text Classification. In Proceedings of the Thirty-first International ACM SIGIR Conference on Research and Development on Information Retrieval (SIGIR2008), pages 627-634, Singapore, July 20-24, 2008.
[5]. Xiao Ling, Gui-Rong Xue, Wenyuan Dai, Yun Jiang, Qiang Yang and Yong Yu. Can Chinese Web Pages be Classified with English Data Source? In Proceedings the Seventeenth International World Wide Web Conference (WWW2008), Pages 969-978, Beijing, China, April 21-25, 2008.
[6]. Xiao Ling, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Knowledge Transferring via Implicit Link Analysis. In Proceedings of the Thirteenth International Conference on Database Systems for Advanced Applications (DASFAA 2008), Pages 520-528, New Delhi, India, March 19-22, 2008.
[7]. Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Co-clustering based Classification for Out-of-domain Documents. In Proceedings of the Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2007), Pages 210-219, San Jose, California, USA, Aug 12-15, 2007.
[8]. Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Transferring Naive Bayes Classifiers for Text Classification. In Proceedings of the Twenty-Second National Conference on Artificial Intelligence (AAAI 2007), Pages 540-545, Vancouver, British Columbia, Canada, July 22-26, 2007.
[9]. Wenyuan Dai, Qiang Yang, Gui-Rong Xue and Yong Yu. Boosting for Transfer Learning. In Proceedings of the Twenty-Fourth International Conference on Machine Learning (ICML 2007), Pages 193-200, Corvallis, Oregon, USA, June 20-24, 2007.
[10]. Dikan Xing, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Bridged Refinement for Transfer Learning. In Proceedings of the Eleventh European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2007), Pages 324-335, Warsaw, Poland, September 17-21, 2007. (Best Student Paper Award)
[11]. Xin Zhang, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Adaptive Email Spam Filtering based on Information Theory. In Proceedings of the Eighth International Conference on Web Information Systems Engineering (WISE 2007), Pages 159–170, Nancy, France, December 3-7, 2007.