全文轉載薛貴榮博士的文章《遷移學習( Transfer Learning )》。原文點擊這里

  在傳統的機器學習的框架下,學習的任務就是在給定充分訓練數據的基礎上來學習一個分類模型;然后利用這個學習到的模型來對測試文檔進行分類與預測。然而,我們看到機器學習算法在當前的Web挖掘研究中存在著一個關鍵的問題:一些新出現的領域中的大量訓練數據非常難得到。我們看到Web應用領域的發展非常快速。大量新的領域不斷涌現,從傳統的新聞,到網頁,到圖片,再到博客、播客等等。傳統的機器學習需要對每個領域都標定大量訓練數據,這將會耗費大量的人力與物力。而沒有大量的標注數據,會使得很多與學習相關研究與應用無法開展。其次,傳統的機器學習假設訓練數據與測試數據服從相同的數據分布。然而,在許多情況下,這種同分布假設并不滿足。通常可能發生的情況如訓練數據過期。這往往需要我們去重新標注大量的訓練數據以滿足我們訓練的需要,但標注新數據是非常昂貴的,需要大量的人力與物力。從另外一個角度上看,如果我們有了大量的、在不同分布下的訓練數據,完全丟棄這些數據也是非常浪費的。如何合理的利用這些數據就是遷移學習主要解決的問題。遷移學習可以從現有的數據中遷移知識,用來幫助將來的學習。遷移學習(Transfer Learning)的目標是將從一個環境中學到的知識用來幫助新環境中的學習任務。因此,遷移學習不會像傳統機器學習那樣作同分布假設。

  我們在遷移學習方面的工作目前可以分為以下三個部分:同構空間下基于實例的遷移學習,同構空間下基于特征的遷移學習與異構空間下的遷移學習。我們的研究指出,基于實例的遷移學習有更強的知識遷移能力,基于特征的遷移學習具有更廣泛的知識遷移能力,而異構空間的遷移具有廣泛的學習與擴展能力。這幾種方法各有千秋。

  1.同構空間下基于實例的遷移學習

  基于實例的遷移學習的基本思想是,盡管輔助訓練數據和源訓練數據或多或少會有些不同,但是輔助訓練數據中應該還是會存在一部分比較適合用來訓練一個有效的分類模型,并且適應測試數據。于是,我們的目標就是從輔助訓練數據中找出那些適合測試數據的實例,并將這些實例遷移到源訓練數據的學習中去。在基于實例的遷移學習方面,我們推廣了傳統的AdaBoost算法,提出一種具有遷移能力的boosting算法:Tradaboosting [9],使之具有遷移學習的能力,從而能夠最大限度的利用輔助訓練數據來幫助目標的分類。我們的關鍵想法是,利用boosting的技術來過濾掉輔助數據中那些與源訓練數據最不像的數據。其中,boosting的作用是建立一種自動調整權重的機制,于是重要的輔助訓練數據的權重將會增加,不重要的輔助訓練數據的權重將會減小。調整權重之后,這些帶權重的輔助訓練數據將會作為額外的訓練數據,與源訓練數據一起從來提高分類模型的可靠度。

  基于實例的遷移學習只能發生在源數據與輔助數據非常相近的情況下。但是,當源數據和輔助數據差別比較大的時候,基于實例的遷移學習算法往往很難找到可以遷移的知識。但是我們發現,即便有時源數據與目標數據在實例層面上并沒有共享一些公共的知識,它們可能會在特征層面上有一些交集。因此我們研究了基于特征的遷移學習,它討論的是如何利用特征層面上公共的知識進行學習的問題。

  2.同構空間下基于特征的遷移學習

  在基于特征的遷移學習研究方面,我們提出了多種學習的算法,如CoCC算法[7],TPLSA算法[4],譜分析算法[2]與自學習算法[3]等。其中利用互聚類算法產生一個公共的特征表示,從而幫助學習算法。我們的基本思想是使用互聚類算法同時對源數據與輔助數據進行聚類,得到一個共同的特征表示,這個新的特征表示優于只基于源數據的特征表示。通過把源數據表示在這個新的空間里,以實現遷移學習。應用這個思想,我們提出了基于特征的有監督遷移學習與基于特征的無監督遷移學習。

  2.1 基于特征的有監督遷移學習

  我們在基于特征的有監督遷移學習方面的工作是基于互聚類的跨領域分類[7],這個工作考慮的問題是:當給定一個新的、不同的領域,標注數據及其稀少時,如何利用原有領域中含有的大量標注數據進行遷移學習的問題。在基于互聚類的跨領域分類這個工作中,我們為跨領域分類問題定義了一個統一的信息論形式化公式,其中基于互聚類的分類問題的轉化成對目標函數的最優化問題。在我們提出的模型中,目標函數被定義為源數據實例,公共特征空間與輔助數據實例間互信息的損失。

  2.2 基于特征的無監督遷移學習:自學習聚類

  我們提出的自學習聚類算法[3]屬于基于特征的無監督遷移學習方面的工作。這里我們考慮的問題是:現實中可能有標記的輔助數據都難以得到,在這種情況下如何利用大量無標記數據輔助數據進行遷移學習的問題。自學習聚類 的基本思想是通過同時對源數據與輔助數據進行聚類得到一個共同的特征表示,而這個新的特征表示由于基于大量的輔助數據,所以會優于僅基于源數據而產生的特征表示,從而對聚類產生幫助。

  上面提出的兩種學習策略(基于特征的有監督遷移學習與無監督遷移學習)解決的都是源數據與輔助數據在同一特征空間內的基于特征的遷移學習問題。當源數據與輔助數據所在的特征空間中不同時,我們還研究了跨特征空間的基于特征的遷移學習,它也屬于基于特征的遷移學習的一種。

  3 異構空間下的遷移學習:翻譯學習

  我們提出的翻譯學習[1][5]致力于解決源數據與測試數據分別屬于兩個不同的特征空間下的情況。在[1]中,我們使用大量容易得到的標注過文本數據去幫助僅有少量標注的圖像分類的問題,如上圖所示。我們的方法基于使用那些用有兩個視角的數據來構建溝通兩個特征空間的橋梁。雖然這些多視角數據可能不一定能夠用來做分類用的訓練數據,但是,它們可以用來構建翻譯器。通過這個翻譯器,我們把近鄰算法和特征翻譯結合在一起,將輔助數據翻譯到源數據特征空間里去,用一個統一的語言模型進行學習與分類。

  引文:

  [1]. Wenyuan Dai, Yuqiang Chen, Gui-Rong Xue, Qiang Yang, and Yong Yu. Translated Learning: Transfer Learning across Different Feature Spaces. Advances in Neural Information Processing Systems 21 (NIPS 2008), Vancouver, British Columbia, Canada, December 8-13, 2008.

  [2]. Xiao Ling, Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu. Spectral Domain-Transfer Learning. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2008), Pages 488-496, Las Vegas, Nevada, USA, August 24-27, 2008.

  [3]. Wenyuan Dai, Qiang Yang, Gui-Rong Xue and Yong Yu. Self-taught Clustering. In Proceedings of the Twenty-Fifth International Conference on Machine Learning (ICML 2008), pages 200-207, Helsinki, Finland, 5-9 July, 2008.

  [4]. Gui-Rong Xue, Wenyuan Dai, Qiang Yang and Yong Yu. Topic-bridged PLSA for Cross-Domain Text Classification. In Proceedings of the Thirty-first International ACM SIGIR Conference on Research and Development on Information Retrieval (SIGIR2008), pages 627-634, Singapore, July 20-24, 2008.

  [5]. Xiao Ling, Gui-Rong Xue, Wenyuan Dai, Yun Jiang, Qiang Yang and Yong Yu. Can Chinese Web Pages be Classified with English Data Source? In Proceedings the Seventeenth International World Wide Web Conference (WWW2008), Pages 969-978, Beijing, China, April 21-25, 2008.

  [6]. Xiao Ling, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Knowledge Transferring via Implicit Link Analysis. In Proceedings of the Thirteenth International Conference on Database Systems for Advanced Applications (DASFAA 2008), Pages 520-528, New Delhi, India, March 19-22, 2008.

  [7]. Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Co-clustering based Classification for Out-of-domain Documents. In Proceedings of the Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2007), Pages 210-219, San Jose, California, USA, Aug 12-15, 2007.

  [8]. Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Transferring Naive Bayes Classifiers for Text Classification. In Proceedings of the Twenty-Second National Conference on Artificial Intelligence (AAAI 2007), Pages 540-545, Vancouver, British Columbia, Canada, July 22-26, 2007.

  [9]. Wenyuan Dai, Qiang Yang, Gui-Rong Xue and Yong Yu. Boosting for Transfer Learning. In Proceedings of the Twenty-Fourth International Conference on Machine Learning (ICML 2007), Pages 193-200, Corvallis, Oregon, USA, June 20-24, 2007.

  [10]. Dikan Xing, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Bridged Refinement for Transfer Learning. In Proceedings of the Eleventh European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2007), Pages 324-335, Warsaw, Poland, September 17-21, 2007. (Best Student Paper Award)

  [11]. Xin Zhang, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Adaptive Email Spam Filtering based on Information Theory. In Proceedings of the Eighth International Conference on Web Information Systems Engineering (WISE 2007), Pages 159–170, Nancy, France, December 3-7, 2007.