亚洲欧美色一区,玉米视频成人免费看,亚洲国产精品一区二区三区

機(jī)器學(xué)習(xí)是研究人類的學(xué)習(xí)活動(dòng)，獲取知識(shí)和技能的理論和方法，改善系統(tǒng)性能的學(xué)科。

1.歸納學(xué)習(xí)：從大量的經(jīng)驗(yàn)數(shù)據(jù)中歸納抽取出一般判定規(guī)則和模式，是從特殊情況推導(dǎo)出一般規(guī)則的學(xué)習(xí)方法。歸納學(xué)習(xí)可劃分為單概念學(xué)習(xí)和多概念學(xué)習(xí)。概念指用某種描述語言表的謂詞，當(dāng)應(yīng)用于負(fù)實(shí)例時(shí)為假。對(duì)于單概念的學(xué)習(xí)，學(xué)習(xí)的目的是從概念空間中尋找某個(gè)與實(shí)例空間一致的概念，對(duì)于多概念的學(xué)習(xí)任務(wù)，是從概念空間中尋找若干概念描述，對(duì)于每一個(gè)概念的描述，實(shí)例空間中均有相應(yīng)的空間與之對(duì)應(yīng)。

2.變型空間學(xué)習(xí)法：在變型空間方法中，根據(jù)概念之間的特殊性和一般性，可將變型空間表示成偏序集的形式，變型空間方法以包含整個(gè)概念的規(guī)則空間為初始的假設(shè)規(guī)則集合H，它是迄今為止所得到的所有訓(xùn)練實(shí)例相一致的概念集合。根據(jù)示教例子中的信息，對(duì)H進(jìn)行范化和特殊化處理，逐步縮小集合H，最后使H收斂為只含有要求的規(guī)則。

候選項(xiàng)刪除算法：http://hi.baidu.com/lvzhnan/blog/item/79edfc12957faa24dd5401f5.html

3.決策樹的歸納學(xué)習(xí)方法：

決策樹的構(gòu)造算法CLS：

1) 初始化參數(shù)C={E}，E包括所有的例子，為根；

2) 如果C中的任一元素e同屬于同一個(gè)決策類則創(chuàng)建一個(gè)葉子節(jié)點(diǎn)YES終止；否則依啟發(fā)式標(biāo)準(zhǔn)，選擇特征Fi={V1, V2, V3,……, Vn}并創(chuàng)建判定節(jié)點(diǎn)，劃分C為互不相交的N個(gè)集合C1，C2，C3，……，Cn；

3) 對(duì)任一個(gè)Ci遞歸。

基本的決策樹學(xué)習(xí)算法：

基本的決策樹學(xué)習(xí)算法ID3是通過自頂向下構(gòu)造決策樹來進(jìn)行學(xué)習(xí)。構(gòu)造過程從一個(gè)“哪一個(gè)屬性將在樹的根節(jié)點(diǎn)被測試？”這個(gè)問題開始的。為了回答這個(gè)問題，使用統(tǒng)計(jì)測試來確定每一個(gè)實(shí)例屬性單獨(dú)分類訓(xùn)練樣例的能力，分類能力最好的熟悉被選作樹的根節(jié)點(diǎn)的測試。然后為根節(jié)點(diǎn)的屬性每個(gè)可能的值產(chǎn)生一個(gè)分支，并把訓(xùn)練樣例排列到適當(dāng)?shù)姆种е隆Ｈ缓笾貜?fù)整個(gè)過程，用每個(gè)分支節(jié)點(diǎn)的關(guān)聯(lián)訓(xùn)練樣例來選取在該點(diǎn)被測試的最佳屬性。這形成了對(duì)合格決策樹的貪婪搜索。

基本的ID3算法為：

1) 隨機(jī)選擇C的一個(gè)子集W (窗口)；

2) 調(diào)用CLS生成W的分類樹DT(強(qiáng)調(diào)的啟發(fā)式標(biāo)準(zhǔn)在后)；

3) 順序掃描C搜集DT的意外(即由DT無法確定的例子)；

4) 組合W與已發(fā)現(xiàn)的意外，形成新的W；

5) 重復(fù)2)到4)，直到無例外為止。

啟發(fā)式標(biāo)準(zhǔn)：

只跟本身與其子樹有關(guān)，采取信息理論用熵來量度。

熵是選擇事件時(shí)選擇自由度的量度，其計(jì)算方法為：P=freq(C_j,S)/|S|；INFO(S)=-SUM(P*LOG(P))；SUM()函數(shù)是求j從1到n的和。Gain(X)=Info(X)-Infox(X)；Infox(X)=SUM( (|T_i|/|T|)*Info(X)；

為保證生成的決策樹最小，ID3算法在生成子樹時(shí)，選取使生成的子樹的熵(即Gain(S))最小的特征來生成子樹。

ID3算法對(duì)數(shù)據(jù)的要求：

1) 所有屬性必須為離散量；

2) 所有的訓(xùn)練例的所有屬性必須有一個(gè)明確的值；

3) 相同的因素必須得到相同的結(jié)論且訓(xùn)練例必須唯一。

4.類比學(xué)習(xí)

1)類比標(biāo)示：指出源問題實(shí)例和新問題之間的相似性；

2)確定映射函數(shù)：選擇源問題實(shí)例的相關(guān)部分，確定映射函數(shù)；

3)應(yīng)用映射函數(shù)：使用映射函數(shù)，將新問題從給定的領(lǐng)域轉(zhuǎn)換到目標(biāo)領(lǐng)域；

4)有效性：采用證明或仿真的過程檢驗(yàn)新得到方案的有效性；

5)學(xué)習(xí)：如果新方案是有效的，則可以對(duì)新的知識(shí)進(jìn)行編碼和保存。

5.基于范例的學(xué)習(xí)：

基于范式推理(Case Based Reasoning,CBR)。人工智能領(lǐng)域中一種重要的基于知識(shí)問題求解和學(xué)習(xí)的方法。

基于范例的推理：

1) 檢索算法：近鄰法，歸納法，以及模板檢索

近鄰法：采用特征間的加權(quán)匹配來估計(jì)范例之間的相似度；

歸納法：可以確定那個(gè)特征用于分規(guī)范時(shí)最好，此方法能生成一棵決策樹，它可以有效的組織范例。

模板檢索：與SQL查詢類似，模板檢索能返回一定參數(shù)值范圍內(nèi)的所有范例。

調(diào)整：

在舊解中增加新的內(nèi)容，或從舊解中刪去某些內(nèi)容，或?qū)εf解中的某些內(nèi)容進(jìn)行替換，或舊解中的某些部分進(jìn)行重新交換。

辯護(hù)：

除了尋找新舊范例間的相似之處，辯護(hù)過程還有對(duì)它們之間的不同點(diǎn)進(jìn)行仔細(xì)的考慮以確定過去的情況是否適應(yīng)現(xiàn)在的情況。

6.解釋學(xué)習(xí)：

基于解釋的學(xué)習(xí)是分析學(xué)習(xí)的主要方式，基于解釋的學(xué)習(xí)（簡稱EBL）是將大量的成果匯集在一個(gè)統(tǒng)一、簡單的框架內(nèi)，通過分析為什么實(shí)例是某個(gè)目標(biāo)概念的一個(gè)具體的例子，EBL對(duì)分析過程加以推廣，剔去與具體例子相關(guān)的成分，從而產(chǎn)生目標(biāo)概念的一個(gè)描述。通過一個(gè)實(shí)例學(xué)習(xí)，抽象目標(biāo)概念被具體化，變得易操作與理解，從而為相似問題的求解提供有效的經(jīng)驗(yàn)。

EBL的框架一般是一個(gè)四元組<DT,TC,E,C>來表示，分別表示領(lǐng)域理論，目標(biāo)概念，訓(xùn)練實(shí)例和可操作準(zhǔn)則。

基于解釋學(xué)習(xí)的過程：

1）分析階段：使用領(lǐng)域理論建立一個(gè)證明訓(xùn)練例子滿足目標(biāo)的概念定義的解釋結(jié)構(gòu)，該結(jié)構(gòu)可表示為一棵證明樹，又稱為解釋樹，他用于解釋為什么實(shí)例是目標(biāo)概念的一個(gè)實(shí)例，起每個(gè)分枝的葉節(jié)點(diǎn)上的表達(dá)式都必須滿足可操作性的準(zhǔn)則。

2）基于解釋的泛化（Explanation-Based Generzalion,EBG）階段：通過將實(shí)例證明樹中的常量用變量進(jìn)行替換，從而完成解釋的泛化，并使用滿足操作的準(zhǔn)則，形成一棵基于解釋的泛化樹，得到目標(biāo)概念的一個(gè)充分條件。

7.支持向量機(jī)(Support Vector Machine,SVM):是從線性可分情況下的最優(yōu)分類面發(fā)展而來的，采用的是保持經(jīng)驗(yàn)風(fēng)險(xiǎn)值固定而最小化置信范圍的策略。

支持向量機(jī)屬于一般化線性分類器。它們也可以被認(rèn)為是提克洛夫規(guī)范化（Tikhonov Regularization）方法的一個(gè)特例。這種分類器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)。因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。

在統(tǒng)計(jì)計(jì)算中，最大期望（EM）算法是在概率（probabilistic）模型中尋找參數(shù)最大似然估計(jì)的算法，其中概率模型依賴于無法觀測的隱藏變量（Latent Variable）。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚（Data Clustering）領(lǐng)域。最大期望算法經(jīng)過兩個(gè)步驟交替進(jìn)行計(jì)算，第一步是計(jì)算期望（E），也就是將隱藏變量像能夠觀測到的一樣包含在內(nèi)從而計(jì)算最大似然的期望值；另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值從而計(jì)算參數(shù)的最大似然估計(jì)。M 步上找到的參數(shù)然后用于另外一個(gè) E 步計(jì)算，這個(gè)過程不斷交替進(jìn)行。

Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對(duì)線性分類器提出了另一種設(shè)計(jì)最佳準(zhǔn)則。其原理也從線性可分說起，然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去，這種分類器被稱為支持向量機(jī)(Support Vector Machine，簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在近年來提出的一種新方法，但是進(jìn)展很快，已經(jīng)被廣泛應(yīng)用在各個(gè)領(lǐng)域之中。

SVM的主要思想可以概括為兩點(diǎn)：

(1) 它是針對(duì)線性可分情況進(jìn)行分析，對(duì)于線性不可分的情況，通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分，從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能；

(2) 它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面，使得學(xué)習(xí)器得到全局最優(yōu)化，并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。

在學(xué)習(xí)這種方法時(shí)，首先要弄清楚這種方法考慮問題的特點(diǎn)，這就要從線性可分的最簡單情況討論起，在沒有弄懂其原理之前，不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況，支持向量機(jī)在設(shè)計(jì)時(shí)，需要用到條件極值問題的求解，因此需用拉格朗日乘子理論，但對(duì)多數(shù)人來說，以前學(xué)到的或常用的是約束條件為等式表示的方式，但在此要用到以不等式作為必須滿足的條件，此時(shí)只要了解拉格朗日理論的有關(guān)結(jié)論就行。

支持向量機(jī)將向量映射到一個(gè)更高維的空間里，在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。一個(gè)極好的指南是C.J.C Burges的《模式識(shí)別支持向量機(jī)指南》。van der Walt 和 Barnard 將支持向量機(jī)和其他分類器進(jìn)行了比較。

有很多個(gè)分類器(超平面）可以把數(shù)據(jù)分開，但是只有一個(gè)能夠達(dá)到最大分割。

我們通常希望分類的過程是一個(gè)機(jī)器學(xué)習(xí)的過程。這些數(shù)據(jù)點(diǎn)并不需要是中的點(diǎn)，而可以是任意 (統(tǒng)計(jì)學(xué)符號(hào))中或者 (計(jì)算機(jī)科學(xué)符號(hào)) 的點(diǎn)。我們希望能夠把這些點(diǎn)通過一個(gè)n-1維的超平面分開，通常這個(gè)被稱為線性分類器。有很多分類器都符合這個(gè)要求，但是我們還希望找到分類最佳的平面，即使得屬于兩個(gè)不同類的數(shù)據(jù)點(diǎn)間隔最大的那個(gè)面，該面亦稱為最大間隔超平面。如果我們能夠找到這個(gè)面，那么這個(gè)分類器就稱為最大間隔分類器。

設(shè)樣本屬于兩個(gè)類，用該樣本訓(xùn)練SVM得到的最大間隔超平面。在超平面上的樣本點(diǎn)也稱為支持向量。

SVM的優(yōu)勢(shì)：

由于支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的，根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度，Accuracy)和學(xué)習(xí)能力(即無錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷，以期獲得最好的推廣能力(Generalizatin Ability)。支持向量機(jī)方法的幾個(gè)主要優(yōu)點(diǎn)是：

l 可以解決小樣本情況下的機(jī)器學(xué)習(xí)問題；

l 可以提高泛化性能；

l 可以解決高維問題；

l 可以解決非線性問題；

l 可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問題。

posted on 2012-04-23 14:07 SunRise_at 閱讀(2524) 評(píng)論(2) 編輯收藏引用所屬分類: 機(jī)器算法

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！



網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

sunrise

常用鏈接

留言簿(12)

隨筆分類(63)

隨筆檔案(64)

收藏夾

ACMer

技術(shù)聯(lián)盟

可愛的python

數(shù)據(jù)挖掘

算法之道

友情鏈接

最新隨筆

搜索

積分與排名

最新隨筆

最新評(píng)論

閱讀排行榜

評(píng)論排行榜