久热精品视频在线免费观看 ,亚洲午夜国产一区99re久久 ,欧美日韩在线影院

知識發(fā)現(xiàn)與數(shù)據(jù)挖掘

Posted on 2005-12-07 10:39 inwind 閱讀(991) 評論(1) 編輯收藏引用所屬分類: 數(shù)據(jù)挖掘

數(shù)據(jù)庫中的知識發(fā)現(xiàn)kdd（knowledge discovery in databases）和數(shù)據(jù)挖掘dm（data mining）是在需求的驅(qū)動下發(fā)展起來的一門新的技術(shù)。隨著在政府部門、企事業(yè)單位、大型金融保險機構(gòu)、大型商業(yè)機構(gòu)、大型制造業(yè)及科研機構(gòu)數(shù)據(jù)庫的大量建立，數(shù)據(jù)積累成倍地急劇增長，如何充分利用這些大量數(shù)據(jù),對數(shù)據(jù)進行分析來指導(dǎo)生產(chǎn)工作、運營工作、銷售工作、競爭策略, 給領(lǐng)導(dǎo)者的決策一些支持；另一方面，如何從大量數(shù)據(jù)中挖掘出有用的信息（模式）和知識（規(guī)律），挖掘出科學(xué)上的未知規(guī)律, 已成為人類需要急切解決的問題。因此數(shù)據(jù)挖掘技術(shù)、知識發(fā)現(xiàn)系統(tǒng)就成為當(dāng)今計算機領(lǐng)域的研究和關(guān)注的熱點之一。

隨著數(shù)據(jù)積累的增長，充分利用大量數(shù)據(jù)（即對數(shù)據(jù)進行分析來指導(dǎo)工作），并從大量數(shù)據(jù)中挖掘出有用的信息和知識，找出未知的規(guī)律，已成為人類急需解決的問題。本文就數(shù)據(jù)挖掘技術(shù)、知識發(fā)現(xiàn)系統(tǒng)這一熱點問題闡述其成功的關(guān)鍵、面臨的問題及所采用的技術(shù)。

　　數(shù)據(jù)庫中的知識發(fā)現(xiàn)kdd（knowledge discovery in databases）和數(shù)據(jù)挖掘dm（data mining）是在需求的驅(qū)動下發(fā)展起來的一門新的技術(shù)。隨著在政府部門、企事業(yè)單位、大型金融保險機構(gòu)、大型商業(yè)機構(gòu)、大型制造業(yè)及科研機構(gòu)數(shù)據(jù)庫的大量建立，數(shù)據(jù)積累成倍地急劇增長，如何充分利用這些大量數(shù)據(jù),對數(shù)據(jù)進行分析來指導(dǎo)生產(chǎn)工作、運營工作、銷售工作、競爭策略, 給領(lǐng)導(dǎo)者的決策一些支持；另一方面，如何從大量數(shù)據(jù)中挖掘出有用的信息（模式）和知識（規(guī)律），挖掘出科學(xué)上的未知規(guī)律, 已成為人類需要急切解決的問題。因此數(shù)據(jù)挖掘技術(shù)、知識發(fā)現(xiàn)系統(tǒng)就成為當(dāng)今計算機領(lǐng)域的研究和關(guān)注的熱點之一。

　　隨著kdd的深入發(fā)展和internet 的普及，網(wǎng)上信息的大量增加，許多信息在網(wǎng)上發(fā)布，ＫＤＤ在ＷＷＷ網(wǎng)上挖掘也形成了熱點，并形成了基于internet的web mining技術(shù)，web mining包括:web 內(nèi)容挖掘，web結(jié)構(gòu)挖掘，web 用戶行為挖掘，當(dāng)遇到的有文本、圖形、圖像等信息，又形成了text mining和image mining，多媒體挖掘等新的kdd的新方向。

　　kdd：定義和過程

　　1、 kdd的定義

　　許多研究者從不同的角度給出了有關(guān)kdd的定義，目前較一致認同的描述性定義是fayyad等人給出的：kdd是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。

　　在上述定義中指出kdd是個過程，是從數(shù)據(jù)集識別模式的過程，幾個定語都是不可少。

　　2、kdd的過程

　　kdd過程可分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘以及結(jié)果的解釋評價，如圖所示。
datamining model graph

　　圖：kdd的主要過程

　　（1）數(shù)據(jù)準(zhǔn)備：數(shù)據(jù)準(zhǔn)備可分為數(shù)據(jù)選取/抽樣、數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換。

　　（2）數(shù)據(jù)挖掘階段：根據(jù)數(shù)據(jù)挖掘的任務(wù)，確定采用哪一種數(shù)據(jù)挖掘算法。同樣的數(shù)據(jù)挖掘任務(wù)可以用不同的數(shù)據(jù)挖掘算法來實現(xiàn)，數(shù)據(jù)挖掘算法的選擇主要是根據(jù)以下兩個方面的因素：一是數(shù)據(jù)的特點；二是用戶和實際運行系統(tǒng)的要求。在完成了這些準(zhǔn)備工作后，就可以進行數(shù)據(jù)挖掘了。數(shù)據(jù)挖掘階段僅占整個kdd過程的25％左右的工作量。

　　（3）結(jié)果解釋和評價：經(jīng)數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式，可能存在冗余或用戶不感興趣的模式，這時需要將其除去；也有可能所發(fā)現(xiàn)的模式不能滿足用戶的需要，要求整個發(fā)現(xiàn)過程再返回到數(shù)據(jù)挖掘階段之前，重新進行數(shù)據(jù)選取/抽樣、數(shù)據(jù)變換和數(shù)據(jù)挖掘，甚至換一種挖掘算法（如在發(fā)現(xiàn)分類規(guī)則就有多種數(shù)據(jù)挖掘方法可供選擇，不同的方法可能具有不同的挖掘效果）。

　　成功的關(guān)鍵與面臨的問題

　　數(shù)據(jù)挖掘與知識發(fā)現(xiàn)不是給出一些數(shù)據(jù)，采用一些數(shù)據(jù)挖掘算法就可以輕易地挖掘出知識，數(shù)據(jù)挖掘與知識發(fā)現(xiàn)成功的關(guān)鍵必須做到下面幾點：

　　1、有明確的目標(biāo)：用 kdd方法要解決什么問題，挖掘什么樣的模式、規(guī)律或知識，必須提出要挖掘的目標(biāo)。這一點是能否挖掘出有用知識基點，不能說，我給你一些數(shù)據(jù)，你給我挖掘出知識來，在給出數(shù)據(jù)后，采用什么挖掘方法，怎樣挖掘，必須在有明確目標(biāo)情況下進行，盲目的挖掘使挖掘系統(tǒng)無法進行。

　　2、相對較長一段時間和相對準(zhǔn)確的數(shù)據(jù)的積累：數(shù)據(jù)是知識發(fā)現(xiàn)的基礎(chǔ)，數(shù)據(jù)的質(zhì)量和數(shù)量對知識發(fā)現(xiàn)起決定性作用，不是隨便給一些數(shù)據(jù)就能挖掘出有用的知識，數(shù)據(jù)必須有一定的質(zhì)量和數(shù)量，在極不完整的數(shù)據(jù)上進行數(shù)據(jù)挖掘不會得到好的結(jié)果，往往數(shù)據(jù)質(zhì)量和數(shù)量比數(shù)據(jù)挖掘方法更重要。

　　3、領(lǐng)域?qū)＜业膮⑴c和指導(dǎo)：從目標(biāo)的明確到挖到信息和知識的評價與判斷都需要領(lǐng)域?qū)＜业闹笇?dǎo)，否則知識的可信度和可靠性都值得懷疑。

　　kdd研究面臨的問題：

　　kdd是一個新興的研究領(lǐng)域，目前還處在發(fā)展的階段，還有很多的研究難題有待解決，數(shù)據(jù)的巨量性、動態(tài)性、多樣性、不一致性、噪聲性、缺值和稀疏性、發(fā)現(xiàn)模式的可理解性、興趣度等都給kdd帶來難度；數(shù)據(jù)質(zhì)量、算法的有效性，知識的可用性都是研究的課題；kdd與應(yīng)用系統(tǒng)的集成，kdd與用戶的交互，知識的更新管理，復(fù)雜數(shù)據(jù)類型的處理等等都是kdd研究面臨的挑戰(zhàn)。

　　crisp—dm簡介

　　crisp-dm - cross industry standard process for data mining 是ncr等四家公司聯(lián)合的研究項目，1997年開始，1999年3月已給出一個初步約100頁的報告，在此對其只作簡單介紹, 它將kdd過程分為下列幾個步驟：

　　1、 business understanding：在進行數(shù)據(jù)挖掘任務(wù)時首先要從企業(yè)的角度來了解任務(wù)的目標(biāo)和要求，然后將這些目標(biāo)和要求體現(xiàn)在數(shù)據(jù)挖掘的問題定義中和為達到這個目標(biāo)所設(shè)計的初始的計劃中。

　　2、 data understanding：了解數(shù)據(jù)首先從收集數(shù)據(jù)開始，為保證數(shù)據(jù)質(zhì)量，為對數(shù)據(jù)的深刻理解和為篩選出感興趣數(shù)據(jù)集，在其深刻理解數(shù)據(jù)的基礎(chǔ)上，應(yīng)不斷收集相類似的數(shù)據(jù)，以便形成尋找隱藏信息的假設(shè)。

　　3、 data preparation：數(shù)據(jù)準(zhǔn)備階段包括從初始的粗?jǐn)?shù)據(jù)不斷形成適合數(shù)據(jù)挖掘模型的最后數(shù)據(jù)的全過程，包括數(shù)據(jù)表格、記錄、屬性的選擇，數(shù)據(jù)的轉(zhuǎn)換和數(shù)據(jù)清理。這項工作要多次完成。

　　4、 modeling：在這階段各種數(shù)據(jù)挖掘方法模型被選擇和應(yīng)用；模型的參數(shù)被校準(zhǔn)到最佳值。有許多數(shù)據(jù)挖掘方法可適應(yīng)同一數(shù)據(jù)類型，有些數(shù)據(jù)挖掘方法對數(shù)據(jù)有特定要求。有時這階段還會返回到數(shù)據(jù)準(zhǔn)備階段。

　　5、 evaluation：從數(shù)據(jù)分析人員的觀點看，所選模型有相當(dāng)高的質(zhì)量，在最后應(yīng)用推廣時，必須更加徹底地評價這個模型，看看為構(gòu)成該模型所執(zhí)行的各個步驟能否達到企業(yè)要求的目標(biāo)，更重要的是企業(yè)的關(guān)鍵問題有沒有充分考慮到。

　　6、 deployment：一般來說, 產(chǎn)生挖掘的模型并不是任務(wù)的結(jié)束, 雖然挖掘得到了知識,但知識需要組織和呈現(xiàn)給用戶,使用戶可以很好用這些知識。是否采用和推廣使用這種模型一般由用戶來進行決定，而不是分析人員來進行決定。

　　采用的幾種技術(shù)

　　根據(jù)數(shù)據(jù)采掘所采用的技術(shù)大致分為：統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法主要包括：回歸分析（多元回歸、自回歸等）、判別分析（貝葉斯判別、費歇爾判別、非參數(shù)判別等）、聚類分析（系統(tǒng)聚類、動態(tài)聚類等）、探索性分析（主元分析法、相關(guān)分析法等）、貝葉斯方法(貝葉斯網(wǎng)絡(luò), 貝葉斯分類器等)。機器學(xué)習(xí)主要包括：歸納學(xué)習(xí)方法（決策樹、規(guī)則歸納、面向?qū)傩缘臍w納方法等）、基于事例的學(xué)習(xí)、遺傳算法等, 神經(jīng)網(wǎng)絡(luò)方法。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或olap方法；此外還有模糊方法,粗糙集方法和可視化方法。由于篇幅所限，本文僅就幾種常用的數(shù)據(jù)挖掘技術(shù)進行說明。

　　1、決策樹歸納方法

　　在數(shù)據(jù)挖掘中最常使用的方法就是決策樹方法,它屬于歸納學(xué)習(xí)方法。它的基本想法是：給一組用屬性描述的訓(xùn)練例，然后按屬性（值）構(gòu)造一棵樹（二叉或多叉樹），從根節(jié)點到葉節(jié)點一條規(guī)則，葉節(jié)點就是一個類，由這棵樹（或由這棵樹形成的規(guī)則集）對另一組測試?yán)M行分類（或）預(yù)測。這棵樹就是知識。

　　決策樹歸納方法主要有兩個問題：一是先從哪一屬性往下分叉，既特征選擇問題（或稱偏向問題），二是如何構(gòu)造一棵"好"的樹（樹剪枝問題）。為解決前一問題研究出許多方法；最有代表性的是id3（改進的c4.5, c5.0），該方法用信息熵來找出最大增益(gain most information)作為構(gòu)造樹的依據(jù)。剪枝一般說來有兩種策略：向前剪枝（forward pruning）和向后剪枝（backward pruning）。許多人給出各種剪枝方法，究竟采用什么剪枝法，視問題而定。

　　決策樹方法的優(yōu)點是速度快，直觀可理解，所以被廣泛采用，但由于它是歸納學(xué)習(xí)方法，它有兩個弱點：樹不唯一且不永真。一般來說精度也不太高。為了提高精度，近年來發(fā)展起來的bagging和boosting 方法取得較好的效果。在選擇特征上也有人提出信息熵之外的方法，也有人提出多屬性方法，樹往下分叉不是用一個屬性，而用多個屬性，既多屬性（變量）決策樹。

　　2、關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)

　　關(guān)聯(lián)規(guī)則挖掘問題的提出：在大型零售商店或超級市場，存儲了大量的銷售記錄，這些銷售記錄又稱為貨籃數(shù)據(jù)（basket data）。貨籃數(shù)據(jù)保存了顧客在一次購買中所涉及的商品的詳情（如商品名稱、價格、數(shù)量等），我們稱之為事務(wù)。數(shù)據(jù)庫僅存大量的事務(wù)，決策者們想從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息，指導(dǎo)他們的營銷活動。在這樣的應(yīng)用背景下，產(chǎn)生了關(guān)聯(lián)規(guī)則挖掘算法，用來從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)有關(guān)客戶購買行為的知識，顧客購買一些商品與另一些商品的關(guān)系，稱之為關(guān)聯(lián)規(guī)則。以后關(guān)聯(lián)規(guī)則又被廣泛應(yīng)用到其他領(lǐng)域。在此我們介紹關(guān)聯(lián)規(guī)則的一些定義，對算法不作介紹。

　　定義1：關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫為d， d中的每個元組（紀(jì)錄）稱為事務(wù)t，d中所有屬性稱項目集i，i={i1,i2,...im} i 是一個項目,m是d中的所有項目數(shù), 一條事務(wù)t是i中項目的集合，即t i。

　　定義2: 任意的項目集x和事務(wù)t若滿足：t x，則稱事務(wù)t包含項目集x。

　　任意的項目集y和事務(wù)t若滿足：t y ，則稱事務(wù)t包含項目集y 。

　　在超級市場的關(guān)聯(lián)規(guī)則挖掘問題中項目集可以看成一個或多個商品的集合，與某顧客一次購買對應(yīng)的事務(wù)t包含項目集x(或y)，也就是說該顧客在這次購物中購買了項目集x(或y)中的所有商品。

　　定義3: 關(guān)聯(lián)規(guī)則是形如x y的規(guī)則，其中x、y為項目集且x∩y= 。

　　表示顧客中購買了x中的所有商品，又購買了y中的所有商品。

　　定義4:若數(shù)據(jù)庫d中, s%的事務(wù)包含x∪y則關(guān)聯(lián)規(guī)則x y的支持率為s%；若包含項目集x的事務(wù)有c%的也包含項目集y，則關(guān)聯(lián)規(guī)則x y的置信度為c%。

　　3、粗糙集(rough set)理論

　　粗糙集(rough set)理論是一種新型的處理模糊和不確定知識的數(shù)學(xué)工具。自1982年由波蘭數(shù)學(xué)家pawlak首次提出以來，經(jīng)過十幾年的研究與發(fā)展，已經(jīng)在理論和實際應(yīng)用上取得了長足的進展，特別是由于八十年代末和九十年代初在知識發(fā)現(xiàn)等領(lǐng)域得到了成功的應(yīng)用而受到國際上廣泛關(guān)注。目前，它已經(jīng)在人工智能、知識發(fā)現(xiàn)、模式識別與分類、故障檢測等方面得到了較為成功的應(yīng)用。粗糙集理論具有一些獨特的觀點，這些觀點使得粗糙集特別適合于進行數(shù)據(jù)分析。粗糙集理論認為知識的粒度性是造成使用已有知識不能精確地表示某些概念的原因。通過引入不可區(qū)分關(guān)系作為粗糙集理論的基礎(chǔ), 并在此基礎(chǔ)上定義了上下近似等概念, 粗糙集理論能夠有效地逼近這些不精確概念。有了上、下近似和不可分關(guān)系的概念我們就能夠定義約簡和核這兩個對kdd有很大作用的概念。和模糊集合需要指定成員隸屬度不同, 粗糙集的成員是客觀計算的, 只和已知數(shù)據(jù)有關(guān), 從而避免了主觀因素的影響。

　　4、貝葉斯網(wǎng)絡(luò)

　　八十年代貝葉斯網(wǎng)絡(luò)成功地應(yīng)用于專家系統(tǒng)，成為表示不確定性專家知識和推理的一種方法。九十年代以來，研究者們進一步研究了直接從數(shù)據(jù)中學(xué)習(xí)并生成貝葉斯網(wǎng)絡(luò)的方法，為貝葉斯網(wǎng)絡(luò)用于數(shù)據(jù)采掘和知識發(fā)現(xiàn)開辟了新途徑。這些新的方法和技術(shù)還在發(fā)展之中，但已在一些數(shù)據(jù)建模問題中顯示出令人矚目的效果。與其它用于數(shù)據(jù)采掘的表示法如規(guī)則庫、決策樹、人工神經(jīng)網(wǎng)絡(luò)相比，基于貝葉斯方法的貝葉斯網(wǎng)絡(luò)有如下特點：適合處理不完整數(shù)據(jù)集問題，可以發(fā)現(xiàn)數(shù)據(jù)間的因果關(guān)系，可以綜合先驗信息（領(lǐng)域知識）和樣本信息，在樣本難以獲得或者代價高昂時特別有用。可以預(yù)見，在數(shù)據(jù)采掘和知識發(fā)現(xiàn)中，貝葉斯網(wǎng)絡(luò)將成為一個有力的工具。貝葉斯網(wǎng)絡(luò)至少可以解決如下四個方面的問題。其一是貝葉斯網(wǎng)能夠真正地處理具有不完整的數(shù)據(jù)集合；其二是貝葉斯網(wǎng)能夠獲得因果聯(lián)系；其三是貝葉斯網(wǎng)能夠更有機和充分地結(jié)合和利用已有的知識和觀測數(shù)據(jù)進行學(xué)習(xí)和預(yù)測；其四是貝葉斯網(wǎng)絡(luò)結(jié)合其它一些方法可以有效地避免數(shù)據(jù)的過度擬合。

Feedback

# re: 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘 回復(fù) 更多評論

2007-09-02 21:54 by wzn

有沒有關(guān)于關(guān)聯(lián)規(guī)則挖掘算法能否提高貝葉斯分類的資料?或者在那里可以看到,能否告知,謝謝!!yuchengwzn@sina.com

刷新評論列表

只有注冊用戶登錄后才能發(fā)表評論。


相關(guān)文章: 信息提取的基本概念知識發(fā)現(xiàn)與數(shù)據(jù)挖掘從三個角度看數(shù)據(jù)挖掘zz

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

inwind

導(dǎo)航

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

C++

Linux

數(shù)據(jù)挖掘與文本分類

搜索引擎

搜索

最新評論

閱讀排行榜

評論排行榜

知識發(fā)現(xiàn)與數(shù)據(jù)挖掘

Feedback

# re: 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘 回復(fù) 更多評論

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

inwind

導(dǎo)航

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

C++

Linux

數(shù)據(jù)挖掘與文本分類

搜索引擎

搜索

最新評論

閱讀排行榜

評論排行榜

知識發(fā)現(xiàn)與數(shù)據(jù)挖掘

Feedback

# re: 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘 回復(fù) 更多評論

# re: 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘回復(fù) 更多評論