• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 12, comments - 4, trackbacks - 0, articles - 36

            數(shù)據(jù)庫中的知識發(fā)現(xiàn)kdd(knowledge discovery in databases)和數(shù)據(jù)挖掘dm(data mining)是在需求的驅(qū)動下發(fā)展起來的一門新的技術。隨著在政府部門、企事業(yè)單位、大型金融保險機構、大型商業(yè)機構、大型制造業(yè)及科研機構數(shù)據(jù)庫的大量建立,數(shù)據(jù)積累成倍地急劇增長,如何充分利用這些大量數(shù)據(jù),對數(shù)據(jù)進行分析來指導生產(chǎn)工作、運營工作、銷售工作、競爭策略, 給領導者的決策一些支持;另一方面,如何從大量數(shù)據(jù)中挖掘出有用的信息(模式)和知識(規(guī)律),挖掘出科學上的未知規(guī)律, 已成為人類需要急切解決的問題。因此數(shù)據(jù)挖掘技術、知識發(fā)現(xiàn)系統(tǒng)就成為當今計算機領域的研究和關注的熱點之一。


            隨著數(shù)據(jù)積累的增長,充分利用大量數(shù)據(jù)(即對數(shù)據(jù)進行分析來指導工作),并從大量數(shù)據(jù)中挖掘出有用的信息和知識,找出未知的規(guī)律,已成為人類急需解決的問題。本文就數(shù)據(jù)挖掘技術、知識發(fā)現(xiàn)系統(tǒng)這一熱點問題闡述其成功的關鍵、面臨的問題及所采用的技術。

              數(shù)據(jù)庫中的知識發(fā)現(xiàn)kdd(knowledge discovery in databases)和數(shù)據(jù)挖掘dm(data mining)是在需求的驅(qū)動下發(fā)展起來的一門新的技術。隨著在政府部門、企事業(yè)單位、大型金融保險機構、大型商業(yè)機構、大型制造業(yè)及科研機構數(shù)據(jù)庫的大量建立,數(shù)據(jù)積累成倍地急劇增長,如何充分利用這些大量數(shù)據(jù),對數(shù)據(jù)進行分析來指導生產(chǎn)工作、運營工作、銷售工作、競爭策略, 給領導者的決策一些支持;另一方面,如何從大量數(shù)據(jù)中挖掘出有用的信息(模式)和知識(規(guī)律),挖掘出科學上的未知規(guī)律, 已成為人類需要急切解決的問題。因此數(shù)據(jù)挖掘技術、知識發(fā)現(xiàn)系統(tǒng)就成為當今計算機領域的研究和關注的熱點之一。

              隨著kdd的深入發(fā)展和internet 的普及,網(wǎng)上信息的大量增加,許多信息在網(wǎng)上發(fā)布,KDD在WWW網(wǎng)上挖掘也形成了熱點,并形成了基于internet的web mining技術,web mining包括:web 內(nèi)容挖掘,web結構挖掘,web 用戶行為挖掘,當遇到的有文本、圖形、圖像等信息,又形成了text mining和image mining,多媒體挖掘等新的kdd的新方向。


              kdd:定義和過程


              1、 kdd的定義

              許多研究者從不同的角度給出了有關kdd的定義,目前較一致認同的描述性定義是fayyad等人給出的:kdd是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。

              在上述定義中指出kdd是個過程,是從數(shù)據(jù)集識別模式的過程,幾個定語都是不可少。

              2、kdd的過程

              kdd過程可分為數(shù)據(jù)準備、數(shù)據(jù)挖掘以及結果的解釋評價,如圖所示。 
            datamining model graph

              圖:kdd的主要過程

             ?。?)數(shù)據(jù)準備:數(shù)據(jù)準備可分為數(shù)據(jù)選取/抽樣、數(shù)據(jù)預處理和數(shù)據(jù)轉換。

              (2)數(shù)據(jù)挖掘階段:根據(jù)數(shù)據(jù)挖掘的任務,確定采用哪一種數(shù)據(jù)挖掘算法。同樣的數(shù)據(jù)挖掘任務可以用不同的數(shù)據(jù)挖掘算法來實現(xiàn),數(shù)據(jù)挖掘算法的選擇主要是根據(jù)以下兩個方面的因素:一是數(shù)據(jù)的特點;二是用戶和實際運行系統(tǒng)的要求。在完成了這些準備工作后,就可以進行數(shù)據(jù)挖掘了。數(shù)據(jù)挖掘階段僅占整個kdd過程的25%左右的工作量。

              (3)結果解釋和評價:經(jīng)數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式,可能存在冗余或用戶不感興趣的模式,這時需要將其除去;也有可能所發(fā)現(xiàn)的模式不能滿足用戶的需要,要求整個發(fā)現(xiàn)過程再返回到數(shù)據(jù)挖掘階段之前,重新進行數(shù)據(jù)選取/抽樣、數(shù)據(jù)變換和數(shù)據(jù)挖掘,甚至換一種挖掘算法(如在發(fā)現(xiàn)分類規(guī)則就有多種數(shù)據(jù)挖掘方法可供選擇,不同的方法可能具有不同的挖掘效果)。


              成功的關鍵與面臨的問題


              數(shù)據(jù)挖掘與知識發(fā)現(xiàn)不是給出一些數(shù)據(jù),采用一些數(shù)據(jù)挖掘算法就可以輕易地挖掘出知識,數(shù)據(jù)挖掘與知識發(fā)現(xiàn)成功的關鍵必須做到下面幾點:

              1、 有明確的目標:用 kdd方法要解決什么問題,挖掘什么樣的模式、規(guī)律或知識,必須提出要挖掘的目標。這一點是能否挖掘出有用知識基點,不能說,我給你一些數(shù)據(jù),你給我挖掘出知識來,在給出數(shù)據(jù)后,采用什么挖掘方法,怎樣挖掘,必須在有明確目標情況下進行,盲目的挖掘使挖掘系統(tǒng)無法進行。

              2、 相對較長一段時間和相對準確的數(shù)據(jù)的積累:數(shù)據(jù)是知識發(fā)現(xiàn)的基礎,數(shù)據(jù)的質(zhì)量和數(shù)量對知識發(fā)現(xiàn)起決定性作用,不是隨便給一些數(shù)據(jù)就能挖掘出有用的知識,數(shù)據(jù)必須有一定的質(zhì)量和數(shù)量,在極不完整的數(shù)據(jù)上進行數(shù)據(jù)挖掘不會得到好的結果,往往數(shù)據(jù)質(zhì)量和數(shù)量比數(shù)據(jù)挖掘方法更重要。

              3、 領域?qū)<业膮⑴c和指導:從目標的明確到挖到信息和知識的評價與判斷都需要領域?qū)<业闹笇?,否則知識的可信度和可靠性都值得懷疑。

              kdd研究面臨的問題:

              kdd是一個新興的研究領域,目前還處在發(fā)展的階段,還有很多的研究難題有待解決,數(shù)據(jù)的巨量性、動態(tài)性、多樣性、不一致性、噪聲性、缺值和稀疏性、發(fā)現(xiàn)模式的可理解性、興趣度等都給kdd帶來難度;數(shù)據(jù)質(zhì)量、算法的有效性,知識的可用性都是研究的課題;kdd與應用系統(tǒng)的集成,kdd與用戶的交互,知識的更新管理,復雜數(shù)據(jù)類型的處理等等都是kdd研究面臨的挑戰(zhàn)。


              crisp—dm簡介


              crisp-dm - cross industry standard process for data mining 是ncr等四家公司聯(lián)合的研究項目,1997年開始,1999年3月已給出一個初步約100頁的報告,在此對其只作簡單介紹, 它將kdd過程分為下列幾個步驟:

              1、 business understanding:在進行數(shù)據(jù)挖掘任務時首先要從企業(yè)的角度來了解任務的目標和要求,然后將這些目標和要求體現(xiàn)在數(shù)據(jù)挖掘的問題定義中和為達到這個目標所設計的初始的計劃中。

              2、 data understanding:了解數(shù)據(jù)首先從收集數(shù)據(jù)開始,為保證數(shù)據(jù)質(zhì)量,為對數(shù)據(jù)的深刻理解和為篩選出感興趣數(shù)據(jù)集,在其深刻理解數(shù)據(jù)的基礎上,應不斷收集相類似的數(shù)據(jù),以便形成尋找隱藏信息的假設。

              3、 data preparation:數(shù)據(jù)準備階段包括從初始的粗數(shù)據(jù)不斷形成適合數(shù)據(jù)挖掘模型的最后數(shù)據(jù)的全過程,包括數(shù)據(jù)表格、記錄、屬性的選擇,數(shù)據(jù)的轉換和數(shù)據(jù)清理。這項工作要多次完成。

              4、 modeling:在這階段各種數(shù)據(jù)挖掘方法模型被選擇和應用;模型的參數(shù)被校準到最佳值。有許多數(shù)據(jù)挖掘方法可適應同一數(shù)據(jù)類型,有些數(shù)據(jù)挖掘方法對數(shù)據(jù)有特定要求。有時這階段還會返回到數(shù)據(jù)準備階段。

              5、 evaluation:從數(shù)據(jù)分析人員的觀點看,所選模型有相當高的質(zhì)量,在最后應用推廣時,必須更加徹底地評價這個模型,看看為構成該模型所執(zhí)行的各個步驟能否達到企業(yè)要求的目標,更重要的是企業(yè)的關鍵問題有沒有充分考慮到。

              6、 deployment:一般來說, 產(chǎn)生挖掘的模型并不是任務的結束, 雖然挖掘得到了知識,但知識需要組織和呈現(xiàn)給用戶,使用戶可以很好用這些知識。是否采用和推廣使用這種模型一般由用戶來進行決定,而不是分析人員來進行決定。


              采用的幾種技術


              根據(jù)數(shù)據(jù)采掘所采用的技術大致分為:統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。統(tǒng)計方法主要包括:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法等)、貝葉斯方法(貝葉斯網(wǎng)絡, 貝葉斯分類器等)。機器學習主要包括:歸納學習方法(決策樹、規(guī)則歸納、面向?qū)傩缘臍w納方法等)、基于事例的學習、遺傳算法等, 神經(jīng)網(wǎng)絡方法。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或olap方法;此外還有模糊方法,粗糙集方法和可視化方法。由于篇幅所限,本文僅就幾種常用的數(shù)據(jù)挖掘技術進行說明。

              1、 決策樹歸納方法

              在數(shù)據(jù)挖掘中最常使用的方法就是決策樹方法,它屬于歸納學習方法。它的基本想法是:給一組用屬性描述的訓練例,然后按屬性(值)構造一棵樹(二叉或多叉樹),從根節(jié)點到葉節(jié)點一條規(guī)則,葉節(jié)點就是一個類,由這棵樹(或由這棵樹形成的規(guī)則集)對另一組測試例進行分類(或)預測。這棵樹就是知識。

              決策樹歸納方法主要有兩個問題:一是先從哪一屬性往下分叉,既特征選擇問題(或稱偏向問題),二是如何構造一棵"好"的樹(樹剪枝問題)。為解決前一問題研究出許多方法;最有代表性的是id3(改進的c4.5, c5.0),該方法用信息熵來找出最大增益(gain most information)作為構造樹的依據(jù)。剪枝一般說來有兩種策略:向前剪枝(forward pruning)和向后剪枝(backward pruning)。許多人給出各種剪枝方法,究竟采用什么剪枝法,視問題而定。

              決策樹方法的優(yōu)點是速度快,直觀可理解,所以被廣泛采用,但由于它是歸納學習方法,它有兩個弱點:樹不唯一且不永真。一般來說精度也不太高。為了提高精度,近年來發(fā)展起來的bagging和boosting 方法取得較好的效果。在選擇特征上也有人提出信息熵之外的方法,也有人提出多屬性方法,樹往下分叉不是用一個屬性,而用多個屬性,既多屬性(變量)決策樹。

              2、 關聯(lián)規(guī)則的發(fā)現(xiàn)

              關聯(lián)規(guī)則挖掘問題的提出:在大型零售商店或超級市場,存儲了大量的銷售記錄,這些銷售記錄又稱為貨籃數(shù)據(jù)(basket data)。貨籃數(shù)據(jù)保存了顧客在一次購買中所涉及的商品的詳情(如商品名稱、價格、數(shù)量等),我們稱之為事務。數(shù)據(jù)庫僅存大量的事務,決策者們想從這些數(shù)據(jù)中發(fā)現(xiàn)有用的信息,指導他們的營銷活動。在這樣的應用背景下,產(chǎn)生了關聯(lián)規(guī)則挖掘算法,用來從事務數(shù)據(jù)庫中發(fā)現(xiàn)有關客戶購買行為的知識,顧客購買一些商品與另一些商品的關系,稱之為關聯(lián)規(guī)則。以后關聯(lián)規(guī)則又被廣泛應用到其他領域。在此我們介紹關聯(lián)規(guī)則的一些定義,對算法不作介紹。

              定義1:關聯(lián)規(guī)則挖掘的事務數(shù)據(jù)庫為d, d中的每個元組(紀錄)稱為事務t,d中所有屬性稱項目集i,i={i1,i2,...im} i 是一個項目,m是d中的所有項目數(shù), 一條事務t是i中項目的集合,即t i。

              定義2: 任意的項目集x和事務t若滿足:t x,則稱事務t包含項目集x。

              任意的項目集y和事務t若滿足:t y ,則稱事務t包含項目集y 。

              在超級市場的關聯(lián)規(guī)則挖掘問題中項目集可以看成一個或多個商品的集合,與某顧客一次購買對應的事務t包含項目集x(或y),也就是說該顧客在這次購物中購買了項目集x(或y)中的所有商品。

              定義3: 關聯(lián)規(guī)則是形如x y的規(guī)則,其中x、y為項目集且x∩y= 。

              表示顧客中購買了x中的所有商品,又購買了y中的所有商品。

              定義4:若數(shù)據(jù)庫d中, s%的事務包含x∪y則關聯(lián)規(guī)則x y的支持率為s%;若包含項目集x的事務有c%的也包含項目集y,則關聯(lián)規(guī)則x y的置信度為c%。

              3、 粗糙集(rough set)理論

              粗糙集(rough set)理論是一種新型的處理模糊和不確定知識的數(shù)學工具。自1982年由波蘭數(shù)學家pawlak首次提出以來,經(jīng)過十幾年的研究與發(fā)展,已經(jīng)在理論和實際應用上取得了長足的進展,特別是由于八十年代末和九十年代初在知識發(fā)現(xiàn)等領域得到了成功的應用而受到國際上廣泛關注。目前,它已經(jīng)在人工智能、知識發(fā)現(xiàn)、模式識別與分類、故障檢測等方面得到了較為成功的應用。粗糙集理論具有一些獨特的觀點,這些觀點使得粗糙集特別適合于進行數(shù)據(jù)分析。 粗糙集理論認為知識的粒度性是造成使用已有知識不能精確地表示某些概念的原因。 通過引入不可區(qū)分關系作為粗糙集理論的基礎, 并在此基礎上定義了上下近似等概念, 粗糙集理論能夠有效地逼近這些不精確概念。有了上、下近似和不可分關系的概念我們就能夠定義約簡和核這兩個對kdd有很大作用的概念。和模糊集合需要指定成員隸屬度不同, 粗糙集的成員是客觀計算的, 只和已知數(shù)據(jù)有關, 從而避免了主觀因素的影響。

              4、 貝葉斯網(wǎng)絡

              八十年代貝葉斯網(wǎng)絡成功地應用于專家系統(tǒng),成為表示不確定性專家知識和推理的一種方法。九十年代以來,研究者們進一步研究了直接從數(shù)據(jù)中學習并生成貝葉斯網(wǎng)絡的方法,為貝葉斯網(wǎng)絡用于數(shù)據(jù)采掘和知識發(fā)現(xiàn)開辟了新途徑。這些新的方法和技術還在發(fā)展之中,但已在一些數(shù)據(jù)建模問題中顯示出令人矚目的效果。與其它用于數(shù)據(jù)采掘的表示法如規(guī)則庫、決策樹、人工神經(jīng)網(wǎng)絡相比,基于貝葉斯方法的貝葉斯網(wǎng)絡有如下特點:適合處理不完整數(shù)據(jù)集問題,可以發(fā)現(xiàn)數(shù)據(jù)間的因果關系,可以綜合先驗信息(領域知識)和樣本信息,在樣本難以獲得或者代價高昂時特別有用。可以預見,在數(shù)據(jù)采掘和知識發(fā)現(xiàn)中,貝葉斯網(wǎng)絡將成為一個有力的工具。貝葉斯網(wǎng)絡至少可以解決如下四個方面的問題。其一是貝葉斯網(wǎng)能夠真正地處理具有不完整的數(shù)據(jù)集合;其二是貝葉斯網(wǎng)能夠獲得因果聯(lián)系;其三是貝葉斯網(wǎng)能夠更有機和充分地結合和利用已有的知識和觀測數(shù)據(jù)進行學習和預測;其四是貝葉斯網(wǎng)絡結合其它一些方法可以有效地避免數(shù)據(jù)的過度擬合。

            Feedback

            # re: 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘  回復  更多評論   

            2007-09-02 21:54 by wzn
            有沒有關于關聯(lián)規(guī)則挖掘算法能否提高貝葉斯分類的資料?或者在那里可以看到,能否告知,謝謝!!yuchengwzn@sina.com
            久久亚洲国产成人影院网站 | 一本色道久久88综合日韩精品| 国产2021久久精品| 久久午夜无码鲁丝片午夜精品| 亚洲精品美女久久久久99小说| 久久综合亚洲色HEZYO社区| 久久婷婷成人综合色综合| 国内精品久久久久久久亚洲| 亚洲国产日韩综合久久精品| 亚洲国产精品一区二区久久hs| 99久久精品免费看国产| 久久久久免费精品国产| 久久久久国产视频电影| 日产精品99久久久久久| 久久久精品无码专区不卡| 2021少妇久久久久久久久久| 欧美伊人久久大香线蕉综合| 久久久综合九色合综国产| 国产精品99久久久精品无码| 久久久噜噜噜久久中文字幕色伊伊| 一本久久a久久精品亚洲| 久久九色综合九色99伊人| 国产91久久精品一区二区| 色婷婷久久综合中文久久蜜桃av| 久久久久久久久久久免费精品| 久久男人Av资源网站无码软件| 一日本道伊人久久综合影| 久久WWW免费人成—看片| 蜜桃麻豆www久久| 国产精品久久国产精麻豆99网站| 伊人久久大香线蕉亚洲五月天| 亚洲精品国产综合久久一线| 亚洲性久久久影院| 亚洲国产成人久久综合碰| 久久国产成人午夜aⅴ影院| 国产精品女同一区二区久久| 99久久综合狠狠综合久久| 精品国产热久久久福利| 久久激情亚洲精品无码?V| 欧美久久久久久午夜精品| 色播久久人人爽人人爽人人片aV|