人們對數據的處理需求可以分為兩種類型,操作型處理(OLTP)和分析型處理(OLAP),傳統的數據庫主要是面向OLTP,注重數據的計算、記錄的插入、刪除、與修改,以及簡單的查詢和統計。它的主要任務是進行事務處理,所關注的是事務處理的及時性、完整性和正確性,而在數據的分析處理方面存在著嚴重的不足,主要表現在以下一些方面。
首先是集成性的缺乏。業務數據庫系統的條塊與部門分割,導致數據分布的分散化與無序化。業務數據庫缺乏統一的定義與規劃,導致數據的定義存在歧義;其次是主題不明確,建立數據庫的目的就是為了滿足事務處理的需要,庫和表的定義與設計完全以此為基礎而進行,對于數據分析而言,這些庫和表無疑缺少明確的主題。又是需要分析的數據會分散的存儲在不同的表和庫甚至不同的數據庫服務器中,想要對這些數據進行有效的分析是十分困難的。然后是分析和處理的效率低下,設計基于傳統數據庫的應用系統的核心準則,是要確保事務得到及時、準確的處理。因此,在業務數據庫系統的構建過程中,除了庫和表的精心設計之外,索引的建立、存儲過程的優化等工作,也均以此為中心展開,這樣雖然充分提高了事務處理的效率,但是數據分析處理的效率卻無法得到保證。
傳統數據庫由于自身條件的限制,無法擔當作為大規模數據綜合分析平臺的重任,企業的決策迫切需要有一種新的理論與技術來提供支持,這就是數據倉庫技術。
數據倉庫就是面向主題的、集成的、隨時間變化的、非易失的數據集合,用于支持管理層的決策過程,“面向主題、集成、隨時間變化和非易失”是它的主要特點。
面向主題是數據倉庫中數據組織的最基本原則。數據倉庫中的所謂“主題”,是一個邏輯概念。在信息管理的層次上,主題就是從管理的角度出發,對數據進行綜合分析而抽取的,需要做進一步分析的對象,數據倉庫的構造過程首先就是確定主題的過程。數據倉庫的設計者必須明確該數據倉庫所支持的決策內容,即數據倉庫的用途,并將決策內容歸納為若干個具體的易于利用數據進行組織加以分析的主題。
數據倉庫中數據的集成性是指,在構建數據倉庫的過程中,多個外部數據源內格式不同、定義各異的數據,按照既定的策略經過抽取、清洗、轉換等一系列處理。最終構成一個有機的整體。傳統業務處理程序的側重點在于迅速、正確地處理所有業務,記錄業務內容和處理結果,而不是對決策提供支持。數據倉庫直接使用傳統業務處理的結果,進行數據分析。
數據倉庫中數據的非易失性,包括兩個方面的含義,其一是指數據倉庫內容的更新、追加等操作是不頻繁的,一般基于一定的周期或條件閾值進行;其二是指,數據在導入數據倉庫后,雖然也有刪除更新等操作,但決定這種操作的閾值條件是較難滿足的,這種情況的發生是非常罕見的。
數據的時變性,是指數據倉庫的內容隨時間的變化不斷得到補充、更新。其實質就是建立業務數據與時間的對應關系,即以時間為坐標軸,對既定時間點的業務數據生成“快照”,各個時間點的快照連接起來,就構成了數據倉庫內容的動態連續變化圖,為決策者提供有效的依據。
從數據庫到數據倉庫,完成了數據挖掘的最重要一步,為數據挖掘接下來的步驟的順利進行大好了基礎。數據挖掘的各項操作都是在數據倉庫的基礎上進行的。數據倉庫的構建是一門大學問。
posted on 2009-03-27 10:58
李陽 閱讀(204)
評論(0) 編輯 收藏 引用