欧美日韩一区二区三区高清,avtt综合网,亚洲精品日韩在线观看

面向服務(wù)體系結(jié)構(gòu)中的信息管理，第 2 部分: 研究 SOA 中信息管理的不同方法

利用信息管理的強(qiáng)大功能來用于基于面向服務(wù)體系結(jié)構(gòu)（Service-Oriented Architecture，SOA）的建模、構(gòu)架、設(shè)計(jì)和實(shí)現(xiàn)。在本文的棧視圖中，展示了信息管理提供的各種服務(wù)，并有每種服務(wù)的詳細(xì)描述。作者從元數(shù)據(jù)管理和元數(shù)據(jù)集成的重要性說起，再轉(zhuǎn)到信息管理所提供服務(wù)的檢驗(yàn)，然后是 SOA 案例學(xué)習(xí)。最后，作者將列出一些與所討論服務(wù)相關(guān)的工具。

引言

在本文的后半部分中，我們將對每種特定服務(wù)進(jìn)行更深入的討論，例如：

元數(shù)據(jù)管理
提取、轉(zhuǎn)換和加載（Extract Transformation Load，ETL）
聯(lián)合
數(shù)據(jù)安置（如復(fù)制和緩存）
數(shù)據(jù)建模
搜索
分析

之后，我們將學(xué)習(xí)使用 SOA 來驗(yàn)證數(shù)據(jù)質(zhì)量的案例，并在最后列出用于各種服務(wù)的工具清單。在閱讀完本文之后，您將能更有效的利用信息管理的功能，來構(gòu)建健全且均衡的 SOA，并進(jìn)行信息和業(yè)務(wù)集成，避免常見錯(cuò)誤，比如孤立的數(shù)據(jù)筒倉（silo）、數(shù)據(jù)不一致和未使用的信息資產(chǎn)等。

SOA 不僅僅是 Web 服務(wù)

圖 1 展示了信息管理提供的服務(wù)分類邏輯視圖，這些服務(wù)是基于以下方面進(jìn)行分類的：

安全性
協(xié)作
可用性
可管理性
信息消耗

雖然沒有哪種單獨(dú)的產(chǎn)品能提供以上所有的服務(wù)，但將這些服務(wù)合在一起就可以創(chuàng)建 SOA 的完整信息管理框架。特別值得注意的是，某些文章將元數(shù)據(jù)管理置于信息管理?xiàng)５牡撞浚诒疚闹形覀冋J(rèn)為，元數(shù)據(jù)管理是滲入其他服務(wù)并與其他服務(wù)緊密聯(lián)系的。事實(shí)上，SOA 是元數(shù)據(jù)驅(qū)動(dòng)的構(gòu)架（參見參考資料部分的文章 “Metadata Evolution Management in Your SOA"）。因此，我們將在本文的后半部分從元數(shù)據(jù)管理開始說起。

圖 1：SOA 中的信息管理

元數(shù)據(jù)管理

元數(shù)據(jù)、元模型以及元－元模型

最常見的元數(shù)據(jù)定義是關(guān)于數(shù)據(jù)的數(shù)據(jù)——其實(shí)并不然。根據(jù)規(guī)范的不同，元數(shù)據(jù)所指的含義也將不同。基本上，元數(shù)據(jù)是關(guān)于數(shù)據(jù)的結(jié)構(gòu)（語法）和含義（語義）的信息。元數(shù)據(jù)結(jié)構(gòu)化方法的例子有關(guān)系數(shù)據(jù)庫管理系統(tǒng)（RDBMS）目錄、Java 庫目錄和 XML DTD 和 schema。這些每個(gè)都定義了數(shù)據(jù)是如何表示和使用的。從語義的角度來說，元數(shù)據(jù)提供了數(shù)據(jù)的含義。例子包括用數(shù)據(jù)字典、注釋或本體論（ontology）來描述。

此外，還有用于內(nèi)容管理的實(shí)例和類的元數(shù)據(jù)。實(shí)例元數(shù)據(jù)只是儲(chǔ)存在內(nèi)容管理元數(shù)據(jù)儲(chǔ)存庫中的數(shù)據(jù)，并引用存儲(chǔ)在別處的對象，例如文檔、Web 頁面、音頻和視頻文件。分類和索引中的條目也同樣被認(rèn)為是實(shí)例元數(shù)據(jù)。類元數(shù)據(jù)，從某種角度來說，和 RDBMS 目錄和 XML schema 意義相同，用來描述實(shí)例元數(shù)據(jù)的結(jié)構(gòu)。

元模型（也稱元－元數(shù)據(jù)）定義了元數(shù)據(jù)的結(jié)構(gòu)和語義。標(biāo)準(zhǔn)元模型的例子包括 Unified Modeling Language（UML）和 Common Warehouse Meta-model（CWM）。元－元模型層由元－元數(shù)據(jù)的結(jié)構(gòu)和語義描述組成。目前正試圖提供一種可以描述所有其他信息模型的通用語言。Meta Object Facility（MOF）是元－元模型的一個(gè)標(biāo)準(zhǔn)（參見參考資料部分）。

圖 2：MOF 元數(shù)據(jù)構(gòu)架

對元數(shù)據(jù)的生產(chǎn)者來說，遵循元模型、元數(shù)據(jù)接口、元－元模型和查詢語言方面的標(biāo)準(zhǔn)是非常重要的。通過這些標(biāo)準(zhǔn)，才能實(shí)現(xiàn)最大限度的互操作性，并可以服務(wù)于更多的元數(shù)據(jù)消費(fèi)者，例如數(shù)據(jù)倉庫、分析和建模工具。SOA 正是依靠這些標(biāo)準(zhǔn)來實(shí)現(xiàn)生產(chǎn)者和消費(fèi)者之間的動(dòng)態(tài)匹配、監(jiān)控 BPEL 流，以及增強(qiáng)對 IT 資源和業(yè)務(wù)流程的跟蹤能力。

元數(shù)據(jù)管理注意事項(xiàng)

當(dāng)我們重新設(shè)計(jì)元數(shù)據(jù)管理時(shí)，由于 XML 的普及，它顯然是元數(shù)據(jù)的缺省數(shù)據(jù)格式。對于單個(gè)供應(yīng)商或是組織來說，通常首選是集中方式，用來實(shí)現(xiàn)元數(shù)據(jù)資產(chǎn)的重用，并減少開發(fā)的工作量，避免出現(xiàn)混亂。同樣，標(biāo)準(zhǔn)就是這個(gè)首選的方法。例如，IBM? 使用開放源代碼的 Eclipse Modeling Framework（EMF）作為通用的元數(shù)據(jù)集成技術(shù)。EMF 為工具和運(yùn)行時(shí)提供了元數(shù)據(jù)集成。因此，在 EMF 基礎(chǔ)上開發(fā)的所有軟件都可以共享其它應(yīng)用程序的通用方法。在理想的環(huán)境中（在短期內(nèi)實(shí)現(xiàn)可能比較困難），元數(shù)據(jù)儲(chǔ)存庫可以儲(chǔ)存所有的元數(shù)據(jù)構(gòu)件。服務(wù)由信息管理體構(gòu)，例如在需要時(shí)，可以調(diào)用信息管理提供的服務(wù)（比如 SSO、ETL、聯(lián)合、質(zhì)量、搜索、版本控制和工作流）以獲取數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)管理。

對于 XML 儲(chǔ)存庫而言，有兩種常用的用來儲(chǔ)存 XML 元數(shù)據(jù)的儲(chǔ)存機(jī)制。分別為 RDBM 和固有的 XML 儲(chǔ)存庫。每種儲(chǔ)存機(jī)制都有優(yōu)缺點(diǎn)。起決定作用的因素包括性能、靈活性、帶寬、互操作性、用戶定義數(shù)據(jù)類型的支持以及數(shù)據(jù)質(zhì)量的保證等。

無論對于供應(yīng)商、企業(yè)或是行業(yè)級(jí)別而言，在進(jìn)行元數(shù)據(jù)管理時(shí)，聯(lián)合的方法都是更加實(shí)用的。虛擬的元數(shù)據(jù)儲(chǔ)存庫允許應(yīng)用程序通過單個(gè) API 訪問并聚集不同種類的元數(shù)據(jù)源。物理元數(shù)據(jù)構(gòu)件可以被儲(chǔ)存在其初始的位置，也可以通過 ETL/replication/cache 方法來改進(jìn)性能和元數(shù)據(jù)安置。在不同元數(shù)據(jù)源之間進(jìn)行自動(dòng)發(fā)現(xiàn)、映射和轉(zhuǎn)換對改進(jìn)元數(shù)據(jù)的可管理性都是非常重要。

數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)管理之間的關(guān)系

一方面，元數(shù)據(jù)使程序間可以互相對話（實(shí)際上，供應(yīng)商可調(diào)用它的元數(shù)據(jù)儲(chǔ)存庫 SuperGlue）。另一方面，元數(shù)據(jù)管理的需求與數(shù)據(jù)和內(nèi)容管理是十分類似的。元數(shù)據(jù)管理需要提供關(guān)于安全性、協(xié)作、 QoS 和可管理性的相同的服務(wù)類型。元數(shù)據(jù)管理還要將 SSO、ETL、聯(lián)合、質(zhì)量、搜索、版本控制、工作流和儲(chǔ)存持久性結(jié)合在一起。元數(shù)據(jù)管理在自動(dòng)操作和編制（orchestration）方面的需求比數(shù)據(jù)和內(nèi)容管理更多，因?yàn)樵獢?shù)據(jù)所服務(wù)的對象主要是計(jì)算機(jī)程序。

不管怎樣，資產(chǎn)重用和服務(wù)編制可以通過在基于 SOA 且架構(gòu)完善的信息管理基礎(chǔ)上構(gòu)建元數(shù)據(jù)管理來實(shí)現(xiàn)。這就證明了將信息管理重新設(shè)計(jì)為基于 SOA 的可重用構(gòu)件的重要性。

元數(shù)據(jù)集成的難題

前面已經(jīng)說過，集成元數(shù)據(jù)比集成數(shù)據(jù)和內(nèi)容更加復(fù)雜。許多因素都增加了元數(shù)據(jù)集成的難度。這些因素包括：

元數(shù)據(jù)無處不在，且在許多情況下對用戶是不可見的。
許多產(chǎn)品中的元數(shù)據(jù)和元模型都有其專有格式，特別是內(nèi)容管理。
在內(nèi)容管理中，向內(nèi)容中添加元數(shù)據(jù)。許多內(nèi)容都缺乏元數(shù)據(jù)來進(jìn)行集成和搜索。
元數(shù)據(jù)集成相對數(shù)據(jù)和內(nèi)容集成來說，需要更高級(jí)別的自動(dòng)化和編制。這就依次需要更高級(jí)別的自動(dòng)發(fā)現(xiàn)、轉(zhuǎn)換、映射和語義理解。
為了避免失去當(dāng)前客戶，供應(yīng)商還可以選擇保持客戶的專有元數(shù)據(jù)格式。
轉(zhuǎn)換到元數(shù)據(jù)標(biāo)準(zhǔn)（例如 MOF）需要時(shí)間和工作量。

元數(shù)據(jù)集成的業(yè)務(wù)價(jià)值

SOA 在很大程度上是元數(shù)據(jù)驅(qū)動(dòng)的構(gòu)架。要理解元數(shù)據(jù)集成的高級(jí)別業(yè)務(wù)價(jià)值，讓我們先進(jìn)行全方位的概覽。圖 3 闡明了隨需應(yīng)變業(yè)務(wù)上下文中元數(shù)據(jù)集成的重要性。基于信息標(biāo)準(zhǔn)，元數(shù)據(jù)可以實(shí)現(xiàn)無縫信息交換。給出良好集成的元數(shù)據(jù)后，信息可以在由操作系統(tǒng)、編程語言、位置和數(shù)據(jù)格式組成的邊界之間自由流動(dòng)。因此元數(shù)據(jù)可以被認(rèn)為是信息集成的“大腦”。此外，信息集成使得可以進(jìn)行業(yè)務(wù)集成，業(yè)務(wù)集成既可以是跨企業(yè)中各部門的，也可以是跨企業(yè)邊界的。它提供以下內(nèi)容：

通過數(shù)據(jù)倉庫或聯(lián)合的方式，提供單一且完整的客戶、伙伴、產(chǎn)品和業(yè)務(wù)視圖。
通過使用分析服務(wù)，使業(yè)務(wù)性能管理更加便利。
通過廣泛的信息訪問來增強(qiáng)業(yè)務(wù)應(yīng)用程序。
通過持續(xù)的信息服務(wù)實(shí)現(xiàn)業(yè)務(wù)流程轉(zhuǎn)換。

最后，業(yè)務(wù)集成是隨需應(yīng)變業(yè)務(wù)的基礎(chǔ)之一。通過使用 IT 技術(shù)服務(wù)于業(yè)務(wù)目標(biāo)（而不是相反），使業(yè)務(wù)集成與之前的 Enterprise Application Integration（EAI）區(qū)別開來。因此，說元數(shù)據(jù)集成是隨需應(yīng)變業(yè)務(wù)的“大腦”一點(diǎn)都不夸張。

圖 3：元數(shù)據(jù)集成是隨需應(yīng)變業(yè)務(wù)集成的大腦

高級(jí)元數(shù)據(jù)集成價(jià)值的例子包括：

有助于來自不同源的數(shù)據(jù)/內(nèi)容集成。
縮短新應(yīng)用程序的上市時(shí)間，并允許更快速的應(yīng)用程序集成
改善企業(yè)內(nèi)部或企業(yè)之間的業(yè)務(wù)集成流程
通過完整的集成信息分析，提供了全新的認(rèn)識(shí)
通過變更管理和預(yù)測分析，進(jìn)行結(jié)果分析

數(shù)據(jù)和內(nèi)容聯(lián)合：分散式方法

聯(lián)合的概念是指將資源集看作單個(gè)資源來進(jìn)行查看和操作，且保持其自治（對當(dāng)前的應(yīng)用程序或系統(tǒng)影響極少或沒有影響）和完整性（不會(huì)破壞當(dāng)前應(yīng)用程序或系統(tǒng)中的數(shù)據(jù)或內(nèi)容）。不用說，自治和完整性是聯(lián)合的兩個(gè)重要前提。

自 20 世紀(jì) 90 年代后期，數(shù)據(jù)聯(lián)合已經(jīng)作為與集中方法截然不同的一種方法而出現(xiàn)了。在分散方法中，使用了數(shù)據(jù)市場（mart）和倉庫。數(shù)據(jù)聯(lián)合力圖將數(shù)據(jù)放在其原始位置上，并創(chuàng)建虛擬數(shù)據(jù)庫。類似地，最近出現(xiàn)的內(nèi)容聯(lián)合可以用來訪問并聚集不同的內(nèi)容源。這些分散的方法相比集中化方法而言，減少了數(shù)據(jù)和內(nèi)容冗余、帶寬、儲(chǔ)存、實(shí)時(shí)同步以及額外的管理費(fèi)用。對分布式信息源的實(shí)時(shí)訪問同樣為業(yè)務(wù)智能帶來了新的性能，這應(yīng)該遵循法定和管理需求。對于開發(fā)人員來說，數(shù)據(jù)聯(lián)合減少了為不同的數(shù)據(jù)源編寫和維護(hù)自定義 API 的需求，以及對高度專門技能的需求。

對于數(shù)據(jù)聯(lián)合而言，最需要關(guān)注的就是其性能。要改進(jìn)性能，聯(lián)合需要經(jīng)常使用緩存、物理查詢表（MQT）以及分布式查詢優(yōu)化和執(zhí)行。高速緩存和 MQT 在聯(lián)合的服務(wù)器上創(chuàng)建并管理表，這些服務(wù)器可以是目標(biāo)聯(lián)合數(shù)據(jù)源的全部或是其中的一部分。作為一種 cutting-edge 工具，IBM WebSphere? Information Integrator 考慮了以下方面：

源數(shù)據(jù)（例如基數(shù)或是索引）的標(biāo)準(zhǔn)統(tǒng)計(jì)
數(shù)據(jù)服務(wù)器性能（例如連接特性和內(nèi)置功能）
數(shù)據(jù)服務(wù)器容量
I/O 容量
網(wǎng)速（請參閱參考資料部分的 IBM Redbook，“DB2II: Performance Monitoring, Tuning and Capacity Planning Guide”）

ETL：集中方法

提取－轉(zhuǎn)換－加載（Extract-transform-load，ETL）是用于數(shù)據(jù)集成的最古老的技術(shù)之一，且和數(shù)據(jù)儲(chǔ)存和業(yè)務(wù)智能緊密結(jié)合。該方法可以用于數(shù)據(jù)合并、遷移和傳播。ETL 工具從一個(gè)或是多個(gè)數(shù)據(jù)源中提取、轉(zhuǎn)換和加載數(shù)據(jù)至其它目標(biāo)。ETL 曾經(jīng)一段時(shí)間是信息集成的主要方法且至今仍舊運(yùn)用十分廣泛。與直接的提取和加載操作不同，轉(zhuǎn)換是最復(fù)雜的部分。因?yàn)樵诖诉^程中需要對數(shù)據(jù)進(jìn)行理解、轉(zhuǎn)換、聚集和計(jì)算。由于高費(fèi)用、較慢的周轉(zhuǎn)周期以及數(shù)據(jù)源中不完整的信息集而使 ETL 和數(shù)據(jù)倉庫的優(yōu)勢大打折扣。

集中式和分散式方法互補(bǔ)，將兩者結(jié)合在一起會(huì)產(chǎn)生很多的優(yōu)勢。

集中式方法包含了以下一些方面：

訪問性能或可用性需求需要集中數(shù)據(jù)。
當(dāng)前需求要求時(shí)間點(diǎn)一致性，例如業(yè)務(wù)關(guān)閉。
需要進(jìn)行復(fù)雜轉(zhuǎn)換，以實(shí)現(xiàn)數(shù)據(jù)的語義一致性。
集中化方法通常用于生產(chǎn)應(yīng)用程序、數(shù)據(jù)倉庫和操作數(shù)據(jù)存儲(chǔ)庫。
集中化方法通常由 ETL 或是復(fù)制技術(shù)來管理。

分散式方法包含了以下需要考慮的事項(xiàng)：

源系統(tǒng)的訪問性能和負(fù)載的提高可以降低整體實(shí)現(xiàn)的費(fèi)用。
當(dāng)前需求需要數(shù)據(jù)的最新副本。
數(shù)據(jù)安全性、許可限制或行業(yè)規(guī)則限制了數(shù)據(jù)傳輸。
分散化方法可以結(jié)合復(fù)合格式數(shù)據(jù)，例如客戶 ODS 與相關(guān)的契約文檔或是圖象相結(jié)合。
查詢需要實(shí)時(shí)數(shù)據(jù)，例如股票報(bào)價(jià)、現(xiàn)有存貨目錄

數(shù)據(jù)復(fù)制和事件發(fā)布

數(shù)據(jù)復(fù)制使數(shù)據(jù)的副本從一個(gè)位置移到另一個(gè)位置。目標(biāo)位置可以是集中的位置，例如數(shù)據(jù)倉庫，也可以是網(wǎng)絡(luò)上另一個(gè)分布式位置。在網(wǎng)格環(huán)境中，復(fù)制和緩存服務(wù)用來創(chuàng)建 Placement Management Service 以滿足服務(wù)質(zhì)量 (QoS) 目標(biāo)。根據(jù)訪問模式和消費(fèi)應(yīng)用程序位置的不同，Placement Management Service 通過創(chuàng)建緩存或是副本（參見參考資料部分中的 “Towards an information infrastructure for the grid” 一文）來提高相應(yīng)時(shí)間以及信息可用性。在 Web 應(yīng)用程序環(huán)境中，當(dāng)數(shù)據(jù)或是內(nèi)容已經(jīng)準(zhǔn)備好被發(fā)布用于公共消費(fèi)時(shí)，數(shù)據(jù)和內(nèi)容復(fù)制通常用來將數(shù)據(jù)或內(nèi)容從分段服務(wù)器（通常只是管理員使用的服務(wù)器）轉(zhuǎn)移到生產(chǎn)服務(wù)器。分段數(shù)據(jù)管理使組織能夠更好的控制信息流和信息的生命周期。例如，一個(gè) Web 站點(diǎn)支持多國語言。當(dāng)一段數(shù)據(jù)或內(nèi)容元素需要在網(wǎng)站上發(fā)布之前被翻譯，則首先需要將其傳給分段服務(wù)器。只有在被翻譯完并被管理員許可以后，才可以復(fù)制給生產(chǎn)服務(wù)器并進(jìn)行發(fā)布。

復(fù)制可以與集中式或分散式方法共同使用。ETL 和數(shù)據(jù)復(fù)制間主要的區(qū)別是， ETL 通常在應(yīng)用了數(shù)據(jù)過濾和轉(zhuǎn)換規(guī)則后，將數(shù)據(jù)移動(dòng)到集中位置，這要花費(fèi)更長的時(shí)間，并移動(dòng)更多的數(shù)據(jù)。數(shù)據(jù)復(fù)制移動(dòng)的數(shù)據(jù)集就小很多，可以更自動(dòng)化的方式移動(dòng)到集中的或是分散的位置。數(shù)據(jù)復(fù)制可以對數(shù)據(jù)進(jìn)行實(shí)時(shí)或是近實(shí)時(shí)訪問。ETL 的主要目的是分析并監(jiān)控?cái)?shù)據(jù)，并生成業(yè)務(wù)智能。但數(shù)據(jù)復(fù)制的目標(biāo)更多的與性能、數(shù)據(jù)管理和數(shù)據(jù)可用性相關(guān)。最后，ETL 和數(shù)據(jù)復(fù)制可以互補(bǔ)，換句話說，可以使用數(shù)據(jù)復(fù)制功能更快地將數(shù)據(jù)移動(dòng)到數(shù)據(jù)市場或是存儲(chǔ)庫，ETL 中的數(shù)據(jù)轉(zhuǎn)換功能可以提供數(shù)據(jù)復(fù)制領(lǐng)域更大的靈活性和更高的數(shù)據(jù)質(zhì)量。為了重用不同工具的邏輯，需要有易于調(diào)用且松耦合的信息服務(wù)。

和 ETL 以及數(shù)據(jù)復(fù)制不同，事件發(fā)布并不清楚數(shù)據(jù)的去向以及如何使用數(shù)據(jù)。源表的變更將以 XML 格式或是其它數(shù)據(jù)格式發(fā)布到消息隊(duì)列。應(yīng)用程序負(fù)責(zé)檢索已發(fā)布的事件并采取適當(dāng)?shù)牟僮鳎缬|發(fā)業(yè)務(wù)流程或在將數(shù)據(jù)應(yīng)用到目標(biāo)數(shù)據(jù)源之前對數(shù)據(jù)進(jìn)行轉(zhuǎn)換。松耦合架構(gòu)將服務(wù)提供者和消費(fèi)者分離，并允許數(shù)據(jù)事件獨(dú)立于應(yīng)用程序。

邏輯數(shù)據(jù)和語義信息建模

邏輯數(shù)據(jù)建模是軟件開發(fā)的最佳實(shí)踐之一，也是當(dāng)開發(fā)組織在時(shí)間和預(yù)算壓力之下很容易被忽視的地方。雖然在內(nèi)部開發(fā)過程中經(jīng)常忽略邏輯數(shù)據(jù)建模，但組織經(jīng)常購買獲得企業(yè)資源規(guī)劃（Enterprise Resource Planning，ERP）、客戶關(guān)系管理（Customer Relationship Management，CRM）或是其他類型的包。結(jié)果是，許多版本的數(shù)據(jù)模型引用了組織內(nèi)的同一個(gè)事物，且每個(gè)數(shù)據(jù)源都有自己的數(shù)據(jù)模型和元模型。例如，引用了客戶的不同的項(xiàng)，CRM 稱其為 customer，記賬系統(tǒng)中稱其為 client，而銷售系統(tǒng)中稱之為 buyer，這種情況并不少見。教科書和理論家力圖從邏輯企業(yè)數(shù)據(jù)模型開始，再轉(zhuǎn)至物理數(shù)據(jù)模型（例如實(shí)體關(guān)系圖）、代碼生成和開發(fā)，但是在實(shí)際中順序卻經(jīng)常顛倒過來。

在實(shí)踐中，組織常分階段構(gòu)建、購買或是獲取數(shù)據(jù)庫，且數(shù)據(jù)保持被隔離的狀態(tài)。有時(shí)這些組織認(rèn)識(shí)到需要對數(shù)據(jù)進(jìn)行集成。那么接下來要怎樣實(shí)現(xiàn)呢？通常會(huì)鉆研大堆的文檔、成千上萬的代碼行以及海量的數(shù)據(jù)，來發(fā)現(xiàn)其生產(chǎn)和消費(fèi)的信息類型，更不用說這些組織要發(fā)現(xiàn)和記錄各種數(shù)據(jù)模型和業(yè)務(wù)流程之間的相互關(guān)系了。在這種情況下，自動(dòng)數(shù)據(jù)發(fā)現(xiàn)和概要工具可以加快這些流程，并減輕執(zhí)行這些任務(wù)的復(fù)雜性。許多組織在最后將得到邏輯企業(yè)數(shù)據(jù)模型，這樣單獨(dú)的系統(tǒng)就可以被映射到公共邏輯模型上。轉(zhuǎn)換在一些案例中需要用到，例如貨幣間的轉(zhuǎn)換。最終，物理數(shù)據(jù)模型被映射到企業(yè)數(shù)據(jù)模型——即企業(yè)共享的公共邏輯數(shù)據(jù)模型。如果企業(yè)數(shù)據(jù)模型在一開始就被設(shè)計(jì)為模型驅(qū)動(dòng)架構(gòu)（Model Driven Architecture）的一部分，那么該模型就可以最大限度的發(fā)揮其優(yōu)勢。不過，逆向的工程步驟也是非常有價(jià)值的。企業(yè)數(shù)據(jù)模型的主要優(yōu)勢在于：

提供企業(yè)信息資產(chǎn)的概覽。
增強(qiáng)使用 IT 技術(shù)來支持業(yè)務(wù)流程的實(shí)踐。
減少企業(yè)信息集成（Enterprise Information Integration，EII）、企業(yè)應(yīng)用程序集成（Enterprise Application Integration，EAI）以及數(shù)據(jù)存儲(chǔ)的費(fèi)用和風(fēng)險(xiǎn)。
提供對數(shù)據(jù)、元數(shù)據(jù)和元模型的基于資產(chǎn)的重用。
提高數(shù)據(jù)和元數(shù)據(jù)質(zhì)量。
便于業(yè)務(wù)分析員、數(shù)據(jù)建模者、開發(fā)人員和數(shù)據(jù)庫管理員之間的通信。

語義信息建模（本體）不屬于邏輯數(shù)據(jù)建模，它對數(shù)據(jù)的語義（含義）和關(guān)系建模。它合并了多個(gè)知識(shí)領(lǐng)域的詞匯（術(shù)語和概念）。語義信息建模可以出色地解決許多難題，例如以下問題（參見參考資料部分中的 “Sematics FAQs” 一文）：

信息集成
模型轉(zhuǎn)換
解釋
數(shù)據(jù)凈化
搜索
導(dǎo)航
文本理解
文檔準(zhǔn)備
語音理解
問答

數(shù)據(jù)概要（Data profiling）

數(shù)據(jù)概要是發(fā)現(xiàn)以下方面的流程：

數(shù)據(jù)格式
模式
特性
規(guī)則
隱含關(guān)系

數(shù)據(jù)概要同樣提供了很多的優(yōu)點(diǎn)，包括：

改善組織對數(shù)據(jù)的理解。
有助于電子數(shù)據(jù)管理（Electronic Data Management，EDM）。
便于數(shù)據(jù)映射和轉(zhuǎn)換。
提高數(shù)據(jù)質(zhì)量。
構(gòu)建性能調(diào)整的基線。
協(xié)助語義建模。

數(shù)據(jù)概要旨在更好的理解信息并創(chuàng)建關(guān)于對象的更多元數(shù)據(jù)。

數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量將影響企業(yè)信息管理策略的成功與否，企業(yè)信息管理策略決定了其業(yè)務(wù)集成策略的成敗。數(shù)據(jù)質(zhì)量問題被認(rèn)為是數(shù)據(jù)儲(chǔ)存項(xiàng)目失效的主要原因之一。低質(zhì)量的數(shù)據(jù)會(huì)導(dǎo)致誤傳的決策、無效的操作和錯(cuò)失機(jī)遇，并且有時(shí)還會(huì)受到來自組織或市場的懲罰。數(shù)據(jù)質(zhì)量并非華而不實(shí)，它已經(jīng)成為業(yè)務(wù)的關(guān)鍵操作要素。

數(shù)據(jù)質(zhì)量問題的例子如下：

丟失所需域的數(shù)據(jù)
不一致的數(shù)據(jù)條目
不正確或不準(zhǔn)確的數(shù)據(jù)條目

由于數(shù)據(jù)質(zhì)量工作固有的復(fù)雜性，一些組織選擇將這些工作外包給第三方服務(wù)提供商。我們將在本文后面部分的案例學(xué)習(xí)中看到。

內(nèi)容質(zhì)量經(jīng)常被部分忽視，這是因?yàn)樵u估內(nèi)容質(zhì)量比評估數(shù)據(jù)質(zhì)量更困難。畢竟內(nèi)容是非結(jié)構(gòu)化的，且質(zhì)量標(biāo)準(zhǔn)更加主觀和隨意。內(nèi)容質(zhì)量通常不包含在技術(shù)項(xiàng)目范圍之內(nèi)。從組織的角度來說內(nèi)容質(zhì)量并未得到重視。但是，在 SOA 環(huán)境中，因?yàn)?SOA 不固定的特性而使內(nèi)容質(zhì)量變得更加重要。如果錯(cuò)誤數(shù)據(jù)或是質(zhì)量次的內(nèi)容沒有及時(shí)發(fā)現(xiàn)，就會(huì)到處傳播。內(nèi)容質(zhì)量標(biāo)準(zhǔn)由于內(nèi)容類型的不同而有所區(qū)別，但是評估內(nèi)容質(zhì)量還是有一些共同的標(biāo)準(zhǔn)，如以下所示：

關(guān)聯(lián)
及時(shí)
截止時(shí)間
內(nèi)容確認(rèn)
等級(jí)
副本
鏈接檢查

由于對元數(shù)據(jù)管理能力需求的增長，元數(shù)據(jù)質(zhì)量最近受到更多的關(guān)注。改進(jìn)數(shù)據(jù)質(zhì)量的技術(shù)，例如標(biāo)準(zhǔn)化、概要、審查、凈化、轉(zhuǎn)換和確認(rèn)，都可用來改進(jìn)元數(shù)據(jù)質(zhì)量。

強(qiáng)數(shù)據(jù)類型是跨不同的編程語言和硬件確保 XML 數(shù)據(jù)值一致性的關(guān)鍵。但是，當(dāng)前 XML 技術(shù)只允許單個(gè)文檔的 schema 確認(rèn)，卻沒有一種有效的方法來跨不同的 schema 和數(shù)據(jù)源（比如在關(guān)系數(shù)據(jù)庫和 OO 數(shù)據(jù)類型工具之間）驗(yàn)證數(shù)據(jù)類型（包括用戶定義的數(shù)據(jù)類型）并實(shí)施語義強(qiáng)類型。僅僅 XML 文檔類型定義（DTD）或 schema 的標(biāo)準(zhǔn)化（許多行業(yè)試圖用這種標(biāo)準(zhǔn)化來作為該問題的解決方案）是不夠的，因?yàn)楫?dāng)需要在多個(gè)行業(yè)之間集成數(shù)據(jù)時(shí)（這是隨需應(yīng)變業(yè)務(wù)的一個(gè)基本需求。），XML DTD 或 schema 驗(yàn)證、語義一致性和兼容性方面的問題仍舊存在。

搜索和查詢

在企業(yè)搜索中，搜索分許多類型：關(guān)鍵字、布爾值、范圍、多層面元數(shù)據(jù)（faceted metadata）、語義、自然語言和參數(shù)化。不論用哪種搜索，目的都是為了提供統(tǒng)一、相關(guān)并排序的結(jié)果集，從而可以快速且方便的訪問信息。為便于搜索，可以使用索引（indexing，請不要與關(guān)系數(shù)據(jù)庫中的索引混淆）來索引非結(jié)構(gòu)化內(nèi)容（例如 Web 頁面、電子郵件數(shù)據(jù)庫或是文件系統(tǒng)）的關(guān)鍵字、概念和實(shí)例元數(shù)據(jù)，使這些內(nèi)容可以被搜索和檢索。關(guān)系數(shù)據(jù)庫也可以被編入索引，以進(jìn)行更快和更靈活的搜索。

雖然許多組織認(rèn)識(shí)到集成結(jié)構(gòu)化和非結(jié)構(gòu)化信息的重要性，但目前的搜索結(jié)果仍舊互不相干。用戶想要的是指向潛在相關(guān)信息的一系列鏈接。用戶不得不對搜索結(jié)果慢慢的瀏覽檢驗(yàn)，以找到所需的信息并與其最初的查詢目的聯(lián)系在一起。這基本上是手動(dòng)的流程。我們認(rèn)為迫切需要研究使用搜索和查詢在數(shù)據(jù)和內(nèi)容之間實(shí)現(xiàn)一項(xiàng)查詢，一組結(jié)果集。

數(shù)據(jù)庫通常都自帶搜索功能。最常見的搜索功能是使用 SQL 和 XQuery 之類的查詢語言。用數(shù)據(jù)庫搜索來檢索結(jié)構(gòu)化且嚴(yán)格匹配的數(shù)據(jù)十分管用，但這需要對查詢結(jié)構(gòu)和數(shù)據(jù)模型十分熟悉和了解才行。數(shù)據(jù)庫搜索的用戶大都是開發(fā)人員或是數(shù)據(jù)庫管理員。另外，數(shù)據(jù)庫搜索不適合于相關(guān)排序、模糊搜索和多關(guān)鍵字。因此，數(shù)據(jù)庫搜索的使用受到了很多限制。為實(shí)現(xiàn)高性能、靈活性以及相關(guān)排序等，一些搜索引擎與數(shù)據(jù)庫直接相連，從數(shù)據(jù)庫提取數(shù)據(jù)并生成索引。一個(gè)例子就是 IBM WebSphere OmniFind。

分析

在先前 ETL 部分我們已經(jīng)闡明，數(shù)據(jù)倉庫將數(shù)據(jù)合并到中央位置以確保更好的進(jìn)行決策、跨部門報(bào)告和數(shù)據(jù)挖掘。傳統(tǒng)的分析包括報(bào)告、數(shù)據(jù)挖掘、儀表板（dashboard）、記分卡和業(yè)務(wù)性能管理。隨著競爭日趨激烈，操作變得越來越復(fù)雜，規(guī)則也隨著更加嚴(yán)格。組織需要實(shí)時(shí)訪問不同的數(shù)據(jù)源來做以下改進(jìn)：

使用集成信息預(yù)測市場趨勢。
更好的了解客戶。
提高操作效率。
確保遵循規(guī)則。
獲取新知識(shí)。

所有這些趨勢使得對信息管理分析能力的需求不斷增加。分析變得越來越重要。例如，如果銷售商知道現(xiàn)有客戶的合同、服務(wù)經(jīng)驗(yàn)和其行業(yè)趨勢、其競爭者和客戶，他（或她）就可以更好地為客戶定制專門的銷售建議。最近，分析經(jīng)常需要在不同的信息源間進(jìn)行信息集成。例如，要評估質(zhì)量，汽車制造商需要將事故報(bào)告（存在文檔管理系統(tǒng)內(nèi)）、經(jīng)銷商的修理記錄（存在關(guān)系數(shù)據(jù)庫內(nèi)）、司機(jī)的風(fēng)險(xiǎn)因素以及環(huán)境因素（存在知識(shí)管理系統(tǒng)內(nèi)）相關(guān)聯(lián)。在未來，通過分析將能夠更加智能化的訪問并關(guān)聯(lián)不同的信息源的信息，從而提供新的市場洞察和業(yè)務(wù)決策。

相關(guān)服務(wù)

以下服務(wù)被稱為“相關(guān)”服務(wù)，并不是因?yàn)樗鼈儗τ谛畔⒐芾矶圆恢匾且驗(yàn)樗麄儗τ跇I(yè)務(wù)流程和應(yīng)用集成來說十分常見。

SSO、訪問控制和審查

單點(diǎn)登錄（SSO）到不同信息源、訪問控制、審查對信息的查看和修改，這些共同構(gòu)建了信息管理安全環(huán)境的基礎(chǔ)。SSO 對用戶提出您是誰的問題，訪問控制則提出您可以做什么，審查隨時(shí)跟蹤您已完成的操作。SSO 的優(yōu)點(diǎn)很多：減少用戶受挫的可能、降低開發(fā)工作量并提高效率。訪問控制確保只有擁有正確權(quán)限的用戶才能訪問數(shù)據(jù)和內(nèi)容。一些業(yè)務(wù)需要非常復(fù)雜的訪問權(quán)限管理，例如 Digital Rights Management。審查服務(wù)為數(shù)據(jù)和內(nèi)容提供了額外的保障。查看、插入、修改和刪除信息操作都能被審查并被報(bào)告。隨著對安全性和規(guī)則靈活性的需求不斷增長，SSO、訪問控制和審查服務(wù)的結(jié)合為企業(yè)信息管理打下堅(jiān)實(shí)的基礎(chǔ)。

工作流和版本控制

工作流和版本控制都設(shè)計(jì)為促進(jìn)團(tuán)隊(duì)環(huán)境中的協(xié)作。在通過版本控制建立一致點(diǎn)時(shí)，數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)管理、應(yīng)用程序代碼開發(fā)和流程都需要工作流，從而允許人們進(jìn)行協(xié)作，以便之后將這些一致點(diǎn)返回給版本控制。工作流將用戶、流程和信息鏈接在一個(gè)系統(tǒng)中。系統(tǒng)的每個(gè)部分——人、流程和信息——都是高度交互的，且它們之間的交互甚至更加動(dòng)態(tài)。例如，一家公司編寫了一個(gè)程序使每個(gè)雇員都可以提交自己對任何主題的建議。根據(jù)建議類別的不同（信息），這些建議將被不同的人發(fā)送、評審和處理（流程，人）。因此，需要一個(gè)高度健全且合適的工作流來處理不能預(yù)料的情況。一旦開發(fā)了這樣的工作流服務(wù)，不用的應(yīng)用程序可以對其進(jìn)行調(diào)用，這些應(yīng)用程序包括文檔管理、HR 系統(tǒng)或者知識(shí)管理。

門戶

業(yè)界分析家預(yù)測，結(jié)合了 Web 服務(wù)的企業(yè)門戶將未來的十二個(gè)月內(nèi)實(shí)現(xiàn)。門戶集成了應(yīng)用程序和信息，并通過統(tǒng)一的視圖將其呈現(xiàn)給最終用戶。由于 EII 提供了抽象層，開發(fā)人員可以訪問并匯集不同的信息源、維護(hù)代碼并實(shí)現(xiàn)性能和安全性需求，而無需編寫自定義適配器。因此，應(yīng)用程序開發(fā)可以節(jié)省大量的時(shí)間、花費(fèi)和技能需求，且門戶用戶可以輕松訪問各種廣泛的信息。最重要的是，可以對端到端業(yè)務(wù)流程進(jìn)行輕松且快速的集成。

案例學(xué)習(xí)：數(shù)據(jù)質(zhì)量服務(wù)實(shí)例

信息管理?xiàng)Ｖ械钠髽I(yè)搜索、數(shù)據(jù)質(zhì)量與驗(yàn)證，以及分析等服務(wù)通常是外購的不錯(cuò)選擇。SOA 下的信息管理框架確立了一個(gè)新的業(yè)務(wù)模型，該業(yè)務(wù)模型越來越受到使用者的歡迎。讓我們看一個(gè)案例學(xué)習(xí)，該案例通過 SOA 提供了數(shù)據(jù)驗(yàn)證服務(wù)，這種服務(wù)也是一種數(shù)據(jù)質(zhì)量服務(wù)。

為了防止出錯(cuò)和欺詐行為，或是為了遵循相關(guān)法律和規(guī)定（比如 Sarbanes-Oxley），許多電子商務(wù)公司需要實(shí)時(shí)檢驗(yàn)地址、電話號(hào)碼以及社會(huì)安全號(hào)碼等識(shí)別信息。由于數(shù)據(jù)質(zhì)量確認(rèn)的復(fù)雜性，一些公司訂購了由第三方提供的數(shù)據(jù)驗(yàn)證服務(wù)，而不是開發(fā)內(nèi)部解決方案。一些公司提供數(shù)據(jù)驗(yàn)證和質(zhì)量服務(wù)，并提供網(wǎng)上的實(shí)時(shí)地址和電話號(hào)碼驗(yàn)證。在客戶填寫了電子商務(wù)應(yīng)用程序并在線提交后，電子商務(wù)公司將客戶信息封裝至 XML 文檔并通過 Web 服務(wù)、簡單對象訪問協(xié)議（Simple Object Access Protocol，SOAP）和 Web 服務(wù)描述語言（Services Description Language，WSDL）將其發(fā)送到數(shù)據(jù)驗(yàn)證公司。數(shù)據(jù)驗(yàn)證公司將在相同的客戶事務(wù)中，對數(shù)據(jù)進(jìn)行實(shí)時(shí)驗(yàn)證。對于客戶而言，他們將獲得及時(shí)的反饋，并能夠糾正或取消事務(wù)。

在過去，如果在流程中數(shù)據(jù)出錯(cuò)，電子商務(wù)要在數(shù)天甚至數(shù)月以后才能收到不能投遞的地址或是電子郵件。同時(shí)，客戶還不明白他們的帳戶出了什么問題。使用 SOA 進(jìn)行數(shù)據(jù)驗(yàn)證服務(wù)，使電子商務(wù)公司從維護(hù)和更新數(shù)十億字節(jié)的數(shù)據(jù)庫信息的重?fù)?dān)中解脫出來，這些數(shù)據(jù)庫信息包含數(shù)百萬來自不同城市和地域的用戶姓名、電話號(hào)碼和有效地址。

結(jié)束語

作者闡述了信息管理提供的每個(gè)服務(wù)，并特別關(guān)注元數(shù)據(jù)管理和集成。雖然服務(wù)的種類有很多，但這些是至關(guān)重要的，如果您還記得下列價(jià)值取向，可以參閱信息管理的要點(diǎn)：

安全性
協(xié)作
服務(wù)質(zhì)量
可管理性
消費(fèi)

希望本文可以使您意識(shí)到信息管理的重要性和其涉及的廣泛領(lǐng)域。通過掌握單個(gè)部分和它們之間交互的知識(shí)，您將能更有效的利用信息管理的優(yōu)勢，以構(gòu)建健全且均衡的 SOA。

致謝

在此，作者感謝 Susan Malaika 和 Norbert Bieberstein 對本文提出的有價(jià)值的反饋，并感謝 Robert D. Johnson 的支持。

IBM 信息管理產(chǎn)品

下表展示了信息管理服務(wù)和實(shí)現(xiàn)這些服務(wù)所需的 IBM 相關(guān)產(chǎn)品

表 1. IBM 信息管理產(chǎn)品

信息管理服務(wù)	IBM 產(chǎn)品
分析	DB2? Data Warehouse Edition; DB2 Cube Views; DB2 Alphablox; DB2 Entity Analytics
內(nèi)容聯(lián)合	WebSphere? Information Integrator, Content Edition
數(shù)據(jù)聯(lián)合	WebSphere Information Integrator
數(shù)據(jù)建模	Rational? XDE; alphaWorks Data Architect for DB2 Document Management
數(shù)據(jù)概要	WebSphere ProfileStage
數(shù)據(jù)質(zhì)量	WebSphere QualityStage
ETL	WebSphere DataStage；DB2 Warehouse Manager
邏輯和語義信息建模	IBM Research Ontology management system (Snobase)
元數(shù)據(jù)儲(chǔ)存庫	WebSphere MetaStage；alphaWorks XML Registry
搜索	WebSphere Information Integrator OmniFind Edition

posted on 2006-04-17 03:36 wsdfsdf 閱讀(167) 評論(0) 編輯收藏引用所屬分類: 技術(shù)文章

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺(tái)軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 7月5日-----這兩天考試太多，郁悶中~ 6月19日----- 通過服務(wù)模擬來簡化 SOA 開發(fā) 6月7日-----用例建模指南 6月6日-----對SCA的理解清晰了一些了 6月1日-----在WPS中用human task manager來實(shí)現(xiàn)對第三方Service的異步調(diào)用 6月1日-----IBM WebSphere 開發(fā)者技術(shù)期刊: 使用服務(wù)組件體系結(jié)構(gòu)（SCA）構(gòu)建 SOA 解決方案——第 1 部分 6月1日-----IBM WebSphere 開發(fā)者技術(shù)期刊: 使用服務(wù)組件體系結(jié)構(gòu)（SCA）構(gòu)建 SOA 解決方案——第 3 部分 6月1日-----SCA（Service Component Architecture）編程模型入門 5月10日-----將 WebSphere Business Integration Server Foundation V5.1.x 項(xiàng)目遷移到 WebSphere Process Server V6 大賽推薦文章之二-----下一代模型驅(qū)動(dòng)開發(fā)

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

iweroulsdjf

面向服務(wù)體系結(jié)構(gòu)中的信息管理，第 2 部分: 研究 SOA 中信息管理的不同方法

導(dǎo)航

常用鏈接

留言簿

隨筆分類(182)

隨筆檔案(181)

文章檔案(2)

Friendly teams

My friends

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜