-
浅谈数据仓库中的元数据管理技术
孙力君
仇道霞
方峻峰
宋楠
山东省烟草公司信息中心
摘要:数据仓库是数据库的发展方向之一,
< br>对企业管理和决策支持起着重要的
辅助作用。
简要介绍了
数据仓库和元数据的基本概念,
重点阐述了元数据的概念、
作用
、
CWM
标准、来源,并就元数据具体应用进行了初步的研究和
探讨。
关键词:数据仓库;元数据;
1.
引言
<
/p>
随着市场竞争的越来越激烈,
烟草行业的信息化建设不断的深入发
展,
全行
业形成了“以信息化带动烟草行业现代化建设”的基本
共识,
明确了“统一标准、
统
一平台、
统一数据库、统一网络”
,
逐步实现系统集成、资源整合、信息
共享的信
息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性
向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,
p>
既对行业数据中心的建设提出了迫切的要求,
也为行业数据中心建设
奠定了坚实
的基础。
随着数据库技术尤其是数据仓库技术的发展,
人类能更容易获得自己需要
的数据和信息,
由于元数据是数据仓库中非常重要的组成部分,
因此讨论和研
究元数据在数据仓库中的作用和应用,
具有非常重要的意义。
元数据管理是山东烟草数据中心建设的重要组成部分,
元数据管理平台为用
户提供高质量、准确、易于管理的数据,它贯穿数
据中心构建、运行和维护的整
个生命周期。同时,在数据中心构建的整个过程中,数据源
分析、
ETL
过程、数
据库结构、
p>
数据模型、
业务应用主题的组织和前端展示等环节,
均需要通过相应
的元数据的进行支撑。
元数据管理的生
命周期包括元数据获取和建立、
元数据的
存储、元数据浏览、元
数据分析、元数据维护等部分。
通过元数据管理,
形成整个系统信息数据资的准确视图,
通过元数据的统一
视图,
缩短数据清理周期、
提高数据质量以便能系统性地管理数据中心项目中来
自各业务系
统的海量数据,
梳理业务元数据之间的关系,
建立信息数据标准
完善
对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这
p>
些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过
精确把握经营数据来精确把握瞬息万变的市场竞争形式,
使山东烟草在市场竞
争
中保持优势。
总的来说,元数据管理平台集成相关的元数据,形成企业的全
局数据视图,
提供企业级共享元数据的平台,
是烟草业务系统的
基础设施,
对业务系统的发展、
应用和数据质量的提升有着深远
影响。
2.
数据仓库概述
目前有关数据仓库的概念有多种,
其中最经典的,引用最为广泛的定义是
在
《
Building the Data Warehouse
》
一书中给出的,
他指出:
“数据仓
库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层
的决策过程”
。
[1]
之所以要引入数据仓库,
是因为随着信息时代的到来,
如
p>
何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越
成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,
许多企
业都选择了数据仓库,
利用数据仓库可以对各种源数据进行抽取、清理、加工
和转换,
再利用联机分析系统
(OLAP)
和数据挖掘系统
(MM)
提供各种决
策信
息。
对于数据仓库的概念我们可以从两个层次予以,
首先,
数据仓库用于支持决
策,面向分析型数
据处理,它不同于企业现有的操作型数据库;其次,数据仓库
是对多个异构的数据源有效
集成,
集成后按照主题进行了重组,
并包含历史数据,
而且存放在数据仓库中的数据一般不再修改。
在数据仓库系统的众多组成部分中,
元数据扮演着十分重要的角色,
如何
在数据仓库系统中构建元数据库并进行高效的管理,
是构建数据仓库系统首先
要考虑的问题。
3.
元数据概念
按照传统的定义,元数据(
Metadata
)是关于数据的数据。在数据仓库系
统中,
元数据可以帮助数据仓库管理员和数据仓库的开发人员和最终用户非常方
便地找到他们所关心的数据;
元数据是描述数据仓库内数据的结
构和建立方法的
数据,可将其按用途的不同分为两类:技术元数据(
Technical Metadata
)和业
务元数据(
Business
Metadata
)
。
(1)
技
术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管
理数据仓库使用的数
据,它主要包括以下信息:
p>
1)
数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导
出数据的
定义,以及数据集市的位置和内容;
2)
业务
系统、数据仓库和数据集市的体系结构和模式
3)
汇总用的算法,包括度量和维定
义算法,数据粒度、主题领域、聚集、汇
总、预定义的查询与报告;
4)
由操作环境到数据仓库环境的映射,
包括源数据和它们的内容、
数据分割、
数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)
。
p>
(2)
业务元数据从业务角度描述了数据仓库中的数据,它提供了介
于使用者
和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据
仓
库中的数据。
业务元数据主要包括以下信息:
使用者的业务术语所表达的数据模
型、
对象名和属性名
;
访问数据的原则和数据的来源;
系统所提供的分析方法以
p>
及公式和报表的信息;具体包括以下信息:
1)
企业
概念模型:
这是业务元数据所应提供的重要的信息,
它表示企业
数据
模型的高层信息、
整个企业的业务概念和相互关系。
以这个企业模型为基础,
不
懂数据库技术和<
/p>
SQL
语句的业务人员对数据仓库中的数据也能做到心中有数。<
/p>
2)
p>
多维数据模型:
这是企业概念模型的重要组成部分,
它告诉业务分析人员
在数据集市当中有哪些维、维的类别、数据立方体以及数据
集市中的聚合规则。
这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式
。
3)
业务概念模型和物理数据之间的依赖:
以上提到的业务元数据只
是表示出
了数据的业务视图,
这些业务视图与实际的数据仓库或
数据库、
多维数据库中的
表、字段、维、层次等之间的对应关系
也应该在元数据知识库中有所体现。
4.
元数据的作用
与其说数据仓库是软件开发项目,
还不如说是系统集成项目
[1]
,因为它的
主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,
OL
AP
分析和数据挖掘等。
如图
1
所示,
它的典型结构由操作环境层、数据仓库
层和业务层等组成。
其中,第一层(操作环境层)是指整个企业内有关业务的
p>
OLTP
系统和一
些外部数据源;
第二层是通过把第一层的相关数据抽取到一个中心区而组成的数
据仓库层
;
第三层是为了完成对业务数据的分析而由各种工具组成的业务层。
图
中左边的部分是元数据管理,
它起到了承上启下的作用,
具体体现在以下几个方
面:
(1)
企业智能化信息建设的
DNA
在企业中,
数据是无所不在的,
p>
是企业信息化建设的血脉。
而元数据则是企
业血脉中的
DNA
,是保持企业信息化良性发展的重要组成部分
。优质的
DNA
,
才能造就出优质的企
业高智能信息化系统。
(2)
企业元数据标准,助力企业数据和系统的集成
1)
有利于企业数据、信息共享。
2)
有利于减少数据冗余性
3)
有利于应用开发过程更有效,
准确及时的元数据,为开发过程提供了指
导作用及参照的重要作用
4)
有利于节约企业成本:元数据提供的信息,极大的保证了开发过程、企
业
IT
运营维护的时效性,并避免重复投资
5)
避免异构结构定义、提高不同工具之间定义的重复利用率
6)
使
得技术人员和业务人员可以统一的对各业务系统、分析型项目、数据
仓库、
BI
系统等,进行统一的元数据管理和监督。
7)
统一掌握企业关键业务指标的数据来源及计算规则
(3)
状态元数据有利于增强企业运营效率、规避错误及风险
1)
系统、数据库、存储等组成部分的状态即可以看作是数据,也可以视为
< br>相对实体的元数据,有利于企业增强维护、合理按排执行任务等动作。
2)
数
据集成的执行状态,也是相对执行作业的元数据,通过作业状态元数
据的分析,可以监控
服务器运行效率,规避作业执行错误而导致的不良后果。
(4)
元数据是进行数据集成所必需的
数据仓库最大的特点就是它的集成性。
这一特点不仅体现在它所包含的数据
上,
还体现在实施数据仓
库项目的过程当中。
一方面,
从各个数据源中抽取的数
据要按照一定的模式存入数据仓库中,
这些数据源与数据仓库中数据的对
应关系
及转换规则都要存储在元数据知识库中;
另一方面,
p>
在数据仓库项目实施过程中,
直接建立数据仓库往往费时、
费力,
因此在实践当中,
人们可能会按照统一的
数
据模型,
首先建设数据集市,
然后在
各个数据集市的基础上再建设数据仓库。
不
过,
当数据集市数量增多时很容易形成“蜘蛛网”现象,
而元数据管理是解决“蜘蛛
网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据
仓库中时就会比较顺利;
相反,
如果在建设数据
集市的过程中忽视了元数据管理,
那么最后的集成过程就会很困难,甚至不可能实现。<
/p>
(5)
元数据定义的语义层可以帮助最终用户理解数据仓库中的数据
最终用户不可能象数据仓库系统管
理员或开发人员那样熟悉数据库技术,
因
此迫切需要有一个“翻
译”,能够使他们清晰地理解数据仓库中数据的含意。元数
据可以实现业务模型与数据模
型之间的映射,
因而可以把数据以用户需要的方式
“翻译”出来
,从而帮助最终用户理解和使用数据。
(6)
元数据是保证数据质量的关键
数据仓库或数据集市建立好以后,
使
用者在使用的时候,
常常会产生对数据
的怀疑。这些怀疑往往是
由于底层的数据对于用户来说是不“透明”的,使用者很
自然地对结果产生怀疑。
而借助元数据管理系统,
最终的使用者对各个数据的来
龙去脉以及数据抽取和转换的规则都会很方便地得到,
这样他们自然会对数据具
有信心;
当然也可便捷地发现数据所存在的质量问题。
甚至国外有学者还在元数
据模型的基础上引入质量维,从更高的角度上来
解决这一问题。
(7)
元数据可以支持需求变化
随着信息技术的发展和企业职能的
变化,
企业的需求也在不断地改变。
如何
构造一个随着需求改变而平滑变化的软件系统,
是软件工程领域中的一个重要问
题。
传统的信息系统往往是通过文档来适应需求变化,
但是仅仅依靠文档还是远
远不够的。
成功的元数据管理
系统可以把整个业务的工作流、
数据流和信息流有
效地管理起来
,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。
5.
元数据业界标准
没有规矩不成方圆。
元数据管理之所
以困难,
一个很重要的原因就是缺乏统
一的标准。在这种情况下
,各公司的元数据管理解决方案各不相同。近几年,随
着元数据联盟
MDC
(
Meta Data Coalition
)的开放信息模型
OIM
(
< br>Open
Information Model
)
p>
和
OMG
组织的公共仓库模型
CWM
(
Common Warehouse
p>
Model
,如图
2
所示)标准的逐渐完善,以及
MDC
和
OMG
组织的合并,为数
据仓库厂商提供了统一的标准,从而
为元数据管理铺平了道路。
p>
CWM
为数据仓库和商业智能(
BI
)工具之间共享元数据,制定了一整套关
于语法和语义的规范。它主要
包含以下四个方面的规范:
(1) CWM
元模型(
Metamo
del
):描述数据仓库系统的模型;
(2) CWM XML
:
CWM
元模型的
XM
L
表示;
(3) CWM DTD
:
DW/BI
共享元数据的交换格式
(4) CWM IDL
:
DW/BI
共享元数据的应用程序访问接口(
A
PI
)
CWM
通过以下几方面提供很强的对象模型:
< br>
UML
< br>:以通常方式定义元数据结构及语义的标准语言;
XML
:作为互换机制的标准,用于
共享元模型及在
UML
中以
XML
p>
定义模
型;
MOF
:(
Meta Object
Facility
)定义协同元模型的公用接口及语义。包括
M
OF-to-IDL
(接口定义语言)映射,定义了一个接口规范标准用于通过
API
访
问、发现、管理模型。
(1)
元模型(
BASE
)包
构造和描述其它
CWM
包中的元模型类的基础。它是
UML
的一个子集,由
以下四个子包组
成:
1)
核心(
Core
)包:它的类和关联是该模型的核心,其它所有的包都以它
为基础。
2)
行为(
Behavioral
)包:包括描述
p>
CWM
对象行为的类与关联,并且它
为描述
所定义的行为提供了基础。
3)
关系(
Relationshi
ps
)包:包括描述
CWM
对象之间关
系的类与关联。
4)
实例(
Instance
)包:包括表示
CWM
分类器(
Classfier
)的类与关联。
(2)
基础包(
Foundation
)
它包括表示
CWM
概念和结构的模型元素,
这些模型元素又可被其他
p>
CWM
包所共享,它由以下六个子包组成:
1)
业务信息(
Business Information
)包:包括表示模型元素业务信息的类
与关联。
2)
数据类型(
Data Types
)包
:包括表示建模者可以用来创建所需数据类
型的结构的类与关联。
3)
表达式(
Expressions
)包:包括表示表达式树的
类与关联。
4)
关键字和索引
(
Keys and I
ndexes
)
包:
包括表示键和索引
的类与关联。
5)
软件发布(
Software
Deployment
)包:包括软件如何在数据仓库中发布
的
类与关联。
6)
类型映射(
Type Mapp
ing
)包:包括表示不同系统之间数据类型映射的
类与关联。
(3)
资源包(
Resource
)
用于描述数据资
源的包,包含用于定义数据源(数据仓库行为的源或目标)
及逻辑模型的元模型。它包括
以下四个子包:
1)
关系(
Relational<
/p>
)包:包括表示关系型数据资源的元数据的类与关联。
2)
记
录(
Record
)包:包括表示记录型数据资源的元数据的类
与关联。
3)
多维(
Multidimens
ional
)包:包括表示多维数据资源的元数据的类与关
联。
4)
XML
包:包括表示
XML
数据资源的
元数据的类与关联。
(4)
分析(
Analysis
p>
)包
提供数据仓库经常用到的信息分析模型。数据移动、转换、分析模型(立方
体、维、属性、层次或级),用于构造数据挖掘的元数据,信息可视化及发布的
核心
元模型。它由以下五个子包组成:
1)
转换(
Transformat
ion
)包:包括表示数据抽取和转换工具的元数据的
类与关联
。
2)
OLAP
包:包括表示
OLAP
工具的
元数据的类与关联。
3)
数据挖掘(
Data Mini
ng
)包:包括表示数据挖掘工具的元数据的类与关
联。
4)
信息可视化(
Information Visualizat
ion
)包:包括表示信息可视化工具
的元数据的类与关联。<
/p>
5)
业务术语(
Business Nomenclature
p>
)包:包括表示分类业务的元数据的
类与关联。
(5)
< br>管理(
Management
)包
用于描述数据仓库管理的包,
提供表现数据仓库处理及操作的元模型。
事件
< br>安排模型(例如,日常抽取及装载)跟踪活动状态及完成情况,改变数据仓库元
素
的日志。它包括以下两个子包:
-
-
-
-
-
-
-
-
-
上一篇:SWOT矩阵分析
下一篇:【良心出品】个人SWOT分析及职业生涯规划