-
这是
IT
pub
上一
篇帖子引发出的问题,
以前还真没去仔细思考这个问题:
为什么
要建立数据
仓库,数据仓库和数据库的区别?因为理论上的优点说法都很多,但要真正很
好地理解,能
简洁地向客户阐述明白,让客户觉得建立数据仓库是一件值得做的事情,还
是值得讨论一下
这个问题。有如下一些朋友们说法(自己在批注处谈点个人的意见)
p>
:
A
数据库是一个装数据
(信息的原材料
)
的地方。
数据仓库是一种系统,<
/p>
这种系统也是用数据
库装东西。
(这有点
没说清楚:
个人理解数据库和数据仓库当然都是装数据的地方,
关键的区
别是装的什么样的数据,数据库装的原始数据,没经过任何加工;而数据仓库是
为了满足分
析需要,对源数据进行了
Transform
过程,具体是怎样一个处理过程,可以从
Bill Inmon
的仓库定义四个特性进行理解。
)
数据仓库系统
(用数据库装东西)
与其他基础业
务系统
(例
如财务系统、销售系统、人力资源系统等,也是用数
据库装东西)的区别是:
基础业务系统
的特点是各管各的,例如财务系统生产了白菜,那么用一个数据库来装,人力资源系统生产
了猪肉,再用一个数据库来装。我要做一道菜,需要分别到各个数据库去取,比较麻烦(现
< br>实的情况是大部分时候让种菜的农民伯伯送过来,但送过来的东西不一定是我想要的,而且
不同的时候我想要不同的东西,
经常会被农民伯伯骂,
弄得双方都不开心)
。
另外一方面,
各
个数据库中放的是一些比较原始的东西,我要拿过来做菜,还需要经过很麻烦的清洗过程
,
一不小心里面可能就藏着一条大青虫。
那么,
数据仓库系统就是建立一个大的超市,
将各地
农民伯伯出产的东西收集过来,清洗干净,分门别类地放好。这样,你要哪种菜的时候,直
p>
接从超市里面拿就可以了。
B
早期一直不理解数据仓库是什么困惑得很。
< br>宏观一点讲,
数据仓库就是堆放公司所有数据的
地方,<
/p>
之所以把数据都堆在一起,
是为了从中间找到有价值的东西。
p>
数据仓库更多的是一个
概念,
不要把数据仓库想成那些号称是数据仓库的软件产品们。
(数据仓库的建立
和数据挖掘
都是一个过程,
可以从数据仓库生命周期和
OLTP
系统生命周期的区别进行理解,
数据挖
掘过
程
CRISP-
DM
)
数据仓库的物理上就是数据库
。相对业务系统数据库叫
OLTP
数据库(用于业
务处理)
,
这种数据库叫
O
LAP
数据库
(用于业务分析,
不知道
有没有这种说法,
个人觉得
OLAP
和
数据库还是不能简单地称为
OLAP
数据库的;
OLAP
是针对特定问题的联机数据访问和数据
分析而
产生的一种技术,它满足
DDS
从多种角度对数据进行快速、一
致、交互地分析,克服
传统
DDS
交互
能力差的弊病,
使决策者能够对数据进行深入观察。
OLAP<
/p>
服务器使用为用户预
定义的多维数据视图对数据仓库的信息进行统
计分析处理,为具有明确分析范围和分析要求
的用户提供高性能的决策支持在线分析处理
,
只是基于
DW
上的一种多维分析方式
,
当然我也
可以不用
OLAP
,
直接做基于
DW
的<
/p>
DM
)
。
数据仓库的概念是针对以下基本需求产生的:
公司
的业务系统很多,业务系统的历史数据不方便查询。不同的业务系统往往管
理部门不同,地
域不同。
能不能将所有这些数据集中起来,
p>
再淘淘有没有有意义的业务规律。
数据仓
库数据
库往往很大,因为公司所有的数据集中得越多,越能淘到有价值的发现。例如随便
就
100G
以上。
< br>数据仓库的组成十分繁杂,既有业务系统的历史数据,又有人事、财务数据,还要自
己建一些基础性的数据,例如,公共假期数据、地理信息、国家信息等等。
数据仓库概念包
含从业务生产系统采集数据的程序,
这个程序还不能影响业务系统的运行。
(属于所谓
“
ETL
”
过程)
<
/p>
数据仓库包括业务系统长期的历史数据,例如
5
< br>年,用来分析。
(所谓“
ODS
”数据)
数据仓库包括针对某相业务值
(例如销售量)
重新打上标签的业务流水数据。
(所谓
“事实表”
、
-
-
-
-
-
-
-
-
-
上一篇:IBM SPSS 建模
下一篇:描述老年人性格的成语