第三章 商业智能数据仓库的理论知识

第二节 数据仓库的特点

    3.1节归纳了数据仓库的特点:

?  面向主题的。

?  集成的。

?  稳定性。

?  反映历史变化。

?  数据仓库的特点如图3-1所示。

 数据仓库的特点

图3-1  数据仓库的特点

?  下面将分别介绍数据仓库的这些特点。

?  3.2.1  面向主题

?  普通的操作型数据库主要是面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行的归纳和整理。面向主题的数据组织可以分成两部分:根据原系统业务数据的特点进行主题的抽取和确定每个主题所包含的数据内容,例如典型的主题包括:客户主题、产品主题、财务主题等,而客户主题包括:客户基本信息、客户信用信息、客户资产信息等内容。在分析数据仓库主题的时候,一般的方法是先确定几个基本的主题,然后再将范围扩大,最后再逐步求精,如图3-2所示。

 面向主题的方法

图3-2  面向主题的方法

?  3.2.2  集成性

?  面向操作型的数据库通常是异构的、并且相互独立,所以无法对信息进行概括和反映信息的本质。而数据仓库中的数据是经过源数据的抽取、清洗、转换、加载得到的,所以为了保证数据不存在二义性,必须对源数据进行编码的统一和必要的汇总,以保证数据仓库内数据的一致性。数据仓库在经历数据集成阶段后,使数据仓库中的数据都遵循统一的编码规则,并且消除许多冗余数据。

?  集成一般有如下两种形式:

?  (1)数据的集成

?  当数据从操作型数据传向数据仓库时,数据就会被集成,如图3-3所示。

 数据的集成

图3-3  数据的集成

?  (2)编码的集成

?  当数据仓库是从原有分散的源数据库抽取出来的时候,为了消除编码的不一致性,需要将这些来自不同数据源的数据编码集成起来,使之遵循统一的编码规则,如图3-4所示。

  编码的集成

图3-4  编码的集成

?  3.2.3  稳定性

?  数据仓库中的数据反映的都是一段历史时期的数据内容,它的主要操作是查询、分析而不进行一般意义上的更新,一旦某个数据进入到数据仓库后,一般情况下数据会被长期保留,当超过规定的期限时才会被删除。通常数据仓库需要做的工作就是加载、查询和分析,一般不进行任何修改操作,是为了企业高层人员决策分析之用,如图3-5所示。

 数据的加载

图3-5  数据的加载

?  3.2.4  反映历史变化

?  操作型数据库主要反映某一时间段内的数据,而数据仓库的目标就是对企业的发展趋势作出分析和预测。数据仓库不断从OLTP数据库中获得变化的数据,从而形成分析和预测需要的历史数据,所以一般数据仓库中数据表的键码都含有时间键,以标明数据的历史时期信息,然后不断增加新的数据内容。通常来说,数据仓库包含的时间期限大概是5~10年,当超出规定的期限时,需要删除这些过时的数据。通过这些历史信息可以对企业的发展历程和趋势作出分析和预测。同时要清楚,数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理,最后提供给决策分析人员,这是数据仓库建设的根本目的,如图3-6所示。

 操作型数据库和数据仓库的区别

图3-6  操作型数据库和数据仓库的区别