您现在的位置:e-works > 百味书屋 > 书籍列表 > 商业智能深入浅出——Cognos,Informatica技术与应用 > 数据仓库实施详细步骤

第三章 商业智能数据仓库的理论知识

第八节 数据仓库实施详细步骤

    3.8.1  需求分析

    需求分析是数据仓库项目最重要的一个环节,如果需求分析不准确,会直接影响客户的使用,最终导致商业智能项目的失败。为了避免最坏的情况,将采取以下措施和方法去完善需求分析。

    1)尽可能与客户一起分析需求,引导客户将项目所要实现的整体框架和业务细节部分描述清楚,最佳途径就是需求人员和设计人员通过原型与客户讨论,从而正确理解客户实际的业务需求。

    2)同时必须实事求是地将数据仓库所能实现的目标和不容易解决的问题与客户界定清楚,每一步的需求都需要和客户进行签字确认。

    在需求讨论的基础上,需要理解客户的业务工作流程,当然如果我们已经在这一行业中积累了丰富的业务知识,同时具备了引导客户的能力,可以在需求调研的时候尽可能地让客户按照自己的思路去完成数据仓库系统的功能设计。根据商业智能项目的特点,可以将客户分成以下几类:数据查询客户、报表查询客户、企业决策者,通过与他们的沟通交流,帮助客户理清思路,尽可能获知他们的需求信息,同时需要对客户讲解数据仓库的框架知识,包括数据仓库的概念,数据仓库系统能解决什么问题,和一般的应用系统有什么区别。最好将以前成功的商业智能项目讲解给客户,使客户理解处理当前数据需要的时间周期,系统可以支持的客户访问量、报表格式和展示方式等内容。在此基础上,可以完成商业智能项目整体的规划和对每一个开发阶段的清晰界定。最后需要跟客户沟通的是在对数据准确性的校验上,在现有的客观条件下,所能保证的数据仓库系统在抽取、清洗、转换过程中允许出现的误差率,如图3-28所示。

    商业智能决策分析系统的实际需求通常并不确定,因为需求不断地发生变化,这无形中增加了设计者理解客户实际需求的难度。一般情况下,客户能够提供的都是需求的整体框架部分或者是实际需求的一部分内容,不能预见未来需要增加的需求,这也注定了商业智能决策分析系统的开发是一个不断循环、反馈,使系统不断完善增长的过程。同时,为了最大限度地减少需求变更,我们在需求采集的过程中制订出详细的调研计划,采用切实可行的调研方式跟客户沟通和交流,从而了解客户最真实的需求。其中最常见的调研方式就是问卷调查,会议调研或者电话沟通等,如图3-29所示。我们需要充分利用调研的宝贵时间,利用一切资源,充分了解企业不同层面的各类人员的实际需求。当需求完成时,需要对采集结果进行分析、归纳、整理,最终形成完整的需求分析报告。
 

数据仓库的逻辑框架结构


数据仓库的逻辑框架结构

图3-29  常见的调研方式

    业务需求的实施目的就是真正理解企业决策者的战略性目标和企业建立商业智能系统的根本目的。在理解建立商业智能系统目标的基础上,建立有效的企业管理模式,制定出详细的企业数据仓库业务管理规范,设计出常用的ETL数据采集规范和工作流程,从而明确商业智能系统的实施范围和目标。为了提高企业的分析决策能力,可以利用当下的局域网技术和互联网技术实现企业对各种信息的查询和分析,通过建立企业业务数据模型,分析商业智能系统的系统架构,数据源之间的差异,对数据质量的评估和各种信息的处理方法,有效地提高了企业商业智能系统的分析和决策能力。

    3.8.2  数据仓库的逻辑分析

    数据仓库在逻辑上可以分成操作型数据库、数据仓库层、数据集市层、数据分析应用层和报表展示层,如图3-30所示。

 
图3-31  ODS数据缓冲区与业务数据的关系

图3-30  数据仓库的逻辑框架结构

    3.8.3  设计ODS系统

    ODS可以有两种形式:ODS 数据缓冲区和ODS统一信息视图区。

    (1)ODS数据缓冲区

    ODS数据缓冲区是业务数据流动过程的第一个存储区,实现了数据仓库从各个业务系统的数据源中将数据抽取出来,并且装载到ODS数据缓冲区的这一过程,从而实现统一的、全局的企业数据平台,为以后的数据抽取、清洗、转换过程打下了坚实的基础。对于数据量大的数据源可以采用增量的方式进行抽取,对于经常变化更新的数据一般采用全量的方式进行抽取。ODS数据缓冲区具有实时性的特征,ODS系统将各个孤立的业务系统的生产运营数据集成起来,组成统一的、全局的企业数据交换平台。ODS数据缓冲区与业务数据的关系如图3-31所示。

ODS统一信息视图区与各业务系统之间的关系

图3-31  ODS数据缓冲区与业务数据的关系

    (2)ODS统一信息视图区

    ODS统一信息视图区是指有选择地集成各类业务源数据,对数据进行抽取、清洗、转换操作,以数据主题域为数据集成的基础,对数据进行分类和组织,使用户能够通过统一信息视图区获得跟某个主题域相关的实时性数据。各业务系统和ODS统一信息视图区可以互相访问,可以生成具有实时性的操作性报表和查询某一主题的近期全部信息。ODS统一信息视图区与各业务系统之间的关系如图3-32所示。

 ODS统一信息视图区与各业务系统之间的关系

图3-32  ODS统一信息视图区与各业务系统之间的关系

    (3)ODS数据缓冲区和ODS统一信息视图区的区别和共同点

    ODS数据缓冲区主要为业务源数据抽取到数据仓库中提供中间数据缓冲的功能,与ODS统一信息视图区最大的区别就是数据抽取、清洗、转换、加载的转换规则和数据存储的方式不同。ODS统一信息视图区是完全按照主题的方式进行数据存储,向用户提供快速的报表展示和数据实时查询的功能。而ODS数据缓冲区的ETL规则一般只进行简单的汇总、计算,或者从操作型数据库中直接抽取而中间不进行任何转化。ODS统一信息视图区的数据一般都是从ODS数据缓冲区中抽取过来的。ODS数据缓冲区和ODS统一信息视图区如图3-33所示。