第一十二章 数据抽取、转换和加载

第七节 ETL 数据质量的改进

    12.7.1  ETL数据质量分析

    因为传统的业务系统多以内部自身的需求为支撑点,进行相对独立的设计和开发,而缺少对企业整体情况的考虑,在企业内部信息中形成了许多信息孤岛。所谓信息孤岛,是指信息之间不共享,信息与业务流程之间相互脱离,好像海洋当中的一个个的孤岛,不能满足信息之间共享的需求,主要体现在:

    1)不同的业务系统中存在数据不一致的现象,例如人力资源系统中的公司员工信息和财务系统中的公司员工信息不一致。

    2)数据杂乱、分散,在同一系统中出现系统数据和人工处理的数据并存的现象。

    3)数据格式不统一,相同数据存在多样性的特点。

    4)数据信息存在严重缺失、不完整的现象。

    ETL数据质量改进的困难体现在:

    1)数据量较大,数据类型不统一。

    2)数据质量没有一个清晰明确的标准和定义。

    3)系统的改造和升级或者是人为因素,都可能导致数据的混乱。

    综合以上几种情况,在进行ETL数据质量分析时,需要不断进行修正,尽量使该系统的编码满足编码规范和要求。可以采取使用代理键的方法去维护编码的可追溯性和唯一性,除此以外,还需要过滤系统的垃圾数据,建立人工映射表去统一和匹配编码不一致的部分数据。

    12.7.2  ETL数据质量改进的方法和目标

    ETL数据质量主要从技术层面、管理层面、业务层面等角度去分析和改进。

    1)从技术层面来说,需要对源数据进行清洗,以过滤掉垃圾数据和存在不一致性的数据,同时需要对源数据的质量进行评估,然后根据业务实际情况设计出完整的数据质量改进方案。

    2)从管理层面来说,应该切实保证从业务系统源数据到数据集市中各个环节的数据的正确性、一致性和完整性。

    3)从业务层面来说,对源数据的抽取需要遵循相应的业务规则,将ETL的过程流程化、规范化。

    ETL数据质量的目标分为以下几个部分:

    1)完善企业各个部门之间信息数据的共享,消除信息孤岛的现象。

    2)对现有的数据进行标准化和规范化。

    3)规范ETL设计和开发的流程,实现对每个流程的监督。

    4)制定相应的数据质量标准。

    12.7.3  推动ETL数据质量改进的方法

    推动ETL数据质量的改进,关键是管理层、领导层的重视,能够保证有效的资源投入,让企业各个级别的部门都重视数据质量的问题。同时配有相应的监督措施,通过分步骤实施、不断完善的原则查找每个分析主题中数据质量的缺陷,检查从业务生产系统到数据仓库、数据集市中各个环节的计算方法和转换步骤,检查每一个环节和流程是否正确,层层推进,从而保证ETL数据质量的提高和改进。