数据仓库工程师面试题特征工程的表属于哪一层

一种基于特征值的数据仓库主题搜索方法
一种基于特征值的数据仓库主题搜索方法
摘&& 要: 在分析数据仓库主题特征的基础上提出了一种搜索方法,能够从关系数据库中自动搜索最具有数据仓库主题特征的表。这种方法可以用于在数据仓库设计中辅助确定主题。
关键词: 数据仓库& 主题& 关系数据库
  随着计算机技术的发展,信息系统在企业中得到了广泛的应用。市场竞争使得企业对信息化提出了新的需求,即要求以操作数据库为基础,建立数据仓库(DW),对积
摘&& 要: 在分析数据仓库主题特征的基础上提出了一种搜索方法,能够从关系数据库中自动搜索最具有数据仓库主题特征的表。这种方法可以用于在数据仓库设计中辅助确定主题。
关键词: 数据仓库& 主题& 关系数据库
  随着计算机技术的发展,信息系统在企业中得到了广泛的应用。市场竞争使得企业对信息化提出了新的需求,即要求以操作数据库为基础,建立数据仓库(DW),对积累的海量数据进行整理、汇总、挖掘,为企业提供决策支持。相应地,数据仓库理论与应用方面的研究也就成为了学术上的研究热点。在目前的数据仓库设计中,一般都是通过需求分析来确定主题。而这种方法是主观的,它依赖于设计者的经验和需求分析的准确性,缺乏客观的评估标准和可信度。本文根据数据仓库主题的特征属性,提出了一种搜索方法。此方法能够自动地从关系数据库中寻找具有这种数据仓库主题特征的表,为数据仓库设计的主题选择提供辅助参考。
1& 相关概念
  数据仓库的主题即中心事实表,表现为多维数据模型,与关系数据库中的表存在一定的耦合关系。通过数据仓库主题特征的分析可知,关系数据库中某些表与数据仓库的中心事实表具有一定程度的相似性,被称为具有一定程度的数据仓库主题特征,它们可以作为数据仓库中心事实表的原型。这些表具有这样的特征;有较多的外键和视图数;通常都直接或者间接包含有数值类型和时间类型的属性字段;有比较大的元组数。这样的表在业务操作系统的关系数据库中是最核心的基础信息表,记录了各种详细的操作数据,是各种统计分析的数据来源,最适合作为确定数据仓库主题的参考对象。下面对关系数据库中表的数据仓库主题特征以及主题选择法则进行定义。
  为了便于说明,以集合的形式进行描述。给定一个关系数据库&O={R1,R2,&&,Rn},Ri为数据库中的关系表,n为数据库中关系表的个数。对于每个表Ri,其元组集合为Ti,Ri的字段(属性)集合为Ai={a1,a2,&&,ap},Ri上的外键集合为Fi={f1,f2,&&,fq},Ri上的视图集合为Vi={v1,v2,&&,vk}。
  定义1(外键特征值f):若数据库&O中表Ri的外键数为S(Fi),所有的表外键数中最大值为S(F)max,则表Ri的外键特征值fi=S(Fi)/S(F)max。
  数据仓库中事实表和维表的关联程度体现了数据的粒度特征,外键特征值表征了关系数据库中表的粒度特征。
  定义2(数值特征值n):对数据库&O中表Ri的字段属性集合Ai={a1,a2,&&,ap},如果存在有am&Ai,并且am为数值类型,则表Ri的数值特征值ni=1,否则ni=0。
  数据仓库的事实表是用数值来度量的,所以具有数值字段的表更有可能成为数据仓库的事实表。
  定义3(时间特征值d):对数据库&O中表Ri的字段属性集合Ai={a1,a2,&&,ap},如果存在有an&Ai并且an为日期类型,则表Ri的时间特征值di=1,否则di=0。
  数据仓库事实表中的数据具有显式的或者隐式的时间属性。因此在选择数据仓库中心事实表时,应考虑表中是否具有或者隐含了时间类型的字段。
  定义4(视图特征值v):数据库&O中表Ri上的视图集合为Vi={v1,v2,&&,vk},视图数为S(Vi),数据库中所有的表视图数中最大值为S(V)max,则表Ri的视图特征值vi=S(Vi)/S(V)max。
  在源数据库中,一个数值字段多次被用来建立视图或进行Group By计算,说明它的利用率很高而且是经常被汇总查询的数据量,这符合数据仓库中对主题数据的需求。
  定义5(元组特征值):数据库&O中表Ri中的元组数为S(Ti),所有元组数中最大值为S(T)max,则表Ri的元组特征值ti=S(Ti)/S(T)max。
  所谓元组数,也就是表中记录行数。通常,一个没有记录或者记录很少的表的利用率是很低的。而数据仓库中的主题是用来辅助决策的,需要大量的数据,所以该特征值用来表征事实表中存储的数据量。
定义6(主题特征值Md):上述五个定义给出了数据库&O中表Ri的主题相关属性值,其中外键特征值、数值特征值、时间特征值和视图特征值都是静态的,元组特征值是动态的。取静态特征值的平均数与动态特征值的乘积作为表的主题特征值,定义表Ri的主题特征向量为Md=t*(f+n+d+v)/4。
  有关数据仓库主题特征更详细的讨论,请参见文献[3]。
2& 搜索算法
  对于数据库&O中的所有表,以它们的主题特征值Md作为度量的标准。Md越大的表,越具有数据仓库的主题特征,越适合作为建立数据仓库的中心事实表。由此设计出一种算法,能够自动地对关系数据库中的所有表进行遍历搜索,找出数据库中最具有数据仓库主题特征的表。
  此算法的步骤如下:
  (1)首先进行初始化,配置有关数据库信息,定义算法中使用的数据结构。
  (2)对数据库中的表进行遍历,计算各个表的特征值对应的统计数:外键数、数值字段数、时间字段数、视图数和元组数,把表的名称和五个特征值对应的统计数赋值给步骤(1)所创建的数据结构。
  (3)计算并找出各项表统计数中的最大值,作为计算归一化特征值的参考值。
  (4)对步骤(2)中保存了表的各项统计数的数据结构进行遍历,对各个表的各项统计数进行归一化计算得到其主题相关特征值,并计算各表的主题特征值Md。
  (5)按照Md的值,从大到小地输出结果集。Md越大的表越具有数据仓库主题特征,越适合作为数据仓库事实表的备选项。
  在数据库管理系统(DBMS)中,数据库对象的信息都保存在系统表或者用户表中,因此可以通过编写程序实现本文提出的搜索算法。在MS SQL Server 2000中用存储过程实现该搜索算法的代码如下:
3& 应用实例
  运用此算法对山东青岛某中型集装箱国际货运公司的业务数据库进行了搜索。该数据库中积累了二年的业务数据,经过搜索得到按照Md从大到小排列的前十个输出结果如表1所示。
  对上面十个表进行简单分析:序号1为集装箱动态表,记录了每个集装箱的动态信息;序号2、3为业务费用相关表,记录船务系统所有业务产生的收支费用信息;序号4、5、6、7、8、9、10为进出口业务单证相关表,记录船务系统的定舱、装箱、货物、货主等详细信息。集装箱动态、业务费用和业务单证是集装箱海运系统最主要的业务数据,是海运物流决策支持系统的核心分析数据,最适合作为集装箱海运数据仓库的中心主题,这与通过需求分析得到的结果是基本一致的。
  利用主题特征搜索数据仓库的主题对于数据仓库的设计有着实际意义。一方面可以将搜索的结果与通过需求分析确定的数据仓库主题进行参照对比,判断需求分析和设计的客观性;另一方面,可以对未知的关系数据库进行快速分析,找出最具有数据仓库主题特征的表,辅助数据仓库设计人员确定主题事实表。但是,目前对数据仓库主题特征的研究还不是很彻底,对主题特征相关特征值之间的比例关系基本上是平均考虑。如何设定各特征值的权重,使搜索结果更理想,是需要进一步深入研究的问题。
1&& Theodoratos D,Sellis T.Designing data warehouses.Data && Knowledge Engineering.1999;(31)
2&& orger J L,Vossen G.Multidimensional normal forms for&data rmation Systems.2002;27
3&& 刘娟,段成华.评估数据仓库主题兴趣度的Md距离测度方法.计算机应用与软件.2003;(20)
4&& Inmon W H.数据仓库(第二版).北京:机械工业出版社,2000
上一篇:已经是第一篇
型号/产品名
苏州飞梭电子有限公司
深圳市硅虎电子有限公司数据仓库 | 网站数据分析数据仓库数据质量管理的研究-共享资料网
数据仓库数据质量管理的研究
专业学位硕士学位论文数据仓库数据质量管理的研究StudyonDataQuality Managementin DataWarehouse学号:41106059指导教师: 完成日期:塾壹鲨麴援 窒Q!兰生!Q旦2鱼目大连理工大学Dalian University of Technology 大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。学位论文题目:丝坚型生塾盗丛羔皇堡堕鸳塑作者签名:――霉上生塑}――一日期:―坐年j三月j上日 大连理工大学专业学位硕士学位论文摘要二十一世纪,科学技术日新月异,大量的信息和数据扑面而来,企业需要多角度处理海量数据并从中获取决策支持的信息,面向事务处理的操作型数据库就显得力不从 心,而面向主题集成海量数据的集成型数据仓库应企业的需求,开始快速发展起来。 数据仓库,即数据的集合,它的特点是相对稳定,主要功能是为企业提供服务,在企业的决策和分析问题中,不仅可以管理好企业的海量数据,还可以挖掘这些数据潜在的价值,从而使企业的资源得到最优化的分配,提高了企业资源的利用率,提升了企业的协同能力、竞争能力,并为企业注入新的活力,提高其创新能力。相对于国外企业而言,国内企业的信息化建设周期较短,而计算机技术的发展和企业业务的发展均很迅速, 因此很多企业从信息化建设伊始,便忙于对信息系统的不断整合或升级,但是却忽略了对数据本身的管理。同时,数据质量的高低也同样能够对企业的发展起到至关重要的作 用,低质量的数据会影响、甚至阻碍企业决策的准确性,相反,高质量的数据却可以推动企业对于决策的准确性的判断。目前,数据仓库已经得到企业的广泛认可,而随着它 们在企业中的应用,数据的质量成为了越来越多企业所关注的问题,也成为了建设数据仓库项目的决定性因素。本论文在对大量文献做了调查的基础上,结合实际情况,采用理论研究、问题分析、实例验证等方法来研究数据仓库项目中的数据质量管理办法。主要研究内容包括:(1)通过对国内外数据质量的相关文献进行调查,研究,总结出数据质量的一些 基本理论,并简单叙述了数据质量管理的一些方法论; (2)分析数据质量问题的来源、实质和产生环节,并对数据质量的检查提出了一 些检查规则,并制定了检查过程,从而能够为确保数据质量找出有效的管理措施; (3)结合自身工作经验,以某银行所应用的数据仓库为例,对其所采取的数据管理系统进行分析、研究,从而为上面提出的有效管理措施提供可供参考的案例。关键词:数据仓库;数据质量;检查规则;管理办法;管理系统 数据仓库数据质量管理的研究StudyonDataQuality Management in Data WarehouseAbstractThe science and technology change rapidly in 21 st century.Large amounts of data coming.Enterprises need processing these data OLTP is inadequate,data warehouse A data warehouse is ofdata in support is to optimize theaareandobmin decision knowledge from them.technologyoriented.subject―oriented,integrated,time-variant,and nonvolatile collectionprocess and operationofmanagement’S decision makingresourceanalysis.Objectiveallocation,improve the resource sharing and collaboration of thecoreenterprise,SOastoimprove thecompetitiveness and innovation.Data warehousetechnologycarlwakeup the enterprisedataaccumulated over the years.Data warehouse notonly manage these data,but also find the potential value from these data.Compared to foreignenterprises,domestic enterprises system construction cycle is short,and the development ofcomputertechnology and businessarevery quickly.A lot of enterprises were busyonsystemintegration and upgrade datacallat the beginning,butthey ignored the data management.High qualityimprove the accuracy of decision―making in enterprises,while the low quality of thedata has the opposite becomesaeffect.Wim thein-depth application of data warehouse,data qualitykey issue related to the data warehouseprojectissuccess orfailureand datacanbeeffectively applied. Basedcase onthe theory and practice of the principles,this paper uses theoretical research,analysis and other methods to solve issues of data quality in data warehouseproject.Themain content includes: 1.Introduce the concept of data data qualityquality andanddata warehouse;expatiate the method formanagement.essence2.Analyze the source,the ruleall aspects of data quality issues;design checkand maintenanceflow for dataquality management;put forwardathe solution for dataquality management.3.Combining with the working experience,provide management which verified by warehouseareferencecase afor dataqualitydata qualitymanagementplatform inbanking dataproject.Warehouse;Data Quality;Check Rule;Management Method;KeyWords:DataManagement SystemII 大连理工大学专业学位硕士学位论文目摘录要…………………………………………………………………………………………………………….I 绪论………………………………………………………………………………………………………………1 1.1研究背景与意义……………………………………………………………….1Abstract……..........….........…….….............….…..…..…...….…….....….....................................II 11.2国内外数据质量的研究现状………………………………………………….11.2.1国外研究现状…………………………………………………………一1 1.2.2国内研究现状…………………………………………………………..3 1.3研究内容……………………………………………………………………….6 1.4研究方法与技术路线…………………………………………………………。6 1.4.1研究方法………………………………………………………………..61.4.2技术路线………………………………………………………………一72数据质量的基本理论………………………………………………………………..92.1数据仓库和数据质量…………………………………………………………92.1.1数据仓库定义…………………………………………………………92.1.2数据仓库系统的完整架构…………………………………………..102.1.3数据质量定义………………………………………………………..112.1.4对数据仓库中的数据质量的研究…………………………………..122.2数据质量管理方法论……………………………………………………….14 3数据质量分析与管理………………………………………………………………173.1分析与管理数据质量的必要性…………………………………………….173.2针对数据质量问题进行的分析…………………………………………….18 3.2.1数据质量问题的来源………………………………………………..183.2.2数据质量问题存在的实质…………………………………………。20 3.2.3产生数据质量问题的几个环节……………………………………~21 3.3数据质量管理办法………………………………………………………….23 3.3.1对数据质量进行检查的一些规则…………………………………。23 3.3.2数据质量检查过程…………………………………………………..24 3.3.3数据质量管理办法及其流程………………………………………..264数据质量管理系统设计……………………………………………………………294.1系统需求…………………………………………………………………….294.2数据质量管理系统的总体设计…………………………………………….29 数据仓库数据质量管理的研究4.3工作流程…………………………………………………………………….32 4.4功能实现…………………………………………………………………….34 4.4.1软硬件环境…………………………………………………………..34 4.4.2数据质量检查规则配置平台…………………………………………35 4。4。3数据质量检查规则执行平台………………………………………一37 4.4.4结果展现平台………………………………………………………..394.4.5知识库………………………………………………………………..404.4.6系统建立的模型……………………………………………………..41 4.4.7主要页面展示………………………………………………………~4l 5工程实例……………………………………………………………………………455.1实例介绍…………………………………………………………………….455.2数据质量管理目标…………………………………………………………..465.3数据质量管理组织………………………………………………………….47 5.4数据质量管理计划………………………………………………………….475.5数据质量实现管理化的实施过程………………………………………….49 5.5。l源系统配合管理化的实施…………………………………………..49 5.5.2对于仓库模型配合实施的检查……………………………………..515.5.3ETL开发配合实施采取的检查……………………………………。515.5.4监控及问题报告……………………………………………………..525.5.5数据质量管理跟踪检查………………………………………………536结论与展望…………………………………………………………………………566.1结论…………………………..………………………………………………………………………566.2展望………………………………………………………………………….57参考文献……………………………………………………………………………58致 谢…………………………………………………………………………………………………………..60大连理工大学学位论文版权使用授权书……………………………………………..61 大连理工大学专业学位硕士学位论文1绪论 1.1研究背景与意义随着数据库技术的不断发展,大数据量的,尤其是海量数据的系统越来越多。人们 对数据库的要求,已经开始由最初对于数据只是进行简单的查询和统计等要求上升为希 望能够通过对原始数据的深加工,从而能够从数据库中挖掘出有用信息,支持决策分析。如何有效利用已有的数据成为人们关注的问题,也正是在这样的背景下,数据仓库应运 而生。由于数据仓库在企业中具有很大的应用空间,并且可操作性强,因此一经面世就受 到了国内外很多企业的青睐。许多商业企业经过多年的信息化建设、应用和市场积累,已保存了大量原始数据和各种业务数据,这些数据真实地反映了商业企业主体和各种业务环境的经济动态。然而由于缺乏集中存储和有效管理,这些数据不能为本企业进行有 效的统计、分析和评估提供帮助。也就是说,无法将这些数据转化成企业有用的信息。 数据质量的高低也同样能够对企业的发展起到至关重要的作用,低质量的数据会影响、 甚至阻碍企业决策的准确性,相反,高质量的数据却可以推动企业对于决策准确性的判 断。目前,数据仓库已经得到企业的广泛认可,而随着它们在企业中的应用,数据的质 量成为了越来越多企业所关注的问题,也成为了建设数据仓库项目的决定性因素。虽然数据仓库得到诸多企业的认可,但是由于前期原始数据质量存在的问题,使得数据仓库在后期的实施中会出现严重的数据错误,而这些错误会造成客户对该数据仓库 所建立的数据不信任。这里以商业银行为例进行说明,随着科学技术的发展,以前的简 单的数据库已经不能满足商业银行的需求,而数据仓库的诞生,对商业银行来说,无疑 是一个必然的结果,但是也由于商业银行的特殊性,如果数据出现错误,不仅要支付高 额的维护费用,最主要的是会影响到决策制定的准确性,所以对于商业银行来说,是不 允许数据出现任何的错误,但是由于数据质量本身的问题,使得数据仓库不能保证数据 完全准确,因此,如何确保数据仓库的数据质量,对于数据仓库这个项目的建设来说,是一个生死攸关的问题。1.2国内外数据质量的研究现状1.2.1国外研究现状在上个世纪的60年代初期,便已经开始对数据质量有相关的研究,虽然研究的时间 并不算长,但是却是有一定的研究深度,这些研究不仅仅局限于简单的数据研究,并且 数据仓库数据质量管理的研究还对原始数据存在质量问题的原因进行了研究,并且将这些问题进行了系统性的分类, 并在此基础上提出了一些相应的改进措施。 20世纪60年代初,美国质量管理专家菲根保姆提出了全面质量管理概念(TDQM,Total Data QualityManagement)。60年代末,全面质量管理概念逐步被世界所接受,在运用时各有所长,在日本叫全公司的质量管硅J[(CWQC)。70年代末,国际标准化组织 (ISO)单独建立了负责制订质量管理国际标准的质量管理和质量保证技术委员会 (TCl76)。80年代末,正式发布了IS09000~9004质量管理和质量保证系列标准。进入90年代,软件产品的质量管理成为新的研究热点。的确,软件产品在过程控制、量化管理以及指标标准化等质量管理相关方面难度较大,导致了其特殊性。但是,随着软件产品向着大规模、可重用、国际标准化等方向的发展,实施全面质量管理也是必然的。QUEST论坛起始于1998年的法国,主要是希望在电信业和工业中建立一套完整的数据质量管理系统,从而提高其服务质量,并且能够得到合作伙伴的认可和支持,共同使企业得到全面发展;在英国,首先是由英国国民健康保险制度(NHs)在人口健康服务管理信息(PHSMI)领域中对数据质量进行了相关的研究,通过组建信赖团队(DA)来确保信息审计的完整性和一致性,从而维护数据的质量,提高公众对NHS的信任度; 在美国,1995年3月发行的第一本“数据质量”的年刊中,并已经开始对工业、医疗业 等行业中的数据质量进行了研究,并且对研究的目的,以及如何提高数据质量等从多个 方面进行了探讨;1996年的9月发表的第二刊中,以美国大学为例,对数据质量造成大学的分级的原因进行了研究,并对如何测量和提高开放环境中的数据质量进行了探讨; 在这之后,这本刊物仍然对数据质量进行研究,越来越多的人也开始关注到这个领域, 加入到研究的队伍中,同时,越来越多的研究成果也开始面世。在2004年的1月份,Larry P.English和Tom Redma成立了IAIDQ(IntemationalAssociation for Information and DataQuality),这是世界上第一个对数据信息质量进行研究的机构,这个机构的出现,不仅可以为那些担心由于数据质量的原因而造成亏损的企 业提供更专业的技术支持和专业化的管理,最终达到建立一个全球化的专业型机构的目的“1。TDQM是由麻省理工大学的Richard Y.Wang教授领导的研究小组基于工业和商业 等多个领域对数据高质量的要求提出的,TDQM的成立为提供专业化的数据质量技术服 务建立了完整的理论依据,并且在每年的十月份,这个小组都会组织一次针对数据质量的会议,以确保推动数据质量技术的积极发展瞳,…,其主要成果如下: 大连理工大学专业学位硕士学位论文(1)提出了全面数据质量管理方法,此方法由定义、测量、分析以及改进等四个阶 段构成。 (2)提出了数据产品的概念,认为数据的加工、存贮、使用与一般工业产品制造过 程类似,其数据质量控制等同于一般产品质量控制过程,并对其进行了形式化的描述。 (3)提出了AIMQ(AIM Quality)数据产品质量评估方法论,包括一个数据质量评估模型、评估数据收集方法以及评价方法。随着数据质量应用的广泛,数据质量问题也引起了越来越多的学者的关注,DwQ项目便是针对这一问题专门设立的研究项目,它是由法国等四个国家的研究机构共同创立 的,并且由欧洲ESPRIT提出资助的项目,该项目主要是建立企业模型,设定质量管理的概念等方法,并尝试着从元数据入手,嵌入质量管理模型,以期望能够解决数据质量管理面临的问题阻1。 关于数据质量管理的研究,目前有以下几个主要的切入点: (1)M.Jarke在基于概念(企业)、逻辑和物理这三个层次的数据仓库模式的构架,从设计入手,提出建立一套完整的数据质量管理体系畸1。(2)J.A.Rodero提出的按软件生命周期分阶段进行数据仓库审计方法,以软件的 生命周期为基础,全过程、全方位地控制、管理数据仓库的数据质量哺1。 (3)J.A.Rodero通过提取数据仓库中的数据,并且对数据的装载以及数据的存储 等步骤进行研究,并且对相关部件的执行标准进行分析,从而得出数据质量的控制标准f7]o1.2.2国内研究现状我国自1978年推行全面质量管理(简称TQC)以来,在实践上、理论上都得到了探索、总结和提高。 方幼林、杨冬青等人用定量的方法从13个方面对数据质量定量元素进行了描述;孟巍则在此基础上提出了“质量因子”这一定义陋?引,主要是利用计算方法将定量元素作用 于数据仓库对象上,从而构成完整的一套质量评价系统,如表1.1所示: 数据仓库数据质量管理的研究表1.1数据质量评价体系Tab.1.1 Evaluation System of DataQuality最终所要达到的质量目标是要由优化后的质量因子来进行描述的,这类衍生因子主 要是在初期由多个质量因子组合而成的。 方幼林、杨冬青等还利用定性的方法对一些非定量的元素进行了研究,主要内容包 含以下三个方面旧1; (1)目的:分析数据质量的原因,以及解决的目的; (2)用途:用来说明对于数据的生产者和使用者来说,数据集所使用的范围; (3)数据谱系:对数据集从最初的数据获取,后期对数据的编辑,以及现在的一个 状况这样一个完整的历史过程进行说明,而这一生命周期包含两个方面,即对数据信息 处理的过程,对重要事件处理后的处理信息。张芳通过建立三层的质量评价结构体系方法,来完善政府对数据质量的模糊统计综合评价n…,如图1.1所示: 大连理工大学专业学位硕士学位论文图1.1政府统计数据质量评价指标体系Fig.1.1 Indicator System of DataQualityEvaluation in Government Statistic其中,U1,U2,囝,U8:分别表示不同特征条件下指标的集合:Q1={U1,u2,u3}={准确性,及时性,相关性}:Q2={U4,U5,U6}={可比性,可衔接性,可理解性);Q3={u7,u8}={可获得性,有效性)。在确定每个指标的权重比例时,采纳的是美国匹兹堡大学教授T.L.Saaty提出的层 次分析法(AnalyticalHierarchyProcess.AHP),这种方法主要是通过将需要处理的复杂问题分解成为若干个不同元素,以总目标为基础,根据它们之间的相关关系来有序的进行 递阶层次的划分,通过对比,找出每个层次中的因素对于上一层次的因素的影响,从而构造出两两矩阵,并结合人的判断,来最终确定每个因素重要性的一个相对顺序,即利 用一种相对度量的方法来分目标、分功能的确定优先权数,从而达到有效处理它们之间 的相互关系。复旦大学以周傲英教授为首的研究小组提出了一个可扩展数据清洗框架的定义。该 清洗框架以术语模型、处理描述文件、共享库等概念和技术实现了模块功能的可定制、 系统的开放性和可扩展性““。北京大学在以唐世渭教授为首的小组用六元组的方法建立了针对数据质量评估的包 括数据集、规则、期望值等一些因素在内的模型,这个模型不仅对计算方法以及技术进 行了说明,还具有一个独特的创新就是借用量化指标完成了对数据质量模型的整个体统或是部分系统的评估n…。 数据仓库数据质量管理的研究东南大学以董逸生教授为首的研究小组也对数据质量及其在数据仓库中的应用做了 一些研究,他们丰要是提出了一个可实现的一般数据清理框架。分析了数据清理在数据 仓库中,特别是在ETL过程中所处的地位和作用,并研究了ETL工具中如何与数据清 理工作集成的问题n“。 近几年随着数据质量的不断研究,尤其是金融行业,数据均以指数逐年递增,信息 系统收集的信息量也是逐年增多,在这种情况下,我国国内很多银行都希望能够利用数 据仓库,推行数据质量管理技术,从而在如此激烈的竞争中能够提升企业的数据质量, 在面临选择时及时做出准确的决策,但是我国的金融行业数据环境相对较复杂,源系统 数目庞大,数据量也众多,最主要的是每个银行之间信息系统的数据定义以及其管理标 准也不完全一样,尽管有的银行借鉴以上研究向数据仓库环境转移数据时经过数据清 洗、数据转换等手段来处理,但是由于这些银行在管理上缺乏有效的方法,管理系统也 不完善,因此它们的数据质量也还是难以保证。1.3研究内容数据仓库建设由于其长期性、复杂性的特点,决定了这一项目改进的持续性,对于 系统的建设以及应用的推广,都要以数据的重要程度的不同为依据,制定出相应的评价 标准;而对于阶段目标,则需要按照“近期打基础,中期见成效,长期促战略”的原则 来制定。整体上来说,数据质量的改进是需要整个项目的全体员工共同合作、协调,一 起来完成的。 本论文以某商业银行建设数据仓库为例,通过对该银行在系统建设中遇到的问题的 来源以及实质做了系统性的分析,并对产生数据质量问题的各个环节进行了探讨,对数 据质量检查规则及检查过程进行了设计,设计和实现了数据质量管理系统,并以某银行 数据仓库项目的数据质量管理作为实例验证说明,从管理和技术的角度提出了银行业数 据仓库数据质量的管理办法。1.4研究方法与技术路线1.4.1研究方法 数据仓库中的数据是从多个源系统里面抽取,并经过转换得到的,也就是在这样的 处理过程中,会出现信息孤岛、应用碎片等一系列问题,并且由于部门之间的独立性,使得数据无法共享;每个部门只是根据自己的需求制定独立的业务系统,这样还会造成数据在存储和管理时不能集中进行处理,并且可能会出现重复收集数据的现象,这些问 大连理工大学专业学位硕士学位论文题都会对数据质量产生严重的影响,使得在应用时获得的数据信息不准确,从而造成管 理者在借鉴这些数据时无法正确的进行预测和制定决策。数据质量的准确性是数据仓库 项目能够成功建设并应用的决定性因素,随着企业对数据的需求越来越大,在确保数据质量的前提下以安全、高效的方式来管理数据,这是银行管理者所追求的目标,而这一目标的实现是需要一个重要因素的,那就是要科学、合理的对数据质量进行管理和控制, 从而确保数据仓库为管理者提供高质量的数据信息,为管理者能够做出正确的决策提供 数据依据。 数据质量的好坏这个问题始终贯穿整个数据仓库的建设过程。通过对公司多个银行数据仓库项目的实施情况调研,数据质量问题多产生在信息和技术相关的环节。针对数 据质量问题产生的环节,设计出两大类数据质量检查规则:记录级检查规则和指标级检 查规则。数据质量检查规则在具体使用时应根据需要进行细化和维护。数据质量的检查是要以有一定的检查规则为基础的,只有在制定了准确、正规化的规则后,才能保证脚 本编写的准确性,同时也只有以这些正确的脚本为前提,检查出数据质量存在的问题;同时,规则也不是一成不变的,要能根据检查结果定期对检查规则进行更新,对于一些不实用的规则可以进行人工删除;在实际的操作中,数据质量的检查会定期或不定期的 进行,系统会将检查后的结果自动保存到数据库中,质量管理小组或是管理层便可以根 据这些数据对数据质量管理系统进行分析和维护,通过对结果的分析来找出数据出错的 原因,以及出现错误的具体位置,并及时进行修护,从而确保项目的数据质量。 1.4.2技术路线 本论文研究技术路线如图1.2所示。 数据仓库数据质量管理的研究介绍研究背景及意义分析国内外研究现状研究内容、方法、技术路线数据质量基本理论 1)数据仓库和数据质量 2)数据质量管理方法论数据质量问题分析 1)问题来源分析 2)问题实质分析 3)具体产生环节数据质量管理办法 1)检查规则制定 2)问题检查过程 3)管理办法及流程数据质量管理系统 1)管理系统设计 2)工作流程制定 3)系统功能实现将管理系统应用于工程实例以论证其有效性及可靠性图1.2本论文研究技术路线Fig.1.2 Technology Route ofthe paper一8一 大连理工大学专业学位硕士学位论文2数据质量的基本理论2.1数据仓库和数据质量2.1.1数据仓库定义 数据仓库之父William H.Inmon的((Building theDataWarehouse》一书中提到了“数据仓库(Data Warehouse)”这个定义,即面向主题(Subject Oriented)的数据、集成的(Integrated)数据、相对稳定的(Non-Volatile)数据、反映历史变化(Time Variant)的数据的集合体,其主要功能是服务管理层、支持管理决策(Decision Making Support)u引。 (1)面向主题:可操作型数据库在处理任务时,每个业务系统之间是相互分离的,数据时在一定的主题域中进行的,并且这些组织是面向事务的:(2)集成的:数据仓库中的数据是通过对原来分散的数据进行抽取,并清理一些没用的数据,再将处理后的数据进行加工、汇总,最终整理得到的,在这个过程中,一定要对源数据中不一致的数据进行清除,从而确保数据仓库中的数据的一致性;(3)相对稳定的:数据仓库中的数据一般是企业管理层在进行决策时作为分析依据 的,所以主要的操作功能便是进行数据的查询;而且在数据仓库中,会有大量的查询操 作,也就是说数据进入仓库后,会被保存下来,相对而言,对数据进行修改和删除的操作便很少,在通常时候只是对数据仓库定期进行更新,数据的重新加载即可; (4)反映历史变化:数据仓库中的数据一般会保存企业从过去的某一个起点,比如 刚开始使用这个数据库的时间点到目前的每个阶段的数据信息,企业管理层可以以这些 数据为依据,对企业的未来发展趋势进行准确的分析,并做出正确的决策。数据仓库的发展是一个必然的趋势,而它和数据库之间有关联又有区别,数据仓库 是以数据库的发展为基础的,而数据库的发展又推动了数据仓库的发展;从某种意义上讲,数据仓库其实就是多个数据库的集合,只是这些数据库是以主题和技术的不同对数 据进行组织的,数据仓库的建立并不是为了要取代原始的数据库,而是希望通过对数据 的收集、整理,呈现出一个统一的、完整的企业级视图组织,使企业管理层可以利用这些数据,对企业未来的经营模式、竞争情况、发展趋势的做出准确的分析,并能够及时做出决策,把握住机会,从而在愈演愈烈的市场竞争中争得一席之地。虽然数据仓库是以数据库为基础发展起来的,但是它们之间由存在着不同,这些不 同主要有以下几点:(1)它们之问的面向对象不同:数据库的使用者一般都是企业的业务人员,主要的 工作便是对企业的日常数据进行处理和维护;而数据仓库的使用者一般是企业的管理 数据仓库数据质量管理的研究层,主要是为管理层做出正确的决策提供数据依据,数据仓库本身不负责业务的处理, 而是通过将企业运行的数据进行收集,在以后企业管理者分析和决策时提供依据,其主 要来源是业务数据库、Excel表格等; (2)数据库主要是收集并记录企业最原始的业务数据,没有任何的加工和处理,只是企业运行的当前数据的简单记录;而数据仓库主要是从企业的数据库中提取到相关数据经过处理和加工,再提交给企业管理层,它记录的是企业的一个历史数据。 数据仓库本身就是一个信息提供平台,以星型和雪花型这两种模型方式获取数据并 进行组织,最终达到为客户提供获取信息和知识的手段的目的;数据仓库项目就是为了 实施企业级数据仓库建设而建立的IT项目或者IT服务。2.1.2数据仓库系统的完整架构一个完整的数据仓库管理系统一般包含以下四个部分:数据源、对数据进行存储和 管理、OLAP服务器和前端工具与应用,如图2.1所示:数据仓库监测与维护 外部数据嗡业务系统数据‘回文档资料 数据存储与管理-数据源一__-。LAp服务器_-慈冀毒萨一Warehouse图2.1数据仓库体系架构Fig.2.1 Architecture of Data 大连理工大学专业学位硕士学位论文数据源:是组成数据仓库的基础,是整个系统的数据来源,数据源一般包括两个部分,即内部和外部信息;外部信息一般包括所适用的法律法规的信息,外部市场环境的相关信息,相关竞争企业的信息,以及统计整理得到的其他相关的外部数据和文档等;内部信息一般包括企业内部数据库中的业务数据,办公自动化(OA)系统中的各类数 据和文档等。 数据存储与管理:建立数据仓库最重要的就是,将数据源中提取的数据转化成所建 立的数据仓库的结构和内部格式,并且再经过净化处理,组建成定义好的仓库模型,最终完成数据的加载,在这一过程中,如何存储数据并进行数据管理,是构建数据仓库系统的重中之重。在现有的数据系统基础上,通过抽取数据,并对部分数据进行清理,重 新组织数据,从而确定数据仓库的存储结构以及存储的数据对象,这些数据对象包括数 据字典、记录数据仓库系统的定义、数据仓库中的数据进行转换所依据的规则、数据进 行加载所要求的频率以及进行业务数据存储的规则等信息,按照数据的覆盖范围,数据仓库存储还可以细分为两种:企业级和部门级两种数据仓库,部门级数据仓库就是我们 通常所说的数据集市(Data Mart),即从数据仓库中以特定的应用抽取所需要的数据,并将这些数据进行集合,辅助支持决策;在管理方面,数据仓库还包括对于数据安全的 确保、数据的归档和备份、以及后期的数据恢复和维护等工作,这些功能基本上与现行的DBMS是一致的。 OLAP服务器:主要是通过多维数据模型将所需要分析的数据进行重新组织,经过加工和处理,提供给用户,以支持用户对数据进行分析,而这个服务器的实现是分三个部分的,即ROLAP、MOLAP和HOLAP,其中ROLAP主要是将基本数据和聚合数据存在于RDBMS中:MOLAP则是将数据存放在多维数据库中:HOLAP则是前面两者 的综合体,它的基本数据跟ROLAP一样,存放在RDBMS中聚合数据则跟MOLAP一样,存放在多维数据库中。 前端工具与应用:前端工具主要包括对各类数据进行分析、报表、查询、挖掘和开 发的工具;其中分析工具丰要是应用于OLAP服务器,而报表工具盒挖掘工具不仅可以应用于OLAP服务器,还可以针对数据仓库进行数据分析。2.1.3数据质量定义从上个世纪八十年代开始,国际上对于数据质量的定义便是以提高数据质量、提升准确性为基础的,随着越来越多的企业对数据质量的关注,数据质量的定义也在发生着变化,由最初的单一概念转变为现在的多维度概念,到了90年代末,有学者提出这样 一个观点:数据质量就是“数据是适合使用的”,即针对业务的运作、计划的制定等方 数据仓库数据质量管理的研究面,数据的使用时合适的,那这个数据就可以称为高质量的数据;如果数据本身很完整, 并且所要求的特征也完整,那么这样的数据就可以称之为适合使用的数据。 提到保证数据质量,人们首先想到的便是如何能够在数据的输入工程中加入检查和 防范的相关程序,以确保输入数据的正确性,从而控制错误数据的输入,但实际上却并非如此,数据质量是对数据库中数据所固有的属性的一种反映,主要由数据的完整性、 可信性、正确性、一致性以及唯一性等所组成,这里从量化的角度进行分析,完整性则代表的是数据库中非法空值所记录的条数,而可信性则以数据库中所携带的具有缺省值 的数据的记录数来进行衡量所得到的一个参数。 数据质量是具有相对性的,并不是被某个用户所认为的高质量的数据就可以被其他 用户所接受,制定数据质量策略是要将用户的需求融合进去的,还要根据用户所要求的 水平来定义数据质量,以提高数据的实用性;也就是说,只有在与所确定的数据的集合以及所要采用的具体的决策要求具有较大的相关性时,这些数据质量才是有意义的,而 且数据质量的好坏还会对最终系统的执行结果产生重要的影响,因为一旦在数据方面出现错误,那为此而付出的代价将会是巨大并且无法用数字来表达的。 整体上来说,数据质量的概念主要包括三个方面:一是注重用户的满意度,一定要从用户的角度出发,去衡量数据质量的好坏;二是要建立完整有效的数据质量管理体系, 并从多个角度对数据质量的好坏进行评价;三是数据质量一般是由适用性、及时性、一致性等多因素组成的~个多维度的概念。 2.1.4对数据仓库中的数据质量的研究 数据质量管理体系的运行是以保证数据仓库中的数据质量为前提的,而目前的研究却一直都将数据质量与数据本身混为一谈,认为数据质量是独立于数据的产生和使用而 存在的,导致这一错误观念的原因有很多,但最主要的还是在于对于数据质量这一个广泛意义的概念的错误理解,从而导致无法解决已经存在的数据质量问题。 在数据仓库中,一般对于数据质量是这样定义的:数据仓库中能够满足客户需求的 数据所占的比例;或者也可以这样定义:按照一定的顺序将数据进行收集,并将其中没 有意义的数据进行清洗,从而避免重复数据的产生,最终通过测量数据和改善数据来增 强数据、优化数据,其衡量指标如表2.1所示。表2.1数据质量衡量指标Tab.2.1 Scale Indicators ofDataQuality数据质量描述说明 大连理工大学专业学位硕士学位论文正确性完整性正确性是指数据是否真实客观,符合事实、道理或某种公认的标准,这里 指数据源中实际数据值与假定正确数据值的符合程度 完整性强调数据在结构上能正确地反映数据之间的逻辑关系,分为横向关 系和纵向关系,用来衡量记录的完整程度,这里指数据源中需要数据值的 字段中无值缺失的程度一致性通常被理解为在同一时点冗余属性在取值上的一致性即存在于多一致性 个数据库表或文件中的同一属性的取值及含义上保持一致性,用来衡量属 性及格式使用的一致性,这里指数据源中数据对一组约束的满足程度唯一性 适时性 有效性数据值被约束成一组独特的条目,这里指数据源中记录以及编码是否为唯考虑数据的时间特性对应用的满足程度,这里指在所要求的或指定的时间提供一个或多个数据项的程度有效性是指每个属性的值是否都符合客观上和业务上的逻辑,表示数据是 否有效,这里指维护的数据足够严格以满足分类准则的接受要求数据仓库中的数据质量在采集、转换、存储以及应用等方面都有反映,而且每个方面对于数据质量的要求不同,所以每个阶段的特征也不尽相同,采集方面主要是注重于对数据的完整性及适时性的要求;转换方面则注重于对数据的正确性、合法性以及一致性的要求;存储方面则注重于对集成性的要求;而应用方面则更注重于数据的有效性。伴随着越来越多的金融行业建立数据仓库项目,而这一项目中存在的数据质量问题 也随之显露出来,下面这些就是我们在实施数据仓库项目中实际遇到的一些问题案例:(1)某银行所建立的数据仓库在保存业务账单时出现了问题,无法将这些账单进行 保存,这样也就造成在确定每个分行所上传上来的业务数据是否准确上存在一定的困 扰。(2)某银行的下属支行可以随意的更改他们所提交的销售数据,而总行在制定营销 决策时,是依据这些被人为更改了的不准确的销售数据做出的决定,很容易造成错误的决策。(3)某银行的业务系统中缺失针对客户所设置的唯一性识别机制,这样会造成银行无法对客户的唯一性做出准确的判断,从而会导致银行的每个部门不能共同协作,使得它们整体的销售水平和抗风险水平下降。 (4)在开发完成数据模型之后,系统中某些重要的因素却不能得到应有的数据支持,从而使得这些数据无法被填充,最终导致了数据的不完整性。(5)源系统在数据库结构发生了变化时,不能及时通知相关部门,从而造成了数据的加载、更新任务的失败,即使后期项目组采取了相应的补救措施,但还是在出现问题 的一周之后将问题得以解决。 数据仓库数据质量管理的研究(6)数据仓库在文件服务器空间存储饱和之后,不能自动的进行数据的加载任务, 从而导致当天的数据加载出现问题,导致加载失败,虽然第二天维护人员发现了这个问 题并及时执行数据的加载任务,但数据还是晚了一天才得以重新加载。 (7)对于源系统数据,有些由于需求要做进一步拆分的具有原子性的数据本身的粒 度不够,所以不能按照需求满足拆分要求。 (8)对于银行来说,与业务需求不相关的一些低质量的数据在正常情况下是不会被 维护的,~方面可能是对数据范围的一个错误分析而导致不相关数据被引入;另一方面 也可能是因为对业务的需求产生了变化,从而导致这些数据与业务不相关了。 (9)当源系统数据出现错误时,系统并不能将这些问题长久保存并反馈给相关部门, 这样还会使得这些问题由于连锁反应而更加恶化。 像上面提到的类似问题还有很多,通过对这些问题的研究,我们也发现,数据仓库 系统其实在很多时候都是无法及时的应对这些无法预测的数据质量问题和事件的。2.2数据质量管理方法论很多组织虽然认识到低劣数据质量的严重性,但是却不一定能够解决这些问题,通 过调查发现,目前绝大多数的公司还是停留在发现问题,纠正问题这一阶段,却不能真 正的找出出现问题的根本原因,最终只会出现旧的问题还没处理,又出现了新的问题的 局面。虽然现在对于数据质量的研究越来越多,并且也有很多学者在很多的文献中都针 对这一问题提出了自己的方法论,但整体上来说,目前还没有一个有效的方法得到了大 家普遍认可的,而且在我国的国内,从事这一方面的研究更是少之又少,在提到解决问 题时,多是参考国外的研究成果。 (1)全面数据质量管理(Total Data Quality Management,TDQM)’21 1)实施MIT全面数据质量管理计划 TDQM计划是由美国的麻省理工大学提出的,它主要是由三个方面构成:对数据质 量所定义的概念、对数据质量问题进行的分析、如何提高数据质量。通过这个定义我们 可以看出,其主要是侧重于对数据质量的定义和测量;在对数据质量的分析中,主要是 针对其产生的影响进行分析,并将高质量的数据作为一个企业成功的决定性因素,并与 企业的关键参数紧密结合在一起,比如每个部门的销售情况,顾客对于企业的满意程度,以及企业的收益情况,通过量化来分析数据质量对企业产生的影响,从而建立一个适用的经济模型;而提高部分侧重的是对提高数据质量的方法的研究,这些方法包括企业重 新对数据系统进行设计、研究数据质量好坏的动机、新技术的应用以及对数据进行解释 大连理工大学专业学位硕士学位论文的技术;其中企业对数据系统进行重新设计的主要目的就在于希望能够通过简化业务达到降低数据出现错误的概率;而数据质量的动机则主要是通过提高报酬,加深对数据质量的利益关系的认识,从而激励这些员工能够更细心、更专业,从而达到提高数据质量 的目标:而新的技术则对于提高数据质量是具有显著影响的;解释技术则主要是在帮助 用户充分理解数据质量的含义的基础上,确保数据质量,避免发生数据错误这样的事件。 2)美国国防部在数据质量上的管理美国政府也开始意识到数据质量的重要性,并制定了诸多的法律法规来强化对数据 质量的管理,比如美国的MIT机构,便展开了对管理方法和应用技术的研究,而美国国防部也开始采取与企业合作的方式,希望能够共同建立起完整的、可适用的一套管理体系,从而为推行全面数据质量管理(TDQM),并能够及时的预防数据错误,在出现 错误时能够及时进行消除,最终达到改进和提高数据质量的目的。 TDQM主要是利用转移数据库,实现数据信息的标准化,从而提高业务规则中的数 据符合性,它的核心是用管理产品质量的方法来管理数据这个特殊的产品,与其他的质 量管理相同的是,TDQM也是从源数据开始实施治理,并且将主要注意力放在预防上, 而这也是解决数据质量问题最关键的点;TDQM不仅实现了对数据源头数据质量的保证,还有效的阻止了错误数据的发生。在美国白宫预算办公室提出了对数据质量的相关要求后,美国国防部(DoD)便制定 了一系列相关规范和标准,并且在整个国防部推行TDQM,从而实现对数据质量管理的 规范化和统一化;而这一行为也更好的说明,任务能否成功的关键在于数据质量,在于 能否将高质量的数据信息传递到合适的人群中,以确保数据能够支撑正确的决策;而这一管理的推行,不仅使信心更加系统化,更容易操作,而且在对数据信息的处理上也有了改进,从而降低了国防部实现系统自动化的成本;在推行这一过程中,美国国防部做了以下几个步骤:第一步:稳定TDQM的运行环境,也就是说,TDQM的运行主要是由国防部相关 的主要机构负责人(PSAd)、相关职能部门的数据管理人员(FDAd)以及在海军、陆战队等系列相关的数据管理人员(CDAd)共同参与的,这些参与者的主要任务便是规划数据 质量的战略战策,从而确保数据信息的有效性,从而为自动化的改进数据质量职能提供 支持。第二步:通过自动化信息系统(AIS)来完成对数据质量的识别工作,从而确保项目的正常实施。 数据仓库数据质量管理的研究第三步:通过系统化的方法实现项目的改进,同时在PDCA循环的基础上形成以识 别质量要求和建立质量指标为主的定义、并对已经建成的业务进行的测量、并对数据进 行分析和改进这样的一个实施过流程。 (2)信息质量的产品以及服务绩效模型(PSP/IQ)“副 对于数据质量来说,虽然在评估和基准方面都已经被检查过,但它本身却并不精确, 还是需要一种科学的方法进行精确的评估,而以科学和精确为基础的评估基准也未比较 组织内部的数据质量提供了一种基线,Kahn,Strong&Wang曾提出过这样一个概念模型,即产品和服务绩效模型口SP/IQ),这一模型的在多维度的基础上进行的研究,其主要的研究对象是数据信息生产者、数据信息的管理者以及数据信息的消费者这三个方 面,这个模型最特别的一点便是,在对这个模型中的数据信心质量做评估所制定的相应 的规范中有一部分是由消费者提出的主观上的评估。 (3)AMIQ‘161YangW.Lee&Diane M.Strongeta1.也提出AMIQ(AMI Qaality)这样的方法论,AMIQ主要包括以下几个方面:PSP/IQ的模型(产品和服务绩效模型),这个模型主要 就是在说明对数据质量进行评估时的规范是否一致,在商业领域,PSP/IQ模型是用来对 数据质量管理工具做定义和评估的,而且它也是实行实行差距分析的理论依据;IQA(IQ Assessment)数据质量评估工具则主要是为PSP/IQ模型以及差距分析提供度量基础,收 集数据,最终实现数据指标对数据质量的评估;而差距分析技术则主要是通过与其他组 织进行的比较,找出自己在管理上存在的不足之处,这个技术还可以使组织对其内部的数据质量进行校准,从而确定应该在哪些领域进行加强,完善数据质量。AMIQ作为一个整体,其主要的贡献便是提供了实用的数据质量工具,目前,这一方法论在财政组织、 医疗组织以及制造业等多个组织都得到了应用,整体上来说,这个方法论在对于数据质 量问题的识别、区分提高质量的优先次序以及追踪数据质量的方法的改进上都是很有用的。 大连理工大学专业学位硕士学位论文3数据质量分析与管理3.1分析与管理数据质量的必要性通过对目前国内外的研究现状可以发现,至今仍未有一个系统化的数据仓库数据质量管理体系,尽管在数据质量管理方法论中,对数据质量、数据评估和改进等的定义已经非常统一和严格,但这种分析与实际的管理是并不一样的,因此我们很有必要从不同的角度考虑数据仓库的特点,并建立一套完善的数据管理方法。 数据仓库作为若干个大型的业务系统数据的集合,其一定会不断的从数据库中加载 数据并且对源数据进行更新,而所加载和更新的数据中,就可能存在着很多的异常数据, 通过一份调查发现,在总的数据中,错误的数据居然高达5%,这也就意味着数据质量问题严重的影响了数据仓库的应用,再加上现在越来越多的客户对数据仓库的依赖程度增加,这样的情况下,差的数据质量不仅会降低用户对企业的信任度,从而对企业造成 严重的负面影响,最重要的是,这些错误数据可能还会使用户产生错误的决定,最终导致客户的流失。数据仓库作为决策支持系统的基础,就必然要求高质量的数据服务,而高质量的数 据还会引导着高质量的决策,为了能够避免在数据仓库的运行中出现错误的数据,从而 引导错误的决策,这里对数据的正确性提出了高要求。但是对于一个数据质量要求比较高并且涉及金融行业的公司来说,不仅要求源头数据的清洁,更要求数据再清洗过程保证数据的完整性,正确性和一致性,即关注ETL流程不会导致数据质量的损失,而是 能够把数据质量与公司的基本业务规则结合在一起,从而生成新的数据质量检查规则将 会是一个有意义的尝试,形成领域相关的数据质量规则将会是受益无穷的。 从数据来源上分析可以看出, “脏数据”一般都是通过源系统或是源文件进入到数 据仓库中的,因此为了能够杜绝这些“脏数据”,首先要对源系统或是源文件中的数据 的录入进行规范,通过对这些录入资料的严格审查,从源头上确保了“干净”数据的输 入,保障了数据质量;对那些历史数据,则可以通过设置一定系统程序来进行定期清理; 对于出现确实遗漏的一些数据要及时进行补充;对于出现错误的数据要及时进行修改和 维护,并及时清理那些冗余的数据,从而提高了数据质量的可靠性。 ETL的实施过程对数据仓库能否获得高质量的数据起着至关重要的作用,可以通过 建立ETL平台来进行集中化的控制和管理,从而在转换中实现统一执行清理问题的策 略,这种方法简单易行,时间跨度较短,而且还不需要改动源系统,只是针对出现问题的数据进行修改,但同时也存在一些问题,那就是在实施ETL时的转换逻辑较复杂, 数据仓库数据质量管理的研究而且操作实行的费用较高,对于问题数据也并不能彻底消除;因此应该在ETL实施中确保数据质量,这是因为在这个环节上出现的错误会在后续的处理中被无限放大,而且 由于该系统的处理时线性向前的,所以,即使发现了错误,后期也很难再回头重新进行 数据处理,所以一定要在前面的环节中就把数据问题处理掉。解决数据仓库中的数据质量问题是与整个企业息息相关的,这个解决主要体现在清理上,那么应该清理哪些、不清理哪些、应该清理到什么程度、应该由哪些部门去执行 者都需要做出正确的决策,而且还需要得到相关组织的大力支持,毕竟跨部门进行清理 数据还是需要一定的执行力的。数据质量的问题关系到整个企业的发展与走向,不仅需 要管理手段,还需要~定的技术手段,这里分别从技术、流程和管理三个方面对确保数 据质量进行说明: (1)技术层面上,要定期对生产系统中所存在的噪音数据、遗漏数据以及不一致性的数据进行清洗,同时还要对系统中的源数据分总量和分量两个方面进行检查。(2)流程层面上,以一定的业务规则为基础来实现对源数据的抽取,这个过程是需 要诸多步骤来完成的,这里可以将过程实现流程化,并通过配置来实现其过程。 (3)管理层面上,生产系统以“谁提供数据,谁负责”的原则为基础将数据报送,并要求确保数据的完整、准确、一致以及时效性。 在实践中摸索,并建立起一套完善的组织、有效的流程、规范化的制度,从而确保企、监的数据质量,完善技术和管理手段,解决质量问题。3.2针对数据质量问题进行的分析3.2.1数据质量问题的来源数据质量问题的表现有很多种,其中最典型的有数据遗漏、多义字段、矛盾值、主键重复、无法关联、没有意义的默认值等,那么数据质量问题究竟是怎样发生的呢?究 其根源,还是众多文件和数据库中出现的冗余的不受控制的数据以及冗余的不受控制的程序,通过分析,将产生数据问题的因素归结为以下几点:表3.1数据质量问题来源Tab.3.I Issue Sources ofDataQuality问题来源描述说明钢相关斛驯郦黝擞帕酗应嘴从醋觥门鳓蝴舣枢系统相关例如某些应用程序在测试过程中未充分被测试,不断产生错误的操作型数 大连理工大学专业学位硕士学位论文据 数据迁移相关 业务系统在进行数据更新后,会执行增加、删减或修改部分旧的业务规则, 这样在将老数据迁移进新系统后,就很有可能会引入缺漏、错误、无法关 联等遗留问题 比如前台数据录入时所可能造成数据质量问题,如有的前台柜员为加快柜 面办理速度,对于客户开户时所必须要求提供的家庭电话、职业、地址等 信息并不做检查,最终会导致操作性数据的信息缺漏、错误等问题的出现 有时业务系统之间在交换数据时接口Bug也可能引入“脏数据”信息输入相关 接口衔接相关其他的因素还包括客户在办理业务时,出于维护个人隐私的心理,在填写中要么只是填写必须填写的项,要么就是即使填写了也只是胡乱的填写,这不仅造成了企业数据 信息的空白,还会造成信息缺漏,甚至出现数据问题。从银行的数据仓库项目实施情况来看,数据仓库总是被认定为能够从多个源系统中整理出清洁、完整、一致的具有高质量的数据信息,但事实并非如此,数据仓库也会出现数据质量的问题,这一问题的出现主要是与收集数据的来源、处理数据的过程以及使 用数据的管理化有关联的,一般会发生在三个位置: (1)数据源数据仓库是多个源系统数据的集合,这些数据不仅有关系型数据库系统Oracle、Sybase、Informix等,还有来自桌面的数据库系统,如FoxBASE、FoxPro等,更有一些 其他的文本文件,因此,数据源本身的准确程度以及其质量都会对数据仓库的数据质量 产生严重的影响。 (2)ETL过程将每个源系统中不同的时期、地点、格式情况下的数据抽取出来,并经过数据的清 洗和转换,最终并放入到数据仓库中,这一过程的实现本身是非常的复杂的。1)数据抽取。在源系统中通过编制程序或是借助工具来实现对数据的抽取,而这个 过程中,也可能会出现系列的问题,如编码错误或是工具使用不当,都会造成数据无法 抽取出来,或是抽取出来不正确的数据。2)数据转换。在抽取完数据后,在数据形式不一致的情况下还要进行一致化的处理 过程,而这一过程处理不当,也同样会引发数据质量问题的出现。3)数据加载。在转换完数据后还要对数据进行加载,在系统的运行时,由于加载过 程的不当,可能会导致数据的重复加载,或是加载失败的情况,从而也会导致数据质量 出现问题。 一般在数据仓库的应用中,ETL过程中所涉及到的转换要达数百个以上,那么如何能够保证ETL过程中的数据质量,是一个至关重要的问题。 数据仓库数据质量管理的研究(3)数据仓库数据的应用和管理 用户一般都是通过应用界面来对数据进行访问的,这他们所访问的数据一般都是规 范化的数据,而在这个访问过程中,如果访问逻辑出现错误,那么会直接影响到输出的 结果,其中最常见的就是当多个表进行连接时,由于所设置的关联条件不正确,使得最 终访问的结果也不正确;除此之外,代码映射问题也是影响数据质量的一个重要问题, 代码影视主要是为了实现对源系统中的数据的统一化,所设置的代码归类,代码映射如 果出现错误,将会导致数据仓库中所有源系统的分类错误,进而使得最终的统计结果出 现错误,一般这类问题主要包括不能覆盖所有业务代码所存在的编码不完整性、不准确 性,以及在源系统代码发生了变化时还要对数据仓库做出的同步调整。 不同的用户对于数据仓库的需求也不尽相同,而且随着用户对数据仓库的应用,其需求也会不断的发生着变化而要求将新的数据加入到数据仓库中,这就会在原有的数据 仓库中加入新的数据属性――不完整性;这一属性不仅会造成数据不能及时满足客户的需求,造成利用率低;另一方面,还会使管理员在对系统维护时产生矛盾,如不同的用 户或企业在对于其数据源时或是自己设计ETL工具,或是找专门的机构进行定制,这 都会造成在数据仓库使用的过程中很难保证所处理数据不一致。 总的来说,无论是数据源,还是在运行ETL过程,或是在管理数据仓库的过程中, 都会由于某些原因造成数据质量出现问题。 3.2.2数据质量问题存在的实质 随着金融行业的快速发展,越来越多的企业开始应用数据仓库,而在应用的同时, 数据质量问题也开始逐渐显露出来,比如:某些重要的信息在数据仓库中可能被填充或 是填入空值,从而导致得不到数据的支持,造成数据的不完整性;在源系统更新数据时,未能及时反馈给数据仓库,从而导致数据仓库不能正常加载数据,而此时只有通过加班加点来实现对新数据的处理,这也就造成了数据更新的不及时性;源系统在针对客户时 没有制定一个唯一性的识别机制,无法形成客户单一视图,影响营销效果和决策水平; 对于源数据中出现的错误问题只是单纯的进行了更正,并没有将这些进行反馈,最终使 得这些问题因连锁反应不但一直存在着,还会出现继续恶化的现象。 这些数据质量问题的出现与信息、流程、技术和人密切相关.从下面的鱼骨图3.1可以看出数据质量问题实质。 大连理工大学专业学位硕士学位论文披据维护黼瞅图3.1数据质量问题实质Fig.3.1 Issue essentials of DataQuality“信息”层面的数据质量问题主要是来源于数据仓库中产生新数据的变化频度,数 据的度量以及新数据对象的新增和变更;“流程”层面的数据质量问题主要来自于数据的创建、使用、维护,数据的传递,数据的装载和数据的稽核:“技术”层面的数据质量问题主要来自于数据的创建、使用、维护,数据的传递,数据的获取,数据的装载以及平台设备和安全管理;“人”层面的数据质量问题主要来自于管理不规范、培训不到 位和激励不科学。3.2.3产生数据质量问题的几个环节在建设数据仓库的整个过程中,数据质量问题一直都存在着,它多发生在数据信息与技术手段相关的环节上,而这些问题主要体现在源头数据的质量和数据处理过程上,如图3.2所示。 数据仓库数据质量管理的研究图3.2数据质量问题产生环节Fig.3.2 Issue Source Nodes of DataQuality数据在银行业务系统时就出现了很多的质量问题。对单一业务系统,存在人工输入 错误、数据项缺失、编码不~致、抽取数据的时间点错误等现象;对多个相关业务系统,则存在数据项重复无法归并、不同含义的数据实体在不同系统中的名称一样、相同含义的数据实体在不同系统中的名称不一致、对一个系统没有完整性要求的数据项在其他业 务系统中必须保障完整性等现象。 数据处理过程中,银行整个信息系统一般由若干层或若干个类似渠道整合平台、应用集中平台、数据仓库平台等这样的处理平台组成。当源头数据进入银行系统后,会增 大连理工大学专业学位硕士学位论文加很多处理数据的环节,最常见的处理环节是数据的传递、装载、整合和分发应用,如 数据通过各种渠道(柜面、网上银行、手机银行、ATM等)进入银行系统,再通过渠 道整合平台进入后台应用系统,还可能通过应用集中平台与其他系统进行数据交互,最后集中到数据仓库平台。通过数据仓库的处理,数据最终生成报表或者通过转发中心发往相关联的外部机构。由此可见,数据处理的路径日益变长,但是数据质量则会随数据处理环节的增加成反比下降,一旦数据在某个环节出问题,就会出现“失之毫厘、谬以千里”的现象。3.3数据质量管理办法3.3.1对数据质量进行检查的一些规则针对上面提到的数据质量问题产生的原因及环节,在这里,设计出了两大类的数据 质量检查规则:记录级检查规则和指标级检查规则。 (1)记录级的检查规则,包括:1)对主键进行检查的规则2)对外键进行检查的规则3)对代码映射进行检查的规则4)对数据值域进行检查的规则 5)历史拉链的检查规则6)业务逻辑的检查规则 (2)指标级检查规则,包括:1)比较同一比对指标在源数据区、仓库数据整合区及应用集市区的计算值,判断数据在转换过程中是否存在错误。2)利用来自源系统上报的比对指标参考值,与该指标在仓库数据整合区及应用集市区的计算值进行比对。 数据质量检查规则在具体使用时应根据需要进行细化和维护。检查规则是对数据质量进行检查的基础,只有制定了规范化的标准,才能以此为依据编写出正确且有效的脚本,从而提高数据质量检查的准确性;同时,规则也不是一成不变的,要能根据检查结果对数据及时的进行更新、维护等操作。 对数据质量进行检查本身就是比较消耗资源的,这里考虑到银行业务现状,将检查规则进行分类管理的方法,以确保所有检查任务都能正常进行,分类管理,主要就是根据不同的规则,对数据仓库的不同阶段进行分类,可以分为高、中、低三类,其中高优 数据仓库数据质量管理的研究先级中允许调度周期为天、周、旬、月、季、年的检查规则;中优先级允许调度周期月、季、年的检查规则;低优先级允许调度周期季、年的检查规则。 3.3.2数据质量检查过程根据数据仓库数据分布情况,数据质量问题检查主要包括三个方面:由操作型数据存储(ODS)加载到源数据存储区(SDATA)的数据检查、由SDATA加载到数据基础存储区(PDATA)的脚本检查及数据应用层(PMART)的指标检查。 (1)由ODS加载到SDATA时的数据检查对从ODS到SDATA进行加载的数据进行的检查主要是通过对文件和字段的检查来 实现的,主要是ODS通过Teradata平台的加载数据的工具FASTLOAD将数据加载到 SDATA库中;其中在FASTLOAD中进行数据加载时,需要调用预定义的接口模块,通过这个接口模块来读取数据文件,并对一些字段进行检查,然后将检查完毕后的数据统一加载到数据库中,整个过程都是由ETL调度服务器Automation调度和实施监控的。接口模块在整个过程中起着至关重要的作用,它会根据预定义的环境的改变来读取 到不同的数据文件,并对接口结构进行定义,还可以根据读取到的数据文件将字段进行拆分,并按照日期型、整型、字符串等字段级别进行校验之后,将结果记录传给 FASTLOAD进行数据的加载,这些加载的数据最终都会返回ETL Automation,然后再由开发人员对加载失败的数据文件进行检查,并找出问题出现的原因后,再通过重新对ETLAutomation进行配置数据文件,实现数据的重新调度和加载,从而数据的准确性、(2)由SDATA加载到PDATA时的数据检查及时性和一致性得到了保证。数据从数据仓库的源数据存储区(SDATA)加载到数据基础存储区(PDATA),并通过调度检查脚本的方式对数据库级别进行检查,而这里所调度的检查脚本是以业务规则为基础进行编写的,一个检查脚本可以完成一个或是多个任务,因此,只有在制定了正确而合理的业务规则,才能确保脚本编写的准确性,从而也才能为数据质量的检查 提供依据;本论文在第四章节设计了数据质量检查的平台,并希望通过这个平台能够实 现业务规则的录入,并可以在此基础上自动生成检查脚本,而开发人员可以设置自动执行这些任务脚本,也可以设置成手工执行这些任务脚本,通过读取已录入的业务规则相关配置来进行检查,并将结果进行返回,这个过程中的质量检测主要分常规检查和随即 检查两种: 1)常规检查。检查配置平台将需要定期检查的任务添加到ETL调度服务器中,由Automation定期对生产的脚本文件进行调用执行。 大连理工大学专业学位硕士学位论文2)随机检查。质量检查管理员临时对话配置平台上运行的任务进行检查,不需要添 加到ETL的调度服务器中。 (3)对数据应用层的数据质量进行的检查数据在加载到数据基础存储区(PDATA)之后,会根据不同的需求将相对应的数据集市(PMART)进行抽取和转换,在这里,为了保证分析数据的准确性,还要对PDATA或PMART的数据进行指标级的检查,这里所说的指标级检查主要是针对关键业务指标及应用结果所进行的核对,其中还包含源系统和数据仓库中的计算指标之间的核对、数据仓库内部不同计算口径指标的核对、不同的应用之间的交叉核对、对于同类系统所提 供的报表数据的核对等;而目前在某商业银行实施的业务指标主要有贷款五级分类、客 户数、存贷款指标等共十多项,都是在业务统计的层面上实现对数据质量的把关,而应 用层中所进行的质量检查还可以从逆向上将整个数据仓库的数据质量提升,从而确保应 用数据的准确性。 对于数据库的检查,会根据其自身的不同点而选择不同的技术和算法来进行,使用Teradata数据库实现数据检查的主要技术及算法包括:1)文件级检查。主要是通过检查配置参数调用FASTLOAD的动态链接库(DLL) 后,将读出的脚本传给数据库,最终将结果反馈回来;这个检查会对FASTLOAD的具 体工作流程产生很大的影响,所以在实施这项检查时,要求由数据质量管理员和ETL管理员共同操作,一起完成这项任务。2)记录级检查。这项检查包括对主键是否具有唯一性进行的检查,对主外键的参照是否具有完整性所进行的检查,对代码映射所进行的检查,以及对数据值域所进行的检查等,这些检查都是利用ERWIN模型中所具有的Macro这一功能来实现的,通过这一 功能的调用产生的检查脚本,会对主外键参照、代码映射、值域等中的数据进行检查, 从而确保检查的完全性、彻底性、高效性。 3)数据库级检查。这项检查主要是通过手工设置一条或多条SQL语句,或是设置一个或多个存储过程来完成的,而SQL或是存储过程的执行速率会对数据库的存储性能以及空间性能产生直接的影响,所以,在每一次执行数据库级检查时,都需要数据管 理员人为的将检查调节到一个最佳状态,并且要时刻注意检查过程中可能出现的任何问题,避免出现数据错误而造成数据库服务器运行成本的增加。4)常用的检查算法。对于一些较标准的分析过程,一般也会有一些较常规的检查算 法,这里总结了一些常用的检查算法,如表3.2所示。 数据仓库数据质量管理的研究表3。2数据质量检查算法Tab.3.2 Check Arithmetic ofDataQuality检查算法 1%抽样检查法 移动平均法描述说明当数据较大,无法逐一跟踪时,可以采用1%抽样,或是人为的指定抽样 比率来对数据库进行抽查这项算法是较普遍使用的一种算法,主要是通过对时间捧序,用前T期的数据通过计算,对第T+l期的数据以及数据值的上、下限的范围进行预测 通过对报表中的指标关系进行的检查,其目的是检查在金融行业数据仓库 指标平衡法 所监管的数据仓库中对这些指标的研究与其能够实现使用满意之间的平衡关系比例测试法 空值率检查 通过对一些关键性的指标的数据进行的测试,如地区收入和用户之间,检查其在分布上是否存在着合理的比例 一般用来检查表中非空字段所占的比率,并且还会通过这一比率来计算出表的空值比率 由于Teradata数据库的主键字段一般都是由主索/(Primary"Index)来实现 的,而PI是允许重复的,所以要对表中的主键字段进行检查,确定其唯 一性,从而确保数据的唯一性以及ETL操作的正确性唯一率检查实际上,对数据质量所进行的检查都是通过在数据仓库后台所部署的,通过对数据 质量进行定期或者不定期的检查,并将最终的检查结果反馈到数据库中,通过相应工具或平台将这些结果上传给管理小组或是项目的管理层,管理人员再根据这些检查结果对数据进行分析,找出其出错点,并对出现错误的原因进行分析,及时对数据进行维护, 以确保数据质量。 3.3.3数据质量管理办法及其流程 数据质量管理的办法是否科学、合理,这对数据质量的管理起着至关重要的作用,这里从三个方面来进行分析:(1)成立专门的数据质量管理小组数据质量能够改进,最主要的还是在于管理上,因此,建议成立一个专门的数据质量管理小组,并由项目的管理层或是企业的管理层来直接领导,小组成员则主要是通过对检查规则进行明确的定义,制定合理的检查策略,在发现问题时能够及时与其他部门进行沟通,共同找出发生问题的原因;而小组的领导者则主要是通过对小组成员制定的策略进行研究,从而最终确定其流程,并且定期与其他部门主管进行沟通,在出现问题 大连理工大学专业学位硕士学位论文时,可以做到及时向其他部门通报,并能够调动起其他部门共同协作,从而确保了改进 数据质量的有效性。 (2)制定操作可行的数据质量管理制度成立了管理小组后,还要制定一套完整可行的管理制度,主要是对每个阶段所要完成的质量目标进行定义,明确阶段目标;还要制定较规范的评价标准和管理流程;在对于数据的检查和管理中,要对编码及核对规则实现统一化,这些制度的制定不仅需要管理层的加入,还要将实际操作中的技术人员也加入进来,以实际运行情况为基础,以确保制定的可执行性;由于每个部门其专业性的不同,对数据的要求也不尽相同,那么评价标准也不会一致,所以在制度的制定中,最主要的是确保数据质量评价标准的合理化。(3)建立合理有效的数据认责制度在数据仓库项目的执行中,可以通过建立专门的组织,制定完善的数据认责制度,并且将这一制度与员工的绩效、奖惩相关联,使质量管理更加的正规化,从而确保每个环节数据的准确性。只有完善的管理办法是不够的,还要有一套完善的执行流程才行,在实施质量改进的过程中,要根据出现的问题的特点,来制定一套稳定的、多方参与的管理流程,这个 流程一般包括定义、验证、评估,预防及维护等环节,对管理过程中的每个环节都做出 相应的行动定义,以确保将管理工作落到实处,提高数据质量管理水平,这里以某商业银行所建立的数据仓库项目为例,其管理流程如表3.3所示:表3.3数据质量管理流程Tab.3.3 Management Process ofDataQuality 数据仓库数据质量管理的研究在数据仓库中,对数据质量的检查是很多的,在项目的实施中,就会严重影响数据仓库的效率,因此,为了提高数据仓库的整体效率,并提高质量检查的有效性,对出现的质量问题进行了分级处理,主要处理级别如表3.4所示。表3.4数据质量处理分级Tab.3.4 Handle Grade of DataQuality处理分级 :;。。 一4”、 触+骐 5““。、。。分级解释说明 该类质量检查任务所检测的数据即使发生错误,也不会对数据仓库中的其 他任务造成任何影响 该类质量检查任务所检查的数据在发生错误之后,不会影响到数据仓库中 其他任务的正常运行…““ 亚舌拱镗卷 5”““7该类质量检查任务所检查数据在发生错误之后,会影响到数据仓库其他任务的正常运行,此时,其他任务会被迫停下来等待该错误的修正 该类质量检查任务所检查的数据一旦发生了错误,将导致数据仓库无法提供任何有效的数据服务,甚至会出现数据质量问题严重的情况对于管理小组来说,数据质量任务的不同,也就决定了其处理流程的不同,如对于通知类和警告类,在出现错误时,影响不大,所以只需要每月生成一份质量报告就可以了:而对于错误类,出现的错误会影响到其他相关任务的进度,所以,需要成立专门的 小组去协调解决这类事件;对于严重错误类,由于影响更为严重,需要企业高层管理者的加入,来共同完成对这类事件的解决。. 大连理工大学专业学位硕士学位论文4数据质量管理系统设计4.1系统需求数据仓库的整个建设过程中,都应该伴随着对数据质量所进行的检查,这里以某商 业银行建设数据仓库为例,可以看出,建设的实际阶段一般有以下几个:创建源系统接 口、生成源数据文件,创建临时区、基础区、集市区和汇总区,创建导出数据文件,建 立外部集市,创建其他辅助库等;数据质量的检查主要是针对其业务和技术进行的检查, 其中业务检查主要是针对业务数据是否正确所进行的检查;而技术检查是针对传递数据过程中所进行的操作是否正确、是否合理所进行的检查。 (1)数据质量检查规则的配置和运行 数据质量检查并不是一成不变的,它是根据不同的业务、不同的需求而变化的,用户在对数据质量进行检查时,可以通过对数据表、数据字段自由组合来确定所需要的检查规则,质量管理系统还可以通过对检查任务重新调度、重新裁减、重新调整、重新配置等方法来对其分级、分类进行管理;在检查过程中,一般会根据其检查内容的不同而分简单检查和复杂检查两种,这两种检查是相互的,一个完整的系统,不仅需要简单的 检查规则,同时也需要复杂的检查规则。 (2)数据质量检查结果的展现和报告 这主要包括对检查任务所进行的查询的明细,对检查结果进行查询的明细,查询出现的错误的明细,对生成的检查报告以及质量日志所进行的增加、删除、查询等功能;在进行检查之后,可以对每个系统、每个阶段的数据的可用性、准确性、一致性、及时 性等进行汇总,还可以对检查任务的明细进行浏览,并查看检查结果:还可以通过选择日期、系统或是阶段等关键字筛选某一特定检查任务,查看其汇总报告,对于这一特定任务,如果有结果明细的,还可以直接查看到明细数据,还可以显示ETL的任务明细,若是任务失败的,则还要求与质量日志相关联,来查看ETL,如果显示未关联,则还需要通过系统提醒管理员将这些任务与日志记录相关联。4.2数据质量管理系统的总体设计在体系架构上,数据质量管理系统主要是由三个平台和一个知识库组成的,如图4.1所示。 数据仓库数据质量管理的研究检查结票展现平台检查规则配置平台知识库检查规则执行平台图4.1数据质量管理系统架构Fig.4.1 Architecture of DataQuality ManagementSystem(1)检查规则配置平台 这个平台部署在DQC平台的PC服务器上,主要是通过对客户端配置数据检查规则、为一些文件或是脚本配置数据检查规则,并有管理员来执行这些操作,DQC平台所配置的检查任务一般有两种,即常规的和随机的质量检查: 1)常规质量检查。由DQC平台将检查任务配置到ETL Automation中,并由ETL Automation对生成的检查程序和检查脚本执行定期检查和调度。2)随机质量检查。指的是管理员在

我要回帖

更多关于 数据仓库工程师面试题 的文章

 

随机推荐