如何高效实现hadoop实时数据仓库库

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。
数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,
更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完
善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它
着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循
环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发
者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。
& & 数据仓库的设计大体上可以分为以下几个步骤:
l& &&&概念模型设计;
l& &&&技术准备工作;
l& &&&逻辑模型设计;& &
l& &&&物理模型设计;
l& &&&数据仓库生成;
l& &&&数据仓库运行与维护。
& & 下面我们六个主要设计步骤为主线,介绍在各个设计步骤中设计的基本内容。
第一节&&概念模型设计
& & 进行概念模型设计所要完成的工作是:
&1&界定系统边界& && &
&2&确定主要的主题域及其内容
概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,
所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中&有什么&、&怎样组织的&和&如何分布的&等,然后再来考虑
应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整
而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。
& & 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。
1. 界定系统的边界
& & 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:
l& && && &要做的决策类型有哪些?
l& && && &决策者感兴趣的是什么问题?
l& && && &这些问题需要什么样的信息?
l& && && &要得到这些信息需要包含原有数据库系统的哪些部分的数据?
& & 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。
2. 确定主要的主题域
& &&&在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较明确的描述,描述的内容包括:
l& && && &&&主题域的公共码键;
l& && && &&&主题域之间的联系;
l& && && &&&充分代表主题的属性组。&&
第二节&&技术准备工作
& & 这一阶段的工作包括:技术评估,技术环境准备。
这一阶段的成果是:技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。管理数据仓库的技术要求与管理操作型环境中的数据与处理的技术要求区别
很大,两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型数据分离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术
要求上的差异是一个重要原因。
1. 技术评估
& & 进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:
l& && && &&&管理大数据量数据的能力;
l& && && &&&进行灵活数据存取的能力;
l& && && &&&根据数据模型重组数据的能力;
l& && && &&&透明的数据发送和接收能力;
l& && && &&&周期性成批装载数据的能力;
l& && && &&&可设定完成时间的作业管理能力。
2. 技术环境准备
& & 一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相关的问题:
l& && && &&&预期在数据仓库上分析处理的数据量有多大?
l& && && &&&如何减少或减轻竞争性存取程序的冲突?
l& && && &&&数据仓库的数据量有多大?
l& && && &&&进出数据仓库的数据通信量有多大?等等。
& & 根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有:
l& && && &&&直接存取设备(DASD);
l& && && &&&网络;
l& && && &&&管理直接存取设备(DASD)的操作系统;
l& && && &&&进出数据仓库的界面(主要是数据查询和分析工具);
& & 管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓库需要的,还应考虑自己或软件集成商开发有关模块等等。
第三节&&逻辑模型设计
& & 在这一步里进行的工作主要有:
l& && && &&&分析主题域,确定当前要装载的主题;
l& && && &&&确定粒度层次划分;
l& && && &&&确定数据分割策略;
l& && && &&&关系模式定义;
l& && && &&&记录系统定义
逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:
l& && && &&&适当的粒度划分;
l& && && &&&合理的数据分割策略;
l& && && &&&适当的表划分;
l& && && &&&定义合适的数据来源等。
1. 分析主题域
在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐
步完成的。所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要足够大,以便
使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的
子集来进行开发。在每一次的反馈过程中,都要进行主题域的分析。
2. 粒度层次划分
数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据
仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。
3. 确定数据分割策略
在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。数
据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密
联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。
4. 关系模式定义
数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数据仓库的基本
主题,并对每个主题的公共码键、基本内容等做了描述在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。
第四节&&物理模型设计
& & 这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。
& & 确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:
l& && && &&&要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。
l& && && &&&了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。
l& && && &&&了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/O特性等。
1. 确定数据的存储结构
& & 一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。
2. 确定索引策略
& & 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。
在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。
3. 确定数据存放位置
我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类
的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的
数据则可以放在低速存储设备上,如磁盘或磁带。
数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。
4. 确定存储分配
& & 许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。
第五节&&数据仓库的生成
& & 在这一步里所要做的工作是接口编程,数据装入。
& & 这一步工作的成果是,数据已经装入到数据仓库中,可以在其上建立数据仓库的应用,即DSS应用。
1. 设计接口
将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取程序就可
以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的工作,这一接口还应具有以下的功能:
l& && && &&&从面向应用和操作的环境生成完整的数据;
l& && && &&&数据的基于时间的转换;
l& && && &&&数据的凝聚;
l& && && &&&对现有记录系统的有效扫描,以便以后进行追加。
当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程。从操作型
环境到数据仓库环境的数据接口编程的过程和一般的编程过程并无区别,它也包括伪码开发、编码、编译、检错、测试等步骤。
在接口编程中,要注意:
l& && && &&&保持高效性,这也是一般的编程所要求的;
l& && && &&&要保存完整的文档记录;
l& && && &&&要灵活,易于改动;
l& && && &&&要能完整、准确地完成从操作型环境到数据仓库环境的数据抽取、转换与集成。
2. 数据装入
在这一步里所进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:
l& && && &&&确定数据装入的次序;
l& && && &&&清除无效或错误数据;
l& && && &&&数据&老化& ;
l& && && &&&数据粒度管理;
l& && && &&&数据刷新等。
最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。这
样既可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些问题并提出新的需求,然后反馈给设计人员,设计人员继续对系统改进、扩展。
第六节&&数据仓库的使用和维护
& & 在这一步中所要做的工作有建立DSS应用,即使用数据仓库理解需求,调整和完善系统,维护数据仓库。
建立企业的体系化环境,不仅包括建立起操作型和分析型的数据环境,还应包括在这一数据环境中建立起企业的各种应用。数据仓库装入数据之后,下一步工作是:
一方面,使用数据仓库中的数据服务于决策分析的目的,也就是在数据仓库中建立起DSS应用;另一方面,根据用户使用情况和反馈来的新的需求,开发人员进一
步完善系统,并管理数据仓库的一些日常活动,如刷新数据仓库的当前详细数据、将过时的数据转化成历史数据、清除不再使用的数据、调整粒度级别等。我们把这
一步骤称为数据仓库的使用与维护。
1. 建立DSS应用
& & 使用数据仓库,即开发DSS应用,与在操作型环境中的应用开发有着本质区别,开发DSS应用不同于联机事务处理应用开发的显著特点在于:
l& && && &&&DSS应用开发是从数据出发的;
l& && && &&&DSS应用的需求不能在开发初期明确了解;
l& && && &&&DSS应用开发是一个不断循环的过程,是启发式的开发。
DSS应用主要可分为两类:例行分析处理和启发式分析处理。例行分析处理是指那些重复进行的分析处理,它通常是属于部门级的应用,如部门统计分析,报表分
析等等;而个人级的分析应用经常是随机性很大的,企业经营者受到某种信息启发而进行的一些即席的分析处理,所以我们称之为启发式的分析处理。
& & DSS应用开发的大致步骤如下:
& & 步骤l&&确定所需的数据。为满足DSS应用的要求,我们必须从数据仓库中确定一个可能用到的数据范围。这是一个试探的过程。
& & 步骤2&&编程抽取数据。根据上面得到的数据范围,编写一个抽取程序来获得这些数据。为适应分析需求多变的特点,要求所编写的抽取程序应该通用,易于修改。
& & 步骤3&&合并数据。如果有多个数据抽取源,要将抽取来的数据进行合并、提炼,使数据符合分析处理的要求。
& & 步骤4&&分析数据。在上步准备好的数据基础上进行分析处理,并看所得的结果是否满足了原始的要求,如果不能满足,则返回步骤1,开始新的一次循环,否则就准备最终分析结果报告。
& & 步骤5&&回答问题。生成最终分析结果报告。&般情况下,最终的分析结果报告是在许多次的循环后得到的,因为一次分析处理很少是在一次循环后就完成的。
步骤6&&例行化、一次分析处理的最后、我们要决定是否将在上面已经建立的分析处理例行化。如果建立的分析处理是重复进行的部门级的DSS应用,那么最好
是将它例行化,这样在进行下一次同样的分析处理时,不必再重复上述六步的循环过程。而且,不断地积累这种例行处理,形成一个集合,我们就可以通过组合这些
已有的处理来生成新的一个较大的复杂处理,或完成一个复杂处理的一部分。
2. 理解需求,改善和完善系统,维护数据仓库
& & 数据仓库的开发是逐步完善的原型法的开发方法,它要求:要尽快地让系统运行起来,尽早产生效益;要在系统运行或使用中,不断地理解需求,改善系统;不断地考虑新的需求,完善系统。
维护数据仓库的工作主要是管理日常数据装入的工作,包括刷新数据仓库的当前详细数据,将过时的数据转化成历史数据.清除不再使用的数据,管理元数据,等等;另外,如何利用接口定期从操作型环境向数据仓库追加数据,确定数据仓库的数据刷新频率,等等。
阅读(...) 评论()实时数据仓库关键技术的研究与实现--《华南理工大学》2011年硕士论文
实时数据仓库关键技术的研究与实现
【摘要】:随着计算机技术和信息技术的不断发展,海量数据的不断涌现,企业迫切需要对数据进行高效、准确、及时的分析。传统数据仓库一般是按天、周或者月作为数据的更新周期,可以提供对历史数据的分析与查询,能够帮助决策者制定企业运营战略,但却不能实时地反映企业商业信息的变化。然而当前在电子商务、金融经济等领域中,需要及时的将数据发送到决策者手中,为企业提供更有价值的战术型决策支持,因此实时数据仓库应运而生。
数据的实时性和查询的频繁性是实时数据仓库的两个重要特性,它成为了实时数据仓库系统设计中的难点。当前,对于实时数据仓库领域的研究主要集中在两个方面,1)如何实时的对源系统中的变更数据进行抽取、转换、清洗并加载到数据仓库中;2)如何解决好变更数据不间断持续的更新集成和大规模频繁的并发查询之间的冲突。
本课题在深入研究和分析实时数据仓库的需求和特性的基础上,改进了实时数据仓库的架构模型,并提出了一种更新查询调度框架,该框架包括了触发机制和调度机制两个部分。在触发机制中,利用了批量数据加载的高效性以及数据仓库中数据的集成性和聚合性,设计了一套高效的触发规则,并采用了基于事件-监听的方式实现。在调度机制中,对任务进行两阶段调度,第一个阶段根据上一个周期已执行任务的运行状况和不同任务的到来频率,决定对更新或查询任务队列进行调度;第二阶段根据更新任务的实时性要求,对更新任务进行优先级划分,从而决定对哪个具体任务进行调度。该调度机制有效地利用了更新和查询任务的上下文环境,进一步优化了系统资源的分配。
本课题还对数据仓库中封闭立方体算法进行了研究,并提出了一种基于封闭立方体语义优化的查询算法。该算法一方面可以有效地缩减检索范围;另一方面可以有效地利用父查询点的结果来指导子查询点的查询。
最后,本文通过实验对更新查询调度框架中的性能关键点和查询优化算法的性能进行完整的评估,并将上面研究的数据仓库技术应用到电子商务领域的数据仓库实践中,对数据仓库业务应用集成方法进行了详细的总结。
【学位授予单位】:华南理工大学【学位级别】:硕士【学位授予年份】:2011【分类号】:TP311.13
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
谭汉松,刘涛;[J];信息技术;2003年03期
侯东风;陆昌辉;刘青宝;张维明;;[J];计算机科学;2008年10期
张俊,张忠能;[J];计算机工程;2004年S1期
马瑞新;许力;;[J];计算机工程与科学;2007年08期
吴杰;蒋外文;;[J];计算机应用研究;2007年11期
李盛恩,王珊;[J];软件学报;2004年08期
【共引文献】
中国期刊全文数据库
孙娜;;[J];安徽电气工程职业技术学院学报;2010年01期
朱文婕;[J];安徽电子信息职业技术学院学报;2004年Z1期
尹荣章,郑诚;[J];安徽大学学报(自然科学版);2001年01期
王永梅;胡学钢;;[J];安徽大学学报(自然科学版);2011年03期
秦宗贵;;[J];安徽科技;2006年06期
仲红,谢荣传;[J];安徽师范大学学报(自然科学版);2002年02期
崔柔刚,温阳东;[J];安徽水利水电职业技术学院学报;2004年01期
陈彩虹;郭旭文;;[J];北方园艺;2009年02期
陈文明,刘成宇,罗维勇,苏冬平;[J];宝钢技术;2003年04期
苏冬平,陈文明,刘成宇,毛春荣;[J];宝钢技术;2005年02期
中国重要会议论文全文数据库
宋亚男;刘春和;李新俊;齐俊臣;;[A];中国电子学会可靠性分会第十三届学术年会论文选[C];2006年
赵维佺;李迪;;[A];第二十七届中国控制会议论文集[C];2008年
方仕雄;李奇;;[A];第二十七届中国控制会议论文集[C];2008年
杨静;;[A];安徽省电机工程学会优秀学术论文集()[C];2005年
张婧;;[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
杨真;李也白;籍志兵;常一帆;;[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
张帆;余开朝;;[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
欧晓鸥;王志立;邵发森;;[A];全国先进制造技术高层论坛暨第七届制造业自动化与信息化技术研讨会论文集[C];2008年
吴泽雄;;[A];海南省通信学会学术年会论文集(2005)[C];2005年
秦科;;[A];计算机模拟与信息技术会议论文集[C];2001年
中国博士学位论文全文数据库
石绍顺;[D];辽宁中医药大学;2011年
周明;[D];天津大学;2009年
甘亮;[D];国防科学技术大学;2011年
魏莱;[D];湖南大学;2011年
白天;[D];华中科技大学;2012年
李刚;[D];中国科学院软件研究所;2001年
曹蓟光;[D];浙江大学;2001年
王靖飞;[D];东北农业大学;2002年
陈元;[D];国防科学技术大学;2002年
黄金才;[D];国防科学技术大学;2001年
中国硕士学位论文全文数据库
庞岱军;[D];山东农业大学;2009年
龚健;[D];安徽农业大学;2010年
刘菲;[D];辽宁工程技术大学;2009年
肖晴;[D];长沙理工大学;2010年
张蕾;[D];大连海事大学;2010年
高绍伟;[D];中国海洋大学;2010年
周翔;[D];中国海洋大学;2010年
纪雅楠;[D];中国海洋大学;2010年
陈凤萍;[D];中国海洋大学;2010年
王维家;[D];中国海洋大学;2010年
【二级参考文献】
中国期刊全文数据库
张旭峰;孙未未;汪卫;冯雅慧;施伯乐;;[J];计算机研究与发展;2006年06期
向隆刚;龚健雅;;[J];计算机研究与发展;2007年05期
刘运涛;鲍玉斌;吴丹;冷芳玲;孙焕良;于戈;;[J];计算机科学;2005年11期
胡孔法;陈崚;李斌;陈宏建;董逸生;;[J];计算机集成制造系统;2006年07期
崔立新,苑森淼,赵春喜;[J];计算机学报;2000年02期
冯建华,蒋旭东,周立柱;[J];软件学报;2002年08期
李盛恩,王珊;[J];软件学报;2004年08期
骆吉洲;李建中;赵锴;;[J];软件学报;2006年08期
章水鑫,徐宏炳,于立;[J];现代计算机(专业版);2005年03期
王琢;鲍玉斌;;[J];小型微型计算机系统;2005年12期
【相似文献】
中国期刊全文数据库
李小庆;[J];华南金融电脑;2004年07期
马慧麟,吴晓洁;[J];制造技术与机床;2005年05期
马慧麟;[J];中央民族大学学报(自然科学版);2004年04期
杨顺生;[J];中国计算机用户;1999年46期
袁磊,王培凤;[J];襄樊学院学报;2003年05期
张晓雁;[J];情报杂志;2002年05期
张俊,张忠能;[J];计算机工程;2004年S1期
刘涌,侯志俭,蒋传文;[J];华东电力;2005年01期
朱海峰;[J];中国金融电脑;2000年05期
;[J];每周电脑报;1997年16期
中国重要会议论文全文数据库
杨文川;郁文生;黄涛;;[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
严哲南;楼荣生;;[A];第十六届全国数据库学术会议论文集[C];1999年
杨崇联;谢旭升;;[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
刘刚;付忠广;申鹏飞;郑玲;靳涛;;[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
姚卿达;屈定春;;[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
唐蕾;张剡;柏文阳;徐洁磐;;[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
廖燕玲;卢语丹;阮艳萍;高丽金;;[A];Proceedings of 2010 National Vocational Education of Communications and Information Technology Conference (2010 NVCIC)[C];2010年
宋擒豹;沈钧毅;;[A];第十六届全国数据库学术会议论文集[C];1999年
刘伟宏;李晋晋;何瑷;徐洁磐;;[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
曹顺良;李荣;张忠平;汪卫;朱扬勇;李亦学;;[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库
宋俊德;[N];计算机世界;2002年
;[N];网络世界;2005年
;[N];中国计算机报;2007年
刘庆;[N];网络世界;2006年
本报记者 赵晓涛;[N];网络世界;2004年
本报记者 潘永花;[N];网络世界;2005年
邹大斌;[N];计算机世界;2007年
;[N];网络世界;2007年
本报记者 谌力;[N];网络世界;2005年
;[N];网络世界;2010年
中国博士学位论文全文数据库
孟京辉;[D];中国林业科学研究院;2011年
朱传华;[D];中国地质大学;2010年
宋杰;[D];东北大学;2008年
陈燕;[D];大连理工大学;2000年
克里木;[D];大连理工大学;2003年
陈金玉;[D];重庆大学;2002年
李文海;[D];华中科技大学;2007年
徐小博;[D];吉林大学;2012年
麦永浩;[D];华东理工大学;2000年
吴金华;[D];武汉大学;2003年
中国硕士学位论文全文数据库
陈思维;[D];电子科技大学;2010年
张艳;[D];西安电子科技大学;2010年
蒋昙飞;[D];西安电子科技大学;2009年
彭辛庚;[D];湖南大学;2009年
赵在宽;[D];解放军信息工程大学;2009年
李慧;[D];天津大学;2010年
袁玮;[D];电子科技大学;2009年
文宇;[D];电子科技大学;2009年
张静波;[D];电子科技大学;2009年
齐文;[D];东北大学;2008年
&快捷付款方式
&订购知网充值卡
400-819-9993找不到答案?
Informatica的数据解决方案如何帮助企业的IT组织经济高效地管理数据仓库中激增的数据量?
Informatica的数据解决方案如何帮助企业的IT组织经济高效地管理数据仓库中激增的数据量?
按投票排序
按时间排序
<dd id="vote_num_
  借助Informatica平台(全球领先的独立企业数据集成平台)的强大功能,Informatica Data Archive让组织能够处理大型跨国企业通常拥有的海量数据。该软件提供优秀的扩展性和性能,根据数据的价值将它们传送到最经济高效的存储设备中。它还提供无比的互操作性。该软件基于开放式、易于扩展的体系架构,很容易与第三方解决方案集成。
  Informatica Data Archive能够帮助您的IT组织经济高效地管理数据仓库中激增的数据量。它使您能够轻松、安全地存档非活动数据,在需要时很容易访问这些数据。Informatica Data Archive提供您的IT组织有效管理数据仓库中的数据增长所需的所有功能,包括:
  1. 强大的存档技术,可确保存档后的数据完整性并支持多种存档格式,实现存储层最优化
  2. 多种方法轻松访问存档数据
  3. 自动索引存档数据
  4. 自动管理变化数据结构
  5. 通过连接
  6. 与其他存档平台、ECM及存储解决方案(如Symantec、Commvault和EMC)集成
  1. 强大的存档技术实现存储层最优化
  使用Informatica Data Archive,可以存档到另一个数据仓库实例,或存档到能极大节省存储空间的高度压缩文件格式。随着数据变旧和访问需求随时间变化,Informatica Data Archive自动将数据从一种存档格式转成另一种格式,并从一个位置迁移到另一个位置,启动多个经济高效的存储层。
  Informatica Data Archive只允许存档事务数据和明细数据,这些数据是增长最快的。在维护数据完整性以及指向可能仍然存储在生产系统中的维表和聚合表的链接时执行此操作。最后 ,有些较旧的维记录也可能需要存档。Informatica Data Archive非常清楚应存档哪些类型的表来支持最优的存档策略。
  Informatica Data Archive提供一个简单易用的图形用户界面,不需大量的配置、编写脚本或编制程序就可以轻松定义存档工作。利用提供多种存档格式和辅助功能选项的数据仓库存档解决方案,IT组织可以在存档大小、性能、应用程序可存取性以及成本之间确定一个适当的平衡点。
  2. 多种方法轻松访问存档数据
  不管是哪种存档格式,已存档的数据都需要能够从原始应用程序接口或通过标准接口轻松访问,以便进行报告或合规性审计。Informatica Data Archive支持使用任何报告或商业智能工具通过标准SQL/ODBC/DBC接口进行报告。该解决方案还让您选择从应用程序能够识别的数据发现门户访问数据,能够基于业务实体轻松搜索、浏览和查看已存档或已停止使用的数据,并且使用与原始应用程序接口有类似外观的接口。
  3. 自动索引存档数据
  在将数据存档到另一个数据仓库实例时,Informatica Data Archive自动建立和维护在生产数据仓库实例中存在的索引。当存档到高度压缩存档文件时,数据会自动进行索引并以最优格式存储,以便于高效存储和可扩展检索。不需对存档数据进行性能调整和维护、减少IT职员的工作时间。
  4.自动管理变化数据结构
  随着生产数据仓库结构不断演变,Informatica Data Archive自动更新存档数据仓库的元数据和结构。当存档到高度压缩文件格式时,Informatica Data Archive维护多个版本的元数据,与生产数据仓库结构的定期快照相对应。这样就可以基于某个时间点的数据仓库结构对存档数据执行时间点查询。根据生产数据仓库的结构变化自动管理存档数据的元数据和结构,Informatica Data Archive减少了存档基础设施所需的维护工作。
  5.通用连接
  如果您的组织与许多其他企业类似,则您的数据仓库和应用程序可能在不同操作系统上的多个数据库系统中运行。为了支持您的企业需求,Informatica?Data?Archive允许您管理数据仓库和使用不同数据库的应用程序的存档过程,这些数据库包括:关系型(如Oracle、DB2、Sybase、SQL?Server、Teradata、Informix)、大型机(如 IDMS、VSAM 和 IMS)、文件以及开放系统(如 Windows、Linux 和 UNIX)或大型机系统(如 z/OS 和 AS/400)上的封装 CRM 和 ERP 应用程序。
  6.与其他存档平台、ECM 和存储解决方案集成
  您的公司可能已经有用于电子邮件和文件的存档解决方案。此外,您的 IT 组织可能也有自己的企业内容管理 (ECM) 解决方案标准来管理您的非结构化数据。为了支持合规性需求并确保留存数据的不变和单实例存储,可以使用需要专属连接的存档 平台,如内容寻址存储 (CAS)。
  为 了 让 您 的 组 织 快 速 而 精 确 地 响 应 审 计 请 求 以 及 经 济 高 效 地 长 期 留 存数据,Informatica Data Archive 允许您集中管理和发现所有类型(结构数据和非结构数据)的存档数据。这通过与现有存档、内容管理和存储解决方案(包括EMC Documentum、Symantec Enterprise Vault 和 Discovery Accelerator、CommVault Simpana 和 eDiscovery)集成来完成,以促进所有类型存档数据的集中管理和电子搜索。
  Informatica Data Archive 使组织能够处理大型跨国企业通常拥有的海量数据。通过提供全面而强大的技术来轻松、安全地存档非活动数据,然后在需要时很容易访问数据,Informatica Data Archive 提供了全面的存档解决方案,可提供最优化、经济高效的数据仓库基础设施。
登录后可回答问题,请
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...
RDS是一种稳定可靠、可弹性伸缩的在线数据库服务。支持MySQL、SQL Server、PostgreSQL、高...

我要回帖

更多关于 数据仓库的特点 的文章

 

随机推荐