数据仓库架构:还是值得去的,我在15

一个入门者对BI的一点想法 r o u 13 数据仓庫架构的发展和软件的发展共性分析 p / 26 当维度建模遇上3NF t t n n 28 内外交困——目的说 30 很吃惊,现在电信行业经分项目都不分析客户了 么? 32 电信业没有客户汾析 编辑 33 BI传奇 之 龙虎斗(三) 刘庆 happyscry@ 35 有关数据仓库架构的实施方法论 投稿 38 痛苦的上午 加入ttnn邮件列表 并 将您的文章发送到 ttnn@ 过刊下载 http://happyscry.googlep- ttnn 矩阵 友情匼作 本杂志文章转载请注明出处和作者! 2 | ttnn BI 观点 卷首语 五月寄语 二三四五年六前(具体记不清楚了),XXX网开张各厢媒体竞相报道,场面好鈈宏 大记得那时在中关村,满大街都是谢霆锋的代言广告似乎一夜间XXX真成了网络界的 新贵。可是没几年的功夫这个XXX网竟簧了。你说渏怪不这么大的一个网站,这么帅 的一帅哥咋说不行就不行了呢。唉。 也是二三四五年六前,俺找到了第一份工作是专门给领導做系统用的,一般的小职员 可没资格用的哦那个兴奋啊,仿佛做了这个系统就是领导了呵呵,爽——可是没几 年的功夫,这玩意竟成了人见人骂的过街鼠什么花瓶工程之类的话都砸将过来,砸的俺 的小身板怎么也直不起来——你说奇怪不,这么好的一个系统咋就没人能认识到他的 价值呢。唉。 还好地球是圆的,风水也是轮流转的 这个XXX网站倒下去了,更多个网站火起来了据说现在很多網站都是实实在在赚钱 呢,不是叭叭抓你眼球的净忽悠了 俺最早做的系统现在什么样,不知道可以肯定的是早搁置淘汰了。但现在更哆的公 司意识到了这种系统的重要性开始或已经在建了。至少现在越来越多的人知道她认识 她,研究她了这市场看来又要生机勃勃叻。 前不久看一篇报道,某某网站的CEO出来说我们在网站艰难的时候,大家每个人每 月只拿几百块钱现在终于熬过去了,不易呀那意思似乎是有了他这一家网站坚持,所 以

架构是数据仓库架构建设的总体規划从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么架构就是回答怎么做的问题。

 数据仓库架构的核心功能从源系统抽取数据通过清洗、转换、标准化,将数据加载到BI岼台进而满足业务用户的数据分析和决策支持。数据仓库架构架构包含三个部分:数据架构、应用程序架构、底层设施

底层设施为架構提供了基础,底层设施包括硬件、数据库平台、网络和桌面系统 

硬件主要指服务器硬件,主要有数据库服务器、ETL服务器、调度服务器、报表服务器、BI门户服务器、接口服务器

数据仓库架构不同的应用对桌面系统也有不同的要求,开发工具主要有Window、Mac面系统部署服务器主要有Unix桌面系统,系统BI应用程序主要有Window、Mac、移动设备桌面系统

 网络是底层设施的基础,特别是大数据时代对网络的要求越来越高

数据倉库架构是数据处理的后台,业务用户并不关心后台怎么处理BI应用是数据呈现的前台,是业务用户进行查询的入口BI应用程序的体验也昰衡量数据仓库架构是否成功的主要因素。

业务分析从监视活动开始识别某个问题或时机进而采取行动,最终回到监视该活动产生的结果上来达到数据驱动业务增长的目的。分析周期把这个过程分为五个不同的阶段 

 数据以接口的形式提供给上下游系统,供上下业务系統进行查询主要有推和拉二种模式。

  业务用户根据自己的需求自定义查询请求,后台自动组织SQL语句访问维度模型

  根据业务用户的需求,进行定制报表

  它是向企业展示度量信息和关键业务指标现状的数据可视化工具。

 为数据挖掘工具提供标准基础数据

 为了减少业务系统的大数据量查询压力,数据仓库架构为业务系统提供实时的查询

数据架构主要描述数据从源系统抽取数据,然后经过清洗、规范化、提交形成标准模型最终提交给业务用户,以及对数据的管理 

数据仓库架构一般会面临多个、异构数据源的问题,主要分为结构化半结构化以及非结构化数据。为了便于管理需要对源系统建立元数据信息  

 因为源系统的多样性,源抽取阶段一般选择使用工具在抽取の前还要做以下工作:

数据剖析是对数据的技术性分析,对数据的内容、一致性和结构进行描述对源系统的数据质量进行评估。 

 为了减尐对源系统的影响一般只抽取变化的数据,也需要识别物理删除的数据CDC策略主要有:

在源系统追加日期字段,当数据发生变化的时候系统会自动更新该值。如果由后台人员手工修改数据可能就发生遗漏。

比较源系统和数据仓库架构的数据只抽取变化的数据。这种方法需要全量的数据比较耗费资源。可以视数据量的大小而定

读取数据库操作日志信息,同步到数据仓库架构中一般日志的有效期仳较短,一旦发生要重跑的情况可能以前的日志已经被清空了。

把事务信息放到消息队列里以流的形式同步到数据仓库架构。这种方式即可以减轻源系统的压力又能做到实时同步。

数据从源系统抽取过来之后就要进入数据转换阶段。 这一阶段是数据仓库架构开发核惢阶段主要有以下步骤: 

数据清洗是制定转换规则,筛选数据并纠正数据的过程清洗的目的是改进源系统的数据质量,但是不要在数據仓库架构做过多的清洗源系统的数据质量应该在源头处理。清洗的主要内容包括: 

 规范化就是整合各个源系统的数据把数据统一命洺,统一取值建立企业标准版本数据。主要内容包括:

  1. 选择合适的缓慢变化维类型

聚集是指根据事务事实表进行更高粒度的聚合以及生荿相对应的维度表主要内容包括: 

数据存储是指在在数据的生命周期内对数据的管理,主要内容包括: 

在一个成體系、结构化的数据应用场景下数据和处理有四个层次: 操作层、数据仓库架构层、部门/数据集市层、个体层。

操作层是指为具體业务提供实时响应的各个业务系统比如常见的订单系统、ERP、用户中心等等具体业务系统,这些系统中的数据一般都是存入关系型数据庫它们是数据的来源。

数据仓库架构收集操作层各个业务系统中的数据进行统一格式、统一计量单位,规整有序地组织茬一起为数据分析、数据挖掘等需求提供数据支持。

部门/数据集市层是各个部门根据自己的数据分析需求从数据仓库架构中抽取自己部门所关心的数据报表。

个体层中的不同角色个体有读取不同数据的权限

数据仓库架构是一个面向主題的、集成的、非易失的、随时间变化的,用来支持管理人员决策的数据集合数据仓库架构中包含了粒度化的企业数据。

数據仓库架构不同于传统的操作型系统传统的操作型系统中的数据是围绕功能进行组织的,而数据仓库架构是针对于某一个主题进行分析數据用的比如针对于销售主题、针对于客户主题等等。

不同产品或者系统中的数据是分散在各自系统中的并且格式不一致、计量单位不一致。而数据仓库架构必须将多个分散的数据统一为一致的、无歧义的数据格式后并解决了命名冲突、计量单位不一致等问题,然后将数据整合在一起才能称这个数据仓库架构是集成的。

数据仓库架构要体现出数据随时间变化的情况并且可以反映在过去某一个时间点上数据是什么样子的,也就是随时间变化的含义而传统的操作型系统,只能保存当前数据体现当前的情况。

非易失是指:数据一旦进入数据仓库架构就不能再被改变了,当在操作型系统中把数据改变后再进入数据仓库架构就会产生新嘚记录。这样数据仓库架构就保留了数据变化的轨迹

业务系统的数据接入到数据仓库架构时,首先将业务数据仓储到STAGE层中Stage层莋为一个临时缓冲区,并屏蔽对业务系统的干扰

ODS才是数据仓库架构真正意义上的基础数据,数据是被清洗过的ODS层的数据是定义统一嘚、可以体现历史的、被长期保存的数据。

MDS是数据仓库架构中间层数据是以主题域划分的,并根据业务进行数据关联形成宽表但是鈈对数据进行聚合处理,MDS层数据为数据仓库架构的上层的统计、分析、挖掘和应用提供直接支持

ADS层是数据仓库架构的应用层,一般以業务线或者部门划分库这一层可以为各个业务线创建一个数据库。

DIM层是数据仓库架构数据中各层公用的维度数据。比如:省市县数據

对接入数据仓库架构的数据进行清洗、数据仓库架构各层间数据流转都需要大量的程序任务来操作,这些任务一般都是定时嘚并且之间都是有前后依赖关系的,为了能保证任务的有序执行就需要一个ETL调度系统来管理。

描述数据的数据叫做元數据元数据信息一般包括表名、表描述信息、所在数据库、表结构、存储位置等基本信息,另外还有表之间的血缘关系信息、每天的增量信息、表结构修改记录信息等等

4、设计的两个重要问题

粒度是指数据仓库架构中数据单元的细节程度或综合程度的级别。粒度会深刻地影响数据量的大小以及数据仓库架构的查询能力

数据分区是指把数据分散到可独立处理的分离物理单元Φ去。恰当地进行分区可以给数据仓库架构带来多个方面的好处:

我要回帖

更多关于 数据仓库 的文章

 

随机推荐