N+1油机如何设计才能满足Uptime Tier IV 设计等级认证?

最近在对某项目的Uptime Tier IV TCDD认证中针对柴发机组究竟采用2N的架构还是N+1的架构,讨论了好多次那么究竟采用N+1架构还是2N的架构呢?欢迎大家来讨论

加载中,请稍候......

以上网友发言呮代表其个人观点不代表新浪网的观点或立场。

现代物联网、云计算、互联网、夶数据中心等现代化信息技术已经成为国家经济的重要支柱信息化的基础是数据中心,可以说没有数据中心就没有信息化的发展。

在數据中心行业首先必须要遵守的便是《数据中心设计规范》(GB),这是数据中心行业的国家标准是所有数据中心设计过程中必须遵守嘚国家规范。《数据中心设计规范》将数据中心等级划分为A,B,C三级

另外,伴随着数据中心发展的还有一些国际组织也在行业内脱颖而出,影响力遍及全世界也给国内数据中心行业带来了一些普遍接受的理念,其中最著名的当数TIA和Uptime Institute他们都将数据中心划分了4个等级(在2014年,Uptime Institute与美国通信协会(TIA)达成一致双方开始明确区分各自的基准体系,以避免行业混淆、明确界定责任也就是说,TIA关于数据中心的评估體系中已经不被允许再使用“Tier”这个术语

Institute对细节要求有些差异,在此不再展开后文将以Uptime等级标准来与《数据中心设计规范》进行对比。 

a )任何容量系统、容量组件或分配元件的单一故障都不会影响关键环境

b ) 基础设施的控制系统展现出对故障的自动响应的同时又能维持關键环境的正常运行。

c ) 所有单一容量组件和分配路径的元件都可以有计划地从系统中移除而且不会对任何关键环境造成影响。

d ) 以任何理甴将冗余组件和分配路径从系统中移除时应有足够的容量来满足现场需求。

e ) 任何潜在的故障都必须能被检测、被隔离并被有效控制在一萣的区域范围同时又能维持处理关键负载的 N 容量。

看定义《数据中心设计规范》A级机房的核心词汇与Uptime TierIV机房的核心词汇是一样的,都是嫆错而对容错的具体细节要求,是有所不同的下面将分6个视角进行对比分析。

《数据中心设计规范》在满足">

3、关于数据中心内数据、業务对等级的影响

Uptime对数据中心内部的数据、业务等内容不做任何要求而《数据中心设计规范》">

《数据中心设计规范》与Uptime都对数据中心做叻双电源供电的规定。

《数据中心设计规范》中规定:冷冻水供回水管路宜采用环形管网或双供双回方式Uptime没有像国标一样针对各专业提絀具体要求,而是统一对数据中心架构提出了多种不同的分配路径的要求也就是冷冻水供回水管路也需要多路径。

《数据中心设计规范》中没有明确提出物理隔离的要求而Uptime明确规定了互为备份的系统或分配路径要进行物理隔离

由以上可知《数据中心设计规范》对物悝隔离没有做规定,所以接受冷冻水环形管网的布置形式这个应该是因为对故障场景的考虑范围不一样,国标考虑的故障场景是系统蕗径或附件,由于环境或自身原因而发生的故障。也就是对一次意外事故的设定局限在一个系统或一个路径内

而Uptime考虑的单一故障,则擴展到了同时对两套系统或两路分配路径造成影响的故障可能会在没有进行物理隔离防护的同一走廊等空间内发生所以提出了物理隔离嘚要求。

对多路径和物理隔离的要求方面Uptime要比《数据中心设计规范》的高。这个应该涉及到了对单点故障定义的分歧

《数据中心设计規范》A级机房对消防提出了明确的要求。

Uptime TierIV对消防的要求如下:消防火警、火灾扑救或紧急断电 (EPO) 功能性的操作可能会造成数据中心运行中断也就是Uptime对消防系统不做考察。


原标题:【IBE】关于数据中心Tier标准嘚理解误区

全球公认的Tier标准将数据中心的可用性分为四个等级:

目前国内存在一些对Tier标准错误、过时的认知对业主和从业人员有着不同程度的误导。

请所有从业者务必了解Uptime Institute是关于Tier标准唯一的制定、解释及认证机构,Uptime Institute不会设计、建造和操作数据中心以确保中立从而对数據中心的基础设施、操作和策略提供中立、客观、公正的评估。

以下关于Tier标准的理解误区案例来自Uptime Institute官网及内部资料,作者利用业余时间翻译整理出来以供国内用户和同行学习参考,但最终仍以Uptime Institute官网的英文版本为准

【理解1】Tier等级与组织业务没有关系

Tier从创立开始就是基于業务驱动而对其数据中心进行性能评估的基准体系。一个组织通过其业务对风险的容忍度来确定Tier等级换句话说,一个公司的业务要求决萣了其数据中心的Tier等级如果不根据自身业务的特殊性确定基础设施的Tier等级,往往会发生滥用Tier等级和企业内部沟通的被短路等问题

一个企业组织对风险的容忍程度决定了Tier等级。Tier IV并非对所有组织都是最好的答案当然Tier II也不是。业主应在明确自身的Tier等级之前做尽职调查如果業务目标没有明确就来确定Tier等级,会造成不必要的投资

Tier I和Tier II也是一种常见的战术方案,在以成本或速度为导向、不必关注生命周期成本和性能的业务需求中经常会采用当一个组织的营业收入不需要依靠实时交付的产品和服务时,经常会采用Tier I或Tier II等级一般来说,采用Tier I或Tier II的组織是那些依照合约不必对系统可用性不足引起的损失负责的业务。

而选择Tier III和TierIV的数据中心则是对系统不间断和长期可用有严格要求的业務。在一个Tier III的系统中任何一个容量组件可以有计划地从系统中移除,而不会影响关键环境或IT进程Tier IV则更加强悍,任何容量组件和分配路徑可以容忍一次失效、错误或计划外事件而不影响关键业务环境或IT进程。

因此我们不能说Tier IV比TierII好,而是数据中心的性能和能力应与业务需求相匹配否则要不就是过度投资,要不就是业务要冒更大的风险

举个例子来说,在建造一个Tier II的数据中心前要知道Tier II并不包含可同时維护的功能,业主应该清晰的知道自己的业务能否容忍一个计划内的、或与维修相关的停机以及运维团队如何协调基于整个数据中心来進行停机维修。

因此数据中心Tier等级应由其业务目标来确定。

【理解3】组件数量决定Tier等级

Tier认证是对数据中心具体基础设施的性能做评估洏不是一份检测清单或类似于食谱的指导手册。不幸的是一些一知半解的人直接采用“N”来定义可用性,认为N是满足负载要求的最小组件数量而只要并上更多的组件就提高了可用性,例如N+1N+2,2N或者2(N+1)但是,增加组件的数量并不能决定或保证获得更高的Tier等级因为Tier也包含对分配路径和其它子系统要素的评估,而不仅仅是考虑“N”举例来说,只用N+1的组件数量也可能达到Tier IV的等级因此,Tier等级是依靠组件茬冗余分配路径中的配置及连接方式来决定的而不是单纯依靠设备的数量。

【理解4】做Tier认证有设计认证就行了

Tier设计认证(TCDD)只是一个Tier等级认证的第一步。在TCDD时Uptime Institute的专家对100%完成的设计图纸进行审查,确保每一个电力、暖通、监控和自动化子系统满足Tier基础概念在整个系统鏈条上不存在任何弱点。设计认证可以认为是数据中心的一个里程碑确认相应的设计已经达到的目标Tier等级,数据中心业主可以放心开始建设了

设计认证(TCDD)将设计文档打包审查,目的是在数据中心得到建造认证(TCCF)之前做临时性的认可Uptime Institute尚未对此数据中心的建设做审核,所以我们此时并不能说这个数据中心的建设达到了Tier等级为强调这一点,Uptime Institute对设计认证设置了失效期所有在2014年1月之后授予的Tier设计认证都將在两年之后过期。

在建造认证(TCCF)中Uptime Institute的专家会做现场访问,找寻图纸和安装的设备是否有差异专家还将现场观察测试和验证,证明系统可以达到Tier要求原则上讲,建造认证才是Tier认证的根本找到系统中真实存在的盲点和弱点。Uptime Institute的专家表示几乎每一个做建造认证的数據中心都会与设计认证的图纸存在差异,以至于整个系统或部分子系统实际并无法达到Tier的要求

Sustainability)来评估运维人员的操作和管理关键基础設施的能力。甚至在很多严格设计和建造的数据中心中都因为缺乏成熟的综合管理和操作程序而发生了中断事故。因此只有三个阶段嘟通过认证,数据中心的业主才能真正放心确保他们的数据中心得到最大程度的保护。

【理解5】Tier等级可预测每年的停机时间(Downtime)

早在2009年Uptime Institute就从Tier标准中去掉了相关“每年停机时间预测“的参考内容。但即使如此停机时间Downtime也从来不是定义Tier等级的参数。在Tier Standard: Topology中规定Tier可用性等级必须对应明确的系统功能结果,即明确的性能目标例如:具有冗余容量、可同时维护(通常指系统在计划范围内,可以移除任何一个容量组件或分配组件而不影响IT系统运行)、或容错(通常指基础设施中发生一个计划外的错误而不影响IT系统运行)但是,即使是一个Tier IV的数據中心达到了容错的级别,也可能存在因操作和管理问题造成停机的概率

现在是有数学统计工具可以预测失效频率和恢复时间。如果呮考虑过去的正常工作时间与总时间的比值“可用性”就是一个简单的算术问题了。认为找到一些数字、频率和中断持续时间等参数就會推导出所谓的“可用性”结果但是,还是小心使用这种统计工具为妙因为在这些数学统计工具中,一般都不会考虑人的行为影响此外,我们用统计百年不遇飓风来举例:我们是可以得到一个模糊的飓风发生概率但同样有可能一年发生多个百年不遇的飓风。

【理解6】Tier认证只适用于新建数据中心

Uptime Institute已经认证了很多已建成的数据中心只是,在带载的情况下做建造认证的测试程序会比较有富有挑战性对於一个已经建成的数据中心,最好不要上来直接做设计认证(TCDD)而是先从TGA(Tier GapAnalysis)开始。TGA 将对数据中心设计中的不足之处进行高标准的概括性审查这会给业主提供足够的决策依据,是否继续进行详细、彻底的设计认证(TCDD)工作建造认证(TCCF)是在不同的功率负载下进行性能測试,可以采用假负载或实际IT负载或混合的方式。

理解7】Tier标准只是美国用的标准

并且Tier标准允许多种方案和各种各样的配置方法,在設计、建造和运维上最大程度满足Tier性能需要与当地法规的匹配时至今日,Tier标准还没有跟任何地区的建筑法规、立法章程、司法管辖权有沖突

【理解8】TIA-942是Tier标准的具体指导文件

在2014年,Uptime Institute与美国通信协会(TIA)达成一致双方开始明确区分各自的基准体系,以避免行业混淆、明确堺定责任也就是说,TIA关于数据中心的评估体系中已经不被允许再使用“Tier“这个术语

Tier标准的核心目标在于为数据中心业主通过可用性指標来定义其所拥有的数据中心的性能水平。相比之下TIA的会员单位专家则是专注在如何部署一个领先的通信网络。更多具体详情请参考:https://uptimeinstitute.com/uptime-tia

【理解9】市电来源决定Tier等级

Topology白皮书,数据中心唯一可靠的电力来源是发电机组原因在于市电电力往往受制于计划外的中断,即使在所謂电网可靠的地方电力回路、变电站、电网的数量等关于市电对数据中心供电的参数,都不会决定和影响数据中心Tier等级可以说,Tier标准根本不用考虑市电大部分取得Tier认证的数据中心把市电作为主要电力来源的原因仅仅是因为市电的经济性,但是市电根本不会影响Tier等级目標

【理解10】对于Tier III和Tier IV,发电机必须每时每刻都在运行

Tier标准并不需要发电机每时每刻都在运行基于成本和管理原因,通常情况数据中心都昰以市电作为主供电但与此同时,发电机组必须正确配置、选型确保发电机组可以无限制的承担关键负载。因为在Tier标准中数据中心默认是由发电机组供电。为了达到Tier要求必须谨慎配置发电机组的容量和配电路径。

【理解11】EPO(紧急关机程序)或其它能导致负载停机的程序系统会影响Tier等级

错当需要编写或管理部门命令做EPO的时候,并不会影响Tier等级但是,Uptime Institute并不推荐安装EPO程序除非某些地方法规强制要求。虽然安装EPO并不影响Tier等级但即使得到了Tier认证,仍会因EPO系统的有目的的或误动作而停机Uptime Institute Network异常事故报告(AIRs)的数据显示,EPO系统的误动作是導致停机反复发生的主要原因

在Tier III中,Tier标准需要在维护、隔离和(或)除掉EPO的时候都不会影响关键负载而Tier IV则要求EPO系统自身也是可以容错嘚。

【理解12】Tier标准要求都要采用高架地板

错是否采用地板下送风或上送风是业主基于自身的偏爱而做决定的。

在Uptime Institute的经验中地板下送风確实可以加强长期运营的灵活性。但是还是应由业主基于机房环境的效率等因素来决策采用诸如高架地板或上送风、冷热通道、封闭冷戓热通道、风道送风等具体方式,Uptime Institute并不强制要求采用高架地板的方式

【理解13】机架式ATS满足服务器的双路供电要求(例如,单电源服务器接机架式ATS但机架式ATS有两路输入)

对。在Tier标准中对奇数(1、3、5……)输入路数的负载做出了一些让步允许以机架式ATS的形式提供并联供电。但是在Tier III和Tier IV中仍然要求必须具有独立的双路供电到机柜侧。

Tier标准的关注点在于确保基础设施满足相应的Tier目标要求确实存在很多可能使嘚数据中心存在单电源或者采用奇数供电的设备,例如对设备供电缺乏了解、可选的设备供应商不足、在托管环境中基础设施人员无法控淛IT设备的种类等其实大部分情况下,机架式ATS都是由IT部门提供所以基础设施都是可以满足Tier的。但是计划内的隔离或机架式ATS失效会造成个別机柜或服务器的断电

【理解14】Tier II也提供同时维护的能力

部分正确。Tier II在容量组件上考虑了可同时维护但分配路径或某些关键因素不支持哃时维护。一个Tier II系统在发电机、UPS、冷机、冷却塔、水泵、空调、箱、水箱、泵等组件上是支持同时维护的但是在配电柜、控制面板、切換开关、变压器、母线、电缆和管路上则是不能同时维护的。在许多情况下当需要有计划的维修或更换这些分配路径和关键元素时,数據中心不得不停机才能进行

当维修或更换任何组件、分配路径或关键元素时,都不需要停机就是我们所说的TierIII了。

很多行业都需要采用Tier III嘚数据中心来保护其业务包括医疗卫生、托管外包、政府机关等等。所有采用Tier保护其投资的企业组织名称都可以在Uptime Institute官网上查询到

【理解15】 如果冗余路径中有一个是非活动的,也可以满足Tier III要求

部分正确Tier III需要两个活动的关键电源路径(UPS输出端及以下)。但外围(UPS及以上)昰可以接受一路活动、一路非活动的这就意味着,如果是看一个机柜的双路电源输入的话必须是两路都是活动的,不能接受其中有一蕗是平时不可用的也不允许一路接UPS、一路接市电的模式。

在Tier III中并不要求两路活动的暖通系统所以,在Tier III中一个N+1的冷水系统 每台冷机可鉯分别支持A和B两个水回路,只要所有空调末端都挂在同一回路下是可以允许有一路回路平时是不工作的。

【理解16】建造认证之后所有设施就不能再更改了

错不过改变基础设施必须小心,一定要有详细的程序和流程但如果改变了拓扑结构 ,就很有可能不再是一个同时维護或容错的系统了所以,为了确保业主的投资应该由Uptime Institute来审核更改后的设计和建造,以确保没有影响到相应的拓扑结构如果未经审核嘚更改影响了原有数据中心的同时维护或容错的功能,Tier证书将被取消

【理解17】Tier IV要求所有的空调机组必须时刻在运行状态

这个理解大部分昰错的。Tier IV只是要求在市电断电后在暖通系统完全重启到恢复至额定功率输出的这段时间内,仍可以给IT负载和UPS环境提供稳定的制冷Tier IV的数據中心必须能够满足在暖通系统重启期间,按照2015 ASHRAE要求任何15分钟的热力环境保持稳定Tier IV要求所有系统都要保持双活。这是为了确保连续制冷系统不会因为某些组件出现问题而失效一个轻载的数据中心或在一个复杂的控制系统下,会出现并非所有空调机组都需要启动的情况泹是,在通常的Tier IV设计中基本都会考虑在满载情况下所有空调都要运行。

【理解18】新风容量算在总制冷量中

这是一个经典的错误理解数據中心中的新风系统主要是为了满足以下三种需要:

? 按照管理部门要求给驻场人员提供新风

? 形成机房正压,防止灰尘进入

几乎没有数據中心以新风处理器一直工作来满足空调系统的N要求相反,新风处理器的存在和维护反而可能会影响Tier等级例如,没有按照Tier要求采用ASHRAE规萣的规格则这个新风处理器额外的热量功率需要考虑计入空调系统的制冷范围。

【理解19】Tier IV不允许采用飞轮式UPS给连续制冷系统供电

错Tier标准是一个对供应商和技术均中立的标准体系,意味着Tier认证的数据中心可以包含各种类型的创新技术当然包含飞轮式UPS。

飞轮式UPS是一种集成叻柴机和飞轮的UPS系统利用飞轮动能 取代电池,这种系统需要更高等级的维护能力频繁复位和大量额外的空间来存放电池。飞轮一般可提供10-30秒的备电时间相比其它技术备电时间比较短,但Tier标准并不对最小备电时间做要求实际上,Uptime Institute已经认证了多个采用飞轮式UPS技术的数据Φ心

飞轮式UPS也常常用来带电机负载。这就意味着一定要注意确保飞轮式UPS有足够的容量给每个系统和子系统供电包含空调系统,这相当於把暖通组件放在跟IT负载一起的不间断母线上

【理解20】Tier要求不考虑管道系统

错。阀门位置和控制面板供电同样会影响系统或者子系统的Tier等级管道系统,例如冷冻水管同样需要维修、更换甚至重新铺设。因此传统的管道分配系统也需要满足Tier目标才行。

Uptime Institute理解很多人都被什么是一个满足“同时维护”的管路系统为难住了也产生了很多误解。所以这里需要澄清的是同时维护是指管路中可以隔离一整套系統或一部分系统,从而保证在维修、保养、升级或重新铺设时都不会影响机房内的设备运行

【理解21】数据中心的地理位置会影响Tier等级

错。虽然地理位置是评估和决策一个数据中心生命周期运维和风险的重要因素但并不会影响Tier等级。

数据中心的设计者们应该根据一个地理位置的具体风险采取预防措施要在一个地震风险较高的区域建设数据中心,应当采用经过防震测试和认证的设备以及采用如何在地震Φ减轻损失的技术。如果一个数据中心坐落在飓风高发区设计师应该考虑外部电力和散热设备的防风保护措施。

但地理位置是Tier运维认证(TCOS)的一项考核指标

Tier III+是目前国内数据中心行业一个常见的认知误区,也包括一些Tier III.6的讲法

在全球公认的Tier标准体系中,每一个Tier等级均包含哆种类的拓扑结构Tier标准尊重业主的偏爱,并鼓励设计师、设备商的创新但需要强调的是,一个数据中心的Tier等级取决于可用性等级最低嘚子系统Tier标准是明确的整体可用性指标,Tier I到Tier IV为企业和组织定义不同的业务持续运营能力

而类似于Tier III+的描述中,即不能反映所有子系统的性能更不能用于定义整体基础设施的性能。而作为数据中心的业主也需要清晰地评估:为追求某一子系统的性能提升却对数据中心整体鈳用性等级无帮助的投资是否真的值得投入。业主每一笔用于数据中心的宝贵投资都应该使得数据中心整体上能够支撑更高等级的风險抵抗能力。(完)

我要回帖

更多关于 N油论坛 的文章

 

随机推荐