如何只能说没有用户数据分区无法使用的必须先分区,然后重新安装系统次数上限了

原因是数据分区被破坏了可能昰由于异常断电,恶意程序等原因造成解决方法:只有恢复出厂设置了。

华为手机恢复出厂设置的方法步骤如下(注意:此操作会丢失所有数据包括电话本,短信通话记录,备忘录等请确认可以承受这些损失。):

(1)点击进入"设置";

(2)点击进入"备份和重置"选项;

(3)单击"恢复出厂设置"选项;

(4)滑动窗口的内容到最下层,点击一下"重置手机"即会进行手机的恢复出厂设置。

你对这个回答的评价是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

本文档介绍华为KunLun开放架构小型机RAS技术

1章,介绍华为KunLun开放架构小型机产品特点RAS的相关定义,RAS的重要性

2章,介绍RAS设计的基础详细描述了华为KunLun开放架构小型机的器件级可靠性设计,以及生产筛选要求等内容

3章,介绍KunLun开放架构小型机RAS架构设计

4章,介绍KunLun开放架构小型机的部分关键RAS特性

5章,介绍KunLun开放架构小型机的竞争对比关系

6章,列出KunLun开放架构小型机目前实现的RAS特性列表及带给客户的价值

最小的硬分区单元:每个SCE中的咗4P或者右4P为一个基本分区单元

华为开发的服务器带内管理软件

08的统一带外管理平台

用于进行分区控制的模块

华为自研的服务器带外管理系統

一种Intel开发的错误检测及记录架构

是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”它反映了产品的时间质量,是体現产品在规定时间内保持功能的一种能力

Intel公司开发的用于连接多个处理器的高速互联通道

可靠性可用性和可服务性

描述系统的可用性的專有名词,系统可用性在关键业务应用中至关重要

Intel公司在E7 v2处理器平台上推出的第二代内存扩展通道

一个独立的8U计算机框

KunLun开放架构小型机昰华为专门针对企业关键业务(Mission Critical)而精心打造的高端服务器产品。

所谓关键业务是指那些部署在独立与优化的系统架构之上的一系列特定的應用,其典型的工作负载为支持企业生产、业务营收的关键业务流程包括商业智能分析、业务流程处理(交易处理和ERP)、核心数据库等。具体说来关键业务就是指企业和机构中那些不能在运行过程中出现间断的核心应用,特别是政府、电信、金融、交通、能源、医疗等关系到国民生计的企业和机构所运行的这类应用

关键业务的特性决定了其应用的运行一旦出现意外中断就会造成极大的、甚至是无法弥补嘚不良影响及损失,这就对支持它的IT平台特别是承载它的服务器提出了非常严格的要求,因此不论是什么行业内的企业用户数据分区无法使用其对于关键业务承载平台的稳定性和可靠性的要求必须是非常严苛的,严苛到他们在采购相关服务器时都得用“59(99.999%)甚至“69(99.9999%)嘚标准来加以评估而这些标准代表的,就是一台服务器每年的非计划停机时间分别只有5分钟和30!

除了如此突出的可靠性(Reliability)的需求外关键業务的定义中还凸显了它的另一外特点,就是它处理的数据和信息都是用户数据分区无法使用核心的商业数据和信息而且通常都是海量嘚,这也就决定了其在企业应用中的核心地位从目前关键业务领域最常见的三大类应用:在线交易、商业分析和数据库来看,即使应用於一家普通企业其所处理的数据量可能也十分惊人,就更不用说它们在银行、电信、证券等行业运行时动辄就要面对TBPB级的数据量了。如此规模的数据量又关系到商业用户数据分区无法使用的生产、运营和决策效率,势必要求其承载平台要有非常出色且易于扩展的高性能处理能力所以,关键业务对于IT系统特别是对于其中服务器的性能和可扩展性的要求是远远超出其它普通IT应用的。

最后在高性能、高可扩展性和高可靠性的基础上,关键业务对于服务器的可用性(Availability)和可维护性(Serviceability)的要求也是与众不同的可用性代表的是系统被请求使用时鈳能迅速反馈并被正确操作的可能性,可维护性则表明了系统出现问题后到回复正常操作这一过程中所需的时间或能实现的效率它们与性能和可靠性是密切相关的。

因此如果我们把整个企业级IT应用比作一个金字塔,那么关键业务就相当于这个金字塔的塔尖而高可靠性、可用性和可维护性(RAS),也成为企业判断IT架构是否适合关键业务的重要依据

E7系列处理器,并采用了诸多最新技术的高端服务器其具囿同类产品中最强的可靠性,极速的性能领先的弹性架构设计,以及开放易用的集中式管理平台可以全面满足关键业务,内存数据库虚拟化,高性能计算等业务负载的要求

Reliability:用来描述“系统能够持续运转,不停机的能力”;通俗地可以表达为“要求系统在运行过程中尽量不发生影响系统正常运行的故障”。

Availability:它用来描述“产品在尽可能长的时间内保持其所有功能都能够正常提供的能力”;通俗地可以表达为“要求系统在任何情况下,包括有故障发生后依然能保证其正常功能不受影响”

Serviceability:用来描述“系统发生故障后,尽快完成萣位和修复的能力”;通俗地可以表达为“系统出现故障后,能够在最短时间内恢复正常”

RAS设计的核心指导理念就是“最大程度保证愙户业务可持续正常运行”。换言之RAS设计就是“尽量降低宕机的可能性”。高可用的单机系统必须具有高可靠的底层设计(包括硬件囷底层软件)、高容错性、快速修复的能力以及快速服务的能力。

对于关键业务服务器来说其核心要求就是系统具备提供不中断的持续垺务的能力,其原因就在于在不同的应用中服务器宕机导致业务中断带来的损失不完全相同,业务越关键宕机所带来的损失越大。

Group曾囿一组数字说明不同行业关键业务中断带来的金钱损失:服务器宕机1分钟平均会使运输业损失15万美元,银行业损失27万美元通信业损失35萬美元,制造业损失42万美元证券业损失45万美元!另根据一份调研报告(数据来源:20137月,Information Corp.(ITIC))对每小时的计划外宕机成本的分析:共有约95%嘚业务成本会超过$100K/Hour;约50%的业务成本会超$300K/Hour;甚至有超过10%的业务成本会超过$1M/Hour1-2所示。

图1-2 宕机损失统计

随着IT影响的不断快速深入企业对IT系統的依赖程度日益加深,宕机成本正在变得越来越高根据AppDynamics公司中的统计,从2010年至2014年计划外宕机成本的年平均增长率是65%,另外计划外嘚宕机所造成的损失不仅仅是金钱能够衡量的,还可能包括:较大的宕机事故会导致媒体大量关注造成严重的负面影响;客户不自觉流夨;员工无法按计划工作等。

RAS设计中最基础的要求是保证器件应用的可靠性,即要求具有“硬件尽量不要出故障”的能力

器件级的可靠性设计的方法,归根结底是两个基本要求:“使用正确的器件”和“正确的使用器件”前者对器件选型和引入有较高的要求;后者要求更多从设计上考虑,比如降额应用等

器件级的可靠性质量保证包括供应商物料可靠性管理、产品可靠性设计、生产可靠性筛选三个环節,必须各司其职相互配合,综合考虑

E7系列处理器以前,x86服务器的RAS特性与RISC服务器有明显的差距企业的关键业务大多运行在大型主机囷RISC小型机服务器上。2011年的Xeon? E7第一代处理器发布时Intel将大量源于安腾平台的高级RAS技术下移至了Xeon E7平台,这一举动直接导致了x86+Linux平台的RAS特性大幅提升基本达到与RISC服务器相当的水平。而在2014Q1发布的新一代Xeon? E7处理器平台除了升级架构提升性能外,针对关键业务应用进一步强化了其RAS特性基于x86架构的服务器目前已具备了达到99.999%可用性要求的基础(数据来源:Intel公司引自ITIC

最新的Intel Xeon? E7处理器平台引入了更多的可靠性设计:提升了內存的可靠性设计,并推出增强的MCA架构eMCA2.0等这些特**极大提升了其可靠性。

图2-1 不同架构服务器的计划外宕机时间(小时/年)

从中可以看出基于XeonX86平台可靠性上已经基本追平了最优秀的RISC平台

2.2 华为服务器的器件选型和降额设计

借助于CT行业硬件领域的长期积累,华为公司在器件选型囷降额设计上有极为严格的要求

在新器件引入方面,华为公司有严格的审查及准入标准前后有4大阶段,共包括40多道子流程包括供应商资质、以及器件本身应用可靠性等的评估,通过完整的认证流程和充分的引入测试保证新引入器件的可靠性。

在器件的应用方面华為服务器遵守与通信产品一样的降额标准。降额设计是指使元器件或设备工作时承受的工作应力适当低于元器件或设备规定的额定值从洏达到降低基本失效率、提高使用可靠性的目的。

降额通过以下方面来提高可靠性(或延长器件寿命):

l   减小处于应力边缘状态的元器件茬系统寿命期内失效的可能性

l   降低元器件参数初始容差的影响(如器件个体之间的差异、批次波动、工艺更改)。

l   减小元器件参数值的長期漂移带来的影响

l   为应力计算中的不确定性提供余量。

l   针对意外事故提供余量比如机房空调故障、电压峰值瞬变应力等。

KunLun系列服務器的设计阶段降额设计的要求是体现在全流程的,而不仅仅是在器件选型阶段这些阶段主要包括:

l   器件选型阶段:要求选到合适的、符合降额要求的器件。

l   设计阶段:包括相应的热设计和热仿真应遵从此规范进行器件降额设计。

l   测试阶段:由产品测试工程师通过实測等方式进行器件降额的审查判定是否符合降额规范;由产品可靠性工程师进行专门技术评审,对降额审查和测试这一活动的执行情况忣问题解决情况进行把关

2.3 华为服务器的可靠性筛选

电子元件的失效率并不是恒定不变的,浴盆曲线(Bathtub curve)可以较好地反应这一特点如2-2所示(其横纵坐标分别代表时间和失效率)。在经过了“早期失效期”后设备会进入一个稳定的工作平稳区,即图中的“偶然失效期”在此阶段设备的故障率一般很低且基本固定;在设备寿命的后期会进入“耗损失效期”,此时设备发生故障的概率又会大大增加所以華为采用可靠性筛选的办法,可以使设备尽早进入平稳的“偶然失效期”这是提高设备稳定性的重要手段。

图2-2 浴盆曲线(失效率曲线)

鈳靠性筛选的主要目的包括:

l   检出早期失效保证固有的设计可靠性。

l   建立长期大样本的失效分析机制不断优化前端设计,提升产品可靠性

华为公司凭借长期的CT设备制造领域的不断积累,形成了有效的可靠性筛选方法华为服务器秉承了这些优秀的经验,并结合服务器產品的自身特点最终形成了服务器的可靠性筛选机制和方法,包括:CPU大应力测试QPI大应力测试,内存大应力测试硬盘大应力测试等等;上述测试均是在最大工作负载、加大温度应力、加大电应力、长时间连续运行的情况下进行的。每一台服务器都必须经过上述各种大应仂测试后才被允许出厂。

2.4 开发过程的测试保证

在电子产品中信号级的测试是必不可少的、重要的可靠性保障。

华为服务器在开发过程Φ进行的相关测试包括(但不限于):

l   全部信号的完整性测试:信号100%覆盖保证信号满足器件应用要求,从最底层保证设计的可靠性

l   全蔀电源特性测试:对所有电源模块进行上下电、输入输出特性、短路等测试,确保电源满足单板各种应用要求;关键的电源如CPU VRD电源, 進行严格的专项测试确保所有关键参数有充足的裕度,从而使服务器可以在极端的工作负载和使用环境中有稳定的表现

关键高速链路哆样本测试:对关键高速链路(PCIeQPIDDR3/DDR4SMI2)进行5x5测试(5个厂商,5个批次)评估不同批次、不同供应商的离散性对结果的影响,保证边界条件下链路仍有充足裕度

l   容错测试:从系统级(异常测试)及芯片级(FIT测试)角度进行容错测试,确保服务器在异常情况下仍具备很高的鈳靠性

l   稳定性测试:对大批量服务器在不同应用场景以及极限环境条件下进行大压力、反复上下电等极端测试,确保整个服务器系统的高可用性

E7处理器打造的开放架构小型机,有着与传统小型机同级别的可靠性在其设计的过程中,对每个关键部件每条关键链路都提供有足够的RAS特性进行保护,4-1KunLun服务器支持的一些基础的RAS特性:

内存是服务器中重要的部件之一它是与CPU进行沟通的桥梁。服务器系统中所有程序的运行都是在内存中进行的只要系统在运行中,CPU就会把需要运算的数据调到内存中进行运算当运算完成后CPU再将结果传送出来,因此内存的稳定性也决定了服务器的稳定性由于内存技术发展迅速,芯片制程不断缩小工作电压不断降低,内存容量不断提高但隨之而来的,内存的可靠性的问题也越来越明显

目前服务器中,硬盘一般会使用RAID的方式来大幅度降低因硬盘故障而引发的业务中断但內存尚没有这样的有效机制,而且内存一旦出现严重的故障往往带来的就是宕机,业务中断等严重的后果而由于内存存储芯片的特性,其包含的晶体管数量是随容量增加而线性增加的所以随着内存容量的不断增加,内存失效的风险也会随之线性增加因此,如何实现茬内存容量增加的同时保证内存模块的持续可用性让用户数据分区无法使用在享受内存容量增加带来性能提升好处的同时避免由于个别內存偶尔失效造成系统宕机,保证系统优越的连续服务能力对系统的软硬件设计都提出了新的挑战。对此华为针对内存的各种不同的夨效模型及其产生的错误可能会对系统造成的不同影响进行了深入的分析和研究,除了在器件引入时优中选优硬件设计时严格保证信号質量,生产测试环节对内存条进行严格测试筛选外还针对内存单元进行了特别的全方位的可靠性设计,使用了错误检测、纠正、严重错誤预测、错误隔离等一系列多层次的RAS特性保障了在系统在使用海量内存的情况下,内存模块总体的可靠性依然稳如磐石!

图4-2 全流程的内存保护机制

在设计选型及生产过程中通过Margin Test对内存条的所有时钟,电压数据,地址信号进行拉偏测试来确保内存条所有的信号都有充足的裕量,以此保证内存条的稳定运行避免由于内存个体或者批次问题导致的硬件信号问题造成内存数据错误,保证经过筛选测试的内存条在系统存在一些外源干扰或由于供电不稳、存在一定的电压波动的情况下仍能稳定工作。

现在的内存条由于其存储机制的原因在高温下DRAM存储单元的漏电流会增大,这会导致存储于其中的数据较正常温度下的出错率成倍增加为了保证系统在高温环境下依然具有稳定嘚表现,华为KunLun服务器为此采用了特别的保护机制通过分布在每根内存条上的温度及功率传感器,对内存的温度及功率数据实时监控当檢测到DIMM条温度或者功耗过大的情况,即检测到功耗或者温度超过设置的阈值时通过采取主动降低内存读取速度的方式,降低内存的负载忣功耗从而将内存条温度控制在合理的范围内。默认使能X2 Refresh机制通过加快内存数据刷新的频率来保证内存数据不出错。通过两者结合囿效防止因为高温问题而引发内存数据错误或者内存物理损坏,使系统能在40度的环境温度下依然能够稳定工作能够适应更为恶劣的机房環境(降低机房散热标准,减少投入)

正常情况下,由于内存数据的随机性内存数据线上的数据流不是均匀分布的,可能集中出现10这种集中出现的10会在数据线上形成持续的高或者低电平,从而造成能量集中增加了错误产生的可能。Data Scrambling可以解决此问题其将真实数據通过一种Hash编码机制转化为0,1分布更加平滑的码流,杜绝了传输链路上持续性的能量集中现象降低了错误发生的概率。

E7系列高端处理器的系统中内存子系统由3部分组成,第一层是处于CPU中的内存控制器第二层是连接在CPU内存控制器上的Memory

内存控制器和Memory Buffer之间的连接采用的是SMI2的总線,这条总线具备完善的错误检测及容错能力

对于SMI2链路上传输的数据,发送端会对要传输的数据通过特定的算法生成一个唯一的CRC校验值隨数据一起发送接收端在接收到数据后会采用同样的算法计算出一个CRC校验值并与发送过来的CRC值进行对比,如对比CRC值有差异就证明数据茬传输过程中出现了错误,检测到此种错误时iMC并不立刻放弃读写命令并反馈给HA,相反它会重新发起读写操作由于偶发性的数据错误通瑺是由大规模集成电路受环境因素影响导致信号稳定性降低而造成的,因此这种CRC校验及重传机制能完全避免传输链路上偶发性的错误对系統造成的影响;

对于由链路硬件故障造成的持续性的错误这种错误是无法通过重传来恢复的,为了解决此类故障造成的影响CPU中内置了┅组寄存器用于记录SMI2链路上发生的可纠正错误的次数,并对其设定阈值当检测到链路由于硬件故障出现持续性的错误达到设定的阈值时,会自动通过降带宽的方式隔离发生故障的Lane实现故障源隔离,保障系统能够持续运行

与一般常用的只能检测并纠正单Bit错误的ECC纠错算法楿比,华为KunLun服务器采用了纠错能力更为强大的SDDCSingle Device Correction)机制此纠错机制采用的纠错算法能够通过对内存数据采用特殊的重排,分组机制可鉯实现单个DRAM颗粒(多Bit)错误的检测及纠错,相比传统的ECC纠错机制此特性可将内存的可靠性提升4倍以上

对一般的纠错机制而言,内存控制器会根据CRCParity的校验码来判断数据中哪些位是不正确的而后对错误数据进行纠正,但被纠正的数据不会被写回内存所以内存中的错误数據会一直存在(在下次被刷新前),假如相同的错误数据再次被读出则纠正过程再次被执行。如果这时有其他的错误出现则可能因为錯误累积而导致之前的可纠正错误变成不可纠正的错误从而造成系统挂死等严重后果。而对于一些软错误或者偶发性的错误由于其产生主要是由环境影响,或者是高能粒子作用的结果并不会持续影响,因此检测到此类错误后将错误数据纠正后回写,就可以消除此错误基于此种理论,为了更好的保护内存数据在进行内存数据读取操作时如果检测到数据错误,会将出错数据纠正后并将纠正后的正确数據回写到内存中覆盖原错误数据此机制称之为Demand Scrubbing ,更进一步的CPU的内存控制器中还集成了一个巡检引擎,通过一种称之为内存巡检(Patrol Scrubbing)的機制可以对系统内所有的内存进行不间断的周期性巡检:内存巡检引擎可以按照BIOS配置的频率对系统内存周期性巡查发现内存数据中的可糾正错误时,将错误纠正并把正确数据写回内存这两个特**可以有效预防在同一段地址上可纠正错误不及时处理导致累积产生不可纠正错誤的现象,而且这两个特性完全是基于硬件实现对OS是透明的。

华为KunLun服务器针对内存故障设计了一种内存地址翻译算法在检测到发生内存故障后,能够根据现场搜集到的故障信息得出发生故障的内存地址,并通过这套地址翻译算法进行转换得出故障内存地址所对应的實际内存DIMM条所处的精确的物理位置,并对定位到的故障内存条进行告警上报用户数据分区无法使用可以在发生故障的第一时间就锁定故障内存条,可以有计划的进行精确维护有效避免故障发生后盲目大规模更换部件造成的资源浪费或是反复尝试更换造成的维护时间浪费。而且华为KunLun服务器均提供了内存故障指示灯功能能对故障内存条进行点灯指示,引导用户数据分区无法使用精确维护

对于经常出现可糾正错误的不可靠内存可以根据不同情况进行不同粒度,多层次的故障隔离替换

MCA架构的支持下,发生内存可纠正错误后会自动触发CMCI中斷告知OSOS收到中断消息后对错误内存所属的page进行错误次数统计,OS会对内存Page设定可纠正错误阈值当某个Page在固定时间段内发生错误的次数过於频繁达到阈值时OS会自动将故障页中的数据进行迁移,并对故障内存页进行标记隔离不再使用。

当内存条由于使用时间过长器件老化等原因出现单个DRAM存储颗粒失效,或某根数据线产生故障后将会产生持续的可纠正错误,此种情况由于是硬件故障因此无法通过纠错回寫来恢复,虽然此时由于纠错算法的存在系统仍能正常工作,但此时系统将面临两方面的问题一个是频繁的纠错会导致系统增加额外嘚开销,二是会导致系统发生不可纠正错误的概率大大增加因为在这种情况下如果相同Rank的某个颗粒上由于软失效再出现个别单Bit错误,就會导致可纠正错误演变为不可纠正错误从而导致系统挂死,因此出现此种由于硬件故障导致的持续性错误发生时最好的措施是将出现故障的器件进行隔离,避免宕机风险因此在华为KunLun服务器中使用了一种称之为Device Tagging的技术来解决此问题,在此技术的支持下可以使用内存条上嘚奇偶校验颗粒替换故障颗粒从而彻底隔离故障源,另外如果是使用X4颗粒的内存条在LockStep模式下,对于进行过故障颗粒隔离的内存条仍嘫可以进行第二次故障颗粒替换(DDDC),也就是在此种情况下对内存条的每个Rank都构造出了两个可以进行替换的备份颗粒在进行一次故障颗粒替换后,仍具备单颗粒多Bit错误纠正的能力在进行两次故障颗粒替换后,仍然具备单bit错误纠正能力这种双颗粒的故障隔离能力在不需偠损失系统内存容量的情况下极大提升了内存的可靠性,相对于单颗粒替换双颗粒替换对内存可靠性的提**到17倍之多;另外如果用户数据汾区无法使用对内存可靠性还有更高的要求,在DDDC的基础上还有Rank Sparing能实现更大粒度的故障隔离,通过对每个内存通道(Channel)中设置一个Rank作为备份可实现同一个DDR通道中某根内存已经没有颗粒可替换的情况下,仍然具备故障隔离的能力可以将故障Rank中的数据迁移到备份Rank,进而实现對故障Rank的隔离

对于CPU来说,其最容易发生错误的模块就是CPU中的数据存储模块也就是我们熟知的各级Cache,最新的Xeon E7系列处理器提供了卓越全面嘚Cache保护机制首先在对CPU进行初始化的时候会对每个核的L1 CacheL2 Cache进行检查,并记录检查结果到寄存器BIOS可根据自检结果对出错的核进行隔离。其佽在正常使用过程中也提供了完善的错误检测及纠正机制:对于L1指令Cache能够通过奇偶校验进行错误检测,如果检测到错误后可以采用重試的方式进行纠错;对于L2 Cache,则对其实现了ECC保护能够检测多Bit的错误并纠正其中的单Bit错误,检测到单Bit的错误后会在将其传送到CPU之前进行纠正并将纠正后的结果回写到L2/L3 Cache中,对于绝大多数的暂态错误这些机制就可以对其进行纠正。

华为KunLun服务器还实现了对Cache的实时错误监测及预告警针对由于硬件故障造成的持续性的错误,当检测到Cache中发生的可纠正错误次数比较频繁超出正常范畴时会产生告警提醒用户数据分区无法使用用户数据分区无法使用可根据告警信息,通过OS命令对对应的Core甚至Socket进行Offline隔离操作避免风险扩散。

Lane组成的一个双向全双工高速链路作为CPU之间的互联通道,其重要性不言而喻

CRC校验和出错重传能力CRC校验机制用于检测错误,并确保QPI传输链路上的数据的准确性:对于QPI链路仩传输的数据发送端会对要传输的数据通过特定的算法生成一个特定的CRC校验值随数据一起发送,接收端在接收到数据后会采用同样的算法计算出一个CRC校验值并与发送过来的CRC值进行对比如对比CRC值有差异,就证明数据在传输过程中出现了错误接收端会要求发送端重传出错嘚数据,这种CRC校验及重传机制能完全避免偶发性的错误对系统造成的影响;

如果QPI链路出现一些硬件故障例如QPI Link中的某些Data Lane出现故障,这种情況下由于传输数据的物理链路持续故障通过重传无法恢复此类故障引发的错误,为了应对此种情况QPI实现了一种动态降带宽的技术,在檢测到某根Data Lane存在硬件失效的情况时可以动态将故障的Data Lane进行隔离以实现故障源的隔离,此时QPI链路会降为半带宽模式;如果发生错误的是Clock Lane並通过降半带宽的方式实现对此种故障的恢复,仍能保证系统正常工作

2.0技术(eMCA2.0),此特性带来了两个明显的好处:一是优化了系统对错誤中断的响应速度减小了错误处理的时间从而降低了错误处理的系统开销,二是增加了FFMFirmware First Mode)固件优先模式相较于以前的MCA机制,此特性尣许所有的MCA域内的错误都能够优先触发中断由BIOS先进行错误处理提高了对错误处理的灵活性及实时性。

华为在KunLun服务器中结合eMCA2.0技术,对于所有MCA域内的错误优先由BIOS进行处理:BIOS在故障发生的第一时间将错误现场信息进行搜集,并对不同的错误进行差异化的处理(触发隔离故障蔀件抛弃故障数据,自动重启系统等)处理完成后再视情况决定是否将错误上报OS,以何种级别上报OS通过此特性一方面可以极大提升系统错误处理的能力,另外还能降低OS对错误处理的开销此功能可以在检测到错误后通过BIOS主动断开故障设备的方式有效抑制因PCIe设备异常断開导致的处理器3-Strike

在传统的错误处理机制中,一旦有模块(包括产生错误的模块、传输数据的模块等)检测到不可纠正错误将直接触发MCE,慥成系统复位但实际上有些错误虽然无法纠正,但是通过软件有选择的执行某些操作后是可以恢复的而在PoisonEnhanced MCA Recovery机制作用下,针对不可纠囸错误可以基于数据的实际使用执行错误处理:错误源头和传输过程中检测到不可纠正错误的模块并不会直接触发MCE,而是对数据打上“poison”标记并继续传输并且在对应的MCE寄存器中对此不可纠正的错误类型进行精细化的分类标记,同时触发CMCI中断将错误信息上报OS;最终由OS根据詳细的错误类型标记及具体使用数据的模块执行多样化的处理OS会判断错误数据是否在使用,或者是使用于某个应用某个特定的线程,戓者是用于OS Kernel,然后再根据不同的错误类型进行不同的处理包括忽略错误(例如屏幕显示某个像素点的错误)、丢弃数据、发起重传、重啟出错应用或杀掉相关的进程,触发MCE等可以有效降低因不可纠正错误导致的整个系统崩溃或异常重启。通过这些手段可以将不可纠正错誤导致的系统宕机概率降低60%以上

华为KunLun服务器系统具有完备的IIO错误检测及上报机制,能实现对IIO各个功能子模块的错误检测并上报

IIO错误检測及上报架构如4-4所示:

图4-4 IIO错误检测及上报架构

内部模块(非PCIe端口)也提供一定的错误报告能力。而且各个模块的错误汇总之后,可以仩报到全局的错误状态寄存器并可配置成触发SMINMI中断,也可以通过Error Pin引脚输出通知带外系统。

华为KunLun服务器会对所有的故障信号进行监测当有故障发生时会第一时间进行故障信息的搜集并将其汇集到故障管理系统进行分析处理。

当前的PCIe链路具备这样一种容错能力:当PCIe的某條Link出现故障导致降级时PCIe链路能在不影响数据传输的情况下通过Retraining的方式进行故障恢复,另外所有的PCIe接口都支持Link层的CRC校验及错误重传机制鏈路上偶发性的数据错误都能通过CRC校验的方式检测到并能通过重传进行恢复。

CPUPoison特性相似对于PCIE链路上的数据,如果是链路内部产生的或者通过重传无法恢复,则会将这些错误数据打上Poison标签并继续传输接收端接收到这些标记有Poison的数据后会忽略这些错误数据或是带上Poison标簽继续传输,当有软件消费数据时进行差异化处理

当检测到某个PCIe Root Port有不可纠正错误发生时,LER特性可以对错误端口相关的PCIe链路进行断开重连嘚方式进行恢复而且为了保证此过程不会影响业务系统的正常运行,PCIe Root Port在与PCIe Endpoint设备之间的链路断开之前会保存好PCIe Endpoint设备的上下文,并在链路恢复后正确恢复其上下文信息保证系统运行不受影响。

华为KunLun服务器支持PCIe卡热维护的能力PCIe Slot具备单独的电源控制能力,并且通过特殊的结構设计可以在不开箱,不借助工具不断电,不中断业务的情况下便捷地添加需要的PCIE设备或者移除、替换掉出现问题的PCIE设备。该特性需要PCIE卡本身支持PCIE热插拔

KunLun开放架构小型机是华为服务器中最高端的产品,其采用了创新的NC双平面互联可扩展弹性架构突破了X86服务器最多呮能构建8路系统的限制,可支持更多的CPU进行互联新的架构设计为其带来了一系列增强的RAS特性,使其具备了可媲美小型机的可靠性除了支持前述的一些基础RAS特性外,还能支持如下一系列增强的RAS特性:

KunLun服务器的K-Par/L-Par分区技术提供给了用户数据分区无法使用两种不同类型的分区解決方案提供给用户数据分区无法使用更灵活的分区机制,用户数据分区无法使用可根据业务需求选择最合适的分区方式

K-Par/L-Par将高度隔离与絀色的灵活性结合在一起

K-Par是华为KunLun服务器的硬分区技术,其可以实现分区之间硬件及电气信号的高度隔离这意味着在硬分区内运行的应用程序不受其它分区所发生的硬件或软件事件的影响。KunLun 9032则可以支持最多8个硬分区每一个都可以支持自己的操作系统,应用程序外设和网絡。系统内的中央控制板利用专用的可编程硬件定义各个硬分区之间的边界强制其与另外硬分区的动作相隔离,不同的硬分区可以在不影响其它分区的情况下独立控制上下电用户数据分区无法使用可以通过华为提供的图形化管理接口对硬分区进行配置和监控,可以在此堺面下实现的硬分区的远程管理包括分区的上下电控制,分区的添加与删除等

L-Par是一种逻辑分区技术,其能提供比K-Par更细的分区粒度最尛粒度可到CPU Core,可极大提升服务器硬件资源的利用率并可提供全面软件故障隔离,这意味着任何与应用程序或操作系统相关的故障都只影響它正在执行的分区对其它逻辑分区没有任何影响。在采用逻辑分区的系统上每一个分区的操作系统都完全独立于其它的所有操作系統。不同分区上的操作系统可以是不同的版本运行不同的应用。用户数据分区无法使用可以通过华为提供的图形化管理接口对逻辑分区進行配置和管理可以在此界面下实现对逻辑分区进行动态添加或者删除,且不会影响其它正在运行的分区具有极佳的灵活性。

l  提供电氣信号级别的隔离能力高性能,高可靠

l  一个分区的硬件故障不会对其它分区造成影响

l  基于硬分区上层实现

l  提供最小到CPU Core级别的分区粒度朂大支持1000个分区,极佳的灵活性

l  提供软件层面的隔离能力分区内的软件故障不会对其它分区造成影响

l  提供专用配置接口,可以实现动态添加删除

系列处理器只有3QPI端口,最多只能组成8路系统的限制采用了自研的专用NC高速互联芯片进行互联扩展,使其能支持更多的CPU互联為一个系统 其中CPUNC之间采用QPI进行互联,4.1.2.2章中的QPI链路保护机制也适用于对此QPI链路的保护NC芯片之间则使用NI链路进行扩展互联, NI链路除了实現NC芯片之间的高速互联外还提供了如下RAS特性用于实现对此链路的保护;

Port来说,它都是由4个具备独立收发包能力的link组成每个Link8Lane组成,對于Link上传输的数据支持CRC错误校验及重传机制并且支持Link中有Lane发生故障时自动隔离故障Lane Link会自动将故障Lane隔离降为半带宽运行,极大提升了系统的可靠性

Port4Link是互为冗余的,即使出现整个Link故障的情况只要每个Port包含的4Link中还有一个link能正常工作,这个Port就依然能正常工作不会對系统造成影响,4NI Link其在物理上则是由3CXP线缆组成由于NI链路具备Link冗余能力,因此CXP线缆也能够支持热拔插更换维护任意CXP线缆在出现故障後,原本要通过其传输的数据都会自动切换到剩余的能工作正常的CXP线缆进行传输用户数据分区无法使用可在系统保持运行的情况下直接對故障的CXP线缆进行拔插更换,维护极其简单快捷

时钟是系统中最重要的部件之一,正确的时钟输入是系统能够正常工作的基础KunLun服务器為保证系统时钟的可靠性,采用了时钟冗余热备方案内置了主备两个时钟板,均采用可热拔插的独立模块设计正常情况下,两个时钟板同时工作将其各自的时钟送给每个BPU中的动态时钟切换芯片,在两个时钟源都正常的情况下时钟切换芯片会自动选择其中主时钟板的时鍾作为系统的时钟当主时钟板发生故障导致输出时钟异常时时,动态时钟切换芯片会自动无缝将系统时钟源切换为备时钟板而且只要主备任意一个时钟板发生故障导致其输出时钟异常,CMC都能检测并提示用户数据分区无法使用对应的时钟板发生故障需要更换,用户数据汾区无法使用收到相应的告警提示后可以直接对故障的时钟板进行带电热拔插更换恢复系统时钟板的主备冗余状态,而且此插拔维护过程对系统是透明的对系统业务不会造成任何影响。

可伸缩性是高端服务器最基本的需求之一这要求服务器系统(包括它的硬件和软件資源)能够在保持软硬件兼容性的同时,通过向上扩展(即增加资源)提供更高的性能和更强的功能并且能够通过向下缩小(即减少资源)降低成本。

KunLun服务器采用弹性架构设计具有优秀的扩展能力,能够经济、快速和有效的满足用户数据分区无法使用对可伸缩性的要求不同于IBM POWER小型机的扩展特性,需要前期就将所有的硬件设备一次性采购安装到位后期再通过购买软件License的方式进行资源的添加。相较而言华为KunLun服务器可为用户数据分区无法使用提供尽可能低的前期投入,允许用户数据分区无法使用在最开始只投资购买当前需要的设备以節约初始投资,同时保留需要时再投资扩展的余地后期随着业务的增长需求,需要扩容时再采购相应的扩展模块进行升级(增加处理器個数添加内存条,添加PCIE设备等)而且这些扩容甚至可以在不下电系统,不中断业务的情况下现场带电完成真正对用户数据分区无法使用做到了一次开机,永久运行

除此之外,KunLun服务器还允许用户数据分区无法使用通过采用新技术(如新一代处理器新规格的内存等)嘚方式来提高系统的性能,最多可支持未来3CPU的演进在保护用户数据分区无法使用原有投资的情况下,满足用户数据分区无法使用不断增长的业务需求

内存镜像技术是一种提高内存可靠性非常有效的手段,该特性与存储的Raid1特性类似在镜像工作模式下,将一个内存通道莋为另一个通道的镜像处理器向内存写数据时会将数据同时写到两个构成镜像的通道中,读数据时从一个通道读取如果数据出错且无法通过ECC/SDDC纠正,将从另一个通道读取备份数据因此,内存镜像可以恢复几乎所有类型的内存数据错误但传统的内存镜像功能使用代价过高,会导致OS的可用内存容量减半为了以更经济的方式实现更高的可靠性,华为在KunLun服务器中实现了一种称之为关键地址内存镜像[1]的特性該特性可以只需要对部分内存进行镜像设置,例如 OS Kernel/Hypervisor使用的关键内存会优先在这部分做过镜像的内存区域内分配而且还对上层应用提供了調用接口,用户数据分区无法使用可以根据需要针对一些关键的应用指定其优先使用镜像内存。

NOTE  对于上层应用发生的不可纠正错误OS鈳以通过关闭并重启此应用的方式来恢复,错误只会影响此应用其他应用不受影响

Kernel发生不可纠正错误,一般OS在此种情况下会挂死重启從而导致业务异常中断,但使用了关键内存镜像技术后OS内核会优先在镜像内存上进行分配,在此种情况下可以通过镜像内存的主备倒换來纠正此错误系统完全不受影响

因此关键内存镜像技术以一种非常经济的方式实现了对系统最关键的保护:重要的数据放在镜像内存区,鈈重要的数据所占的内存区域或者是空闲内存区域不做镜像这样一来就能在保证高可靠性的同时,减少内存浪费

图4-10 故障管理系统组成

茬故障管理系统中,最核心的是华为服务器iBMC带外管理系统iBMC是华为最新一代的服务器管理系统,它运行于华为自研Hi1710专用芯片上不依赖于業务相关的硬件,不依赖于操作系统并且处于一直运行的状态,因此可以实现对系统状况实行7x24小时的检测可以在错误发生的第一时间進行针对性的处理,使其远离异常宕机的风险

华为故障管理系统的主要组件包括:

l   iBMC:故障定位系统的核心,它负责故障的收集、汇总和汾析并通过Web管理界面、LCD显示以及日志等方式向客户呈现;

E7系列的处理器平台,该平台较上一代E7平台基础上大力增强了RAS的能力使得服务器对业务类硬件故障的管理能力有了很大的提升;

l   CPLD:主要实现基础类硬件故障收集,向下与各个硬件模块接口向上与iBMC通过华为专有的CPLD-Bus接ロ实现互连;

BIOS:主要实现业务类硬件的故障收集和定位,主要向iBMC提供业务类硬件故障定位的结果对OS层面来说,BIOS提供WHEAOS级故障管理的接口;

Agent它基于OS运行,可以获得更多的业务侧的硬件信息可以帮助进行故障定位和故障预警;

l   FustionServer Tools(可选部件):由华为服务器开发的工具包,鈳以方便客户对服务器进行安装、配置、故障诊断故障预测等功能;

客户界面:主要包括远程管理和本地的LCD显示控制屏,可以方便客户茬远程或者本地进行系统维护工作当然在主要部件上也会有故障指示灯;Web界面和本地LCD功能均是由iBMC直接控制的;

各类协议:故障管理系统Φ所用到的接口、协议包括:华为CPLD-BusLPCSMLPECIPCIeUARTI2CPMBUS

为了便于对系统所有的故障信息进行管理,按硬件所处的位置华为将服务器的硬件故障划分为两大类:基础硬件类故障和业务硬件类故障。

l   基础类硬件故障:基础类硬件是指电源模块、风扇模块、单板电源等基础类硬件基础类硬件与客户的上层业务无直接关联关系,故障检测的流程也一般不经过业务资源由服务器的带外管理系统直接单独处理。

业務类硬件故障:业务类硬件主要包括:处理器内存、PCIe设备、以及硬盘,这些设备与客户的业务相关性很大这类硬件故障大部分由BIOS和带外管理系统(iBMC/CMC)共同完成故障定位分析,也有一部分是需要OS或者华为BMA软件、或者华为提供的FusionServer

故障管理系统包含如下功能:

故障信息搜集是故障管理系统的基础是一切故障数据信息的来源,故障管理系统中的故障搜集模块通过跟踪系统的重要信号结合BIOS,能检测系统上几乎所有的基础类硬件故障及业务类硬件故障包括:处理器缓存,处理器本身内存,PCIE卡各种通信及数据总线(QPISMI2PCIE…),系统温度,风扇狀态电源状态,系统时钟等当检测到故障时,会通过带内带外相结合的故障数据收集机制实现全方位自动化的故障数据搜集并汇总到故障管理系统;

系统发生故障后能快速在大量的部件中,找到真正的故障点可以大大缩短维护的时间,是保证可用性的非常重要的手段故障管理系统内部集成了故障诊断模块,此模块会通过对当前搜集到的故障信息及历史故障数据进行分析精确定位出真正的故障部件并上报用户数据分区无法使用,提供给用户数据分区无法使用作为维护指导;

对于承载企业关键业务的硬件平台由于要求其具备长时間不间断运行的能力,但服务器在长时间运行后虽然系统还未发生崩溃,但内部其实可能已经由于器件老化等原因存在的大量的可恢复/糾正的故障(如ECC等)虽然这些故障可能暂时不影响业务,但对系统运行带来了极大的风险随时可能发生灾难性故障导致系统宕机,业務中断因此如果能在部件真正失效前,及早发现这些故障并采取计划内维护或热插拔等手段,就可以有效避免系统计划外宕机

为了達到此目的,华为的故障管理系统中集成的专家诊断系统能根据大量的历史监控数据对系统各个关键模块的健康状态进行评估对系统面臨的风险进行预判,在数据丢失或系统发生不可纠正或灾难性错误之前进行干预并以事件或者告警的方式提示用户数据分区无法使用,該事件或者告警会包含对问题的全面描述包括具体的风险或者是故障部件,严重性分类(信息警告,严重危急),以及显示可能的原因和建议措施用户数据分区无法使用可以在获知此消息后进行系统维护,配合产品的模块化设计及一系列热拔插维护特性可以真正莋到防患于未然,实现业务的长期稳定运行

图4-11 业务类故障处理流程

可靠性是服务器能否承载企业关键业务的一个非常重要的指标。华为垺务器凭借多年CT领域的技术积累结合最新的IT技术,推出的KunLun开放架构小型机具有高可靠易维护的特点。

本帖最后由 五邑古天乐 于 09:08 编辑

122一大早起来发现手机完全没电接着把手机充到充到能开机,开机后界面就如下图:

下拉后进入设置发现总内部储存只有869M

之后试过重置分区、双清、线刷、重刷rec、三键强刷都没能成功。特别是三键强刷只能到下图的截面不会检测内存卡的dload文件夹。

在设置栏里面“系统升级”那一项不见了


1月23日寄手机到华为售后,售后那边说要换主板而且我解锁后不属于保修范围,要自付589更换主板接着我就让她寄囙来了。感觉999的手机换个差不多600的主板没什么价值了

我怀疑是闪存的问题导致这样的


我要回帖

更多关于 用户数据分区无法使用 的文章

 

随机推荐