如何快速实现各专业网管的告警关联分析进行关联进行故障分析处理

人人文库美如初恋!
资源预览需要最新版本的Flash Player支持。 您尚未安装或版本过低,建议您
O.,009告警关联原理方法亿阳网管部署调测功能验证应用优化O.,009告警关联原理(一)整体概念同专业跨专业主次关联衍生关联阈值关联同源关联比例触发数量触发频次触发仅用告警正文或告警报文的其它字段专业网管内的资源模块外部资源系统关联规则种类关联范围资源关联方式★话音网告警关联采用基于规则的关联技术,根据告警之间的逻辑关系,将关联规则划分为主次关联和衍生关联两大类。★告警关联关系的建立需要借助资源之间的关联关系,根据资源采集方式的不同,将资源关联划分为三种方式,每条告警关联规则采用其中一种资源关联方式。告警关联的目的与意义告警关联是告警标准化工作以告警监控、告警(故障)派单、故障处理为主线,挖掘有效提升告警监控、派单效率的方法中重要环节,通过网管告警关联分析实现故障快速诊断和定位、派单量压降、及时挖掘设备隐患三大作用。O.,009告警关联原理(二)关联规则逻辑划分%频次时间%逻辑一定时间内反复发生%时间%网元%告警标题同一时间,同一网元(最小粒度同一告警标题,不同定位信息,关联合并为1张工单%资源交换机-换机-交换机对应端口目的点-路由-链路组-链路地域关联方式定义举例主次主次关联一批告警同时发生,选一个作为主告警,其他作为次告警挂在下面。数个衍生阈值触发在一定地域或设备范围内,同类告警多次发生,数量或者比例超过门限,衍生为一条新告警。数量在一定的地域或设备条件下,同类告警数量超门限一个交换机的信令链路中断个数超过20条,持续时间超过10分钟,则得到网元信令链路中断数达到20条的告警。比例在一定的地域或设备条件下,同类告警比例超门限一个地市的退服小区比例超过30%,则得到地市高比例小区退服超限告警。频次同一网元同一条告警反复出现,数量超门限7号信令链5分钟内出现100次,可合并衍生出一条新告警,说明7号信令链告警发生的频次。同源关联一批告警的因果关系不明显,依据它们共同的资源拓扑关系将这一批告警合并,衍生出一个新告警,在某种程度上昭示某些潜在的因果关系。一个网元信令点不可达,其他各网元到该信令点的目的信令点不可达告警可以合并衍生为一个同源告警O.,009?在告警关联规则梳理表中的告警,除衍生告警之外,所有告警都是告警多维梳理表的子集。告警关联方法(一)建立标准化的告警关联规则梳理表主次关联衍生关联告警信息资源维度与关联方式衍生告警定义O.,009告警关联方法(二)通过网管系统实现关联告警生命周期关联关系建立关联关系呈现关联关系清除用网管告警+网管告警标题判断该告警是否参与关联运算,如果是,则放入缓存,当缓存中的多条告警在关联等待时间窗内满足触发关联的条件时,则建立关联关系,即关联告警。1、关联告警以树图形式在告警监控流水窗口呈现2、若关联关系解除之后,剩下的未清除的告警将按照普通告警在流水窗口呈现。3、单个或部分子告警清除衍生告警未清除关联呈现保持,只取消呈现已清除的次告警。4、一条告警同时满足多条关联分析规则,则同时实现这些关联规则的呈现主次关联主告警清除,或者所有的次告警清除,则主次关联关系解除衍生关联1、一条原始告警清除则衍生告警清除2、全部原始告警清除则衍生告警清除3、低于告警门限则衍生告警清除4、告警定时清除主告警次告警警警O.,009关联规则呈现清除规则主次关联数量关联比例关联同源关联频次关联主告警清除或者所有的次告警清除则主次关联关系解全部原始告警清除则衍生告警清除低于告警门限则衍生告警清除全部原始告警清除则衍生告警清除告警定时清除告警关联方法(三)告警关联清除规则O.,009关联等待时间窗,告警产生后,当缓存中的多条告警在关联等待时间窗内满足触发关联的条件时,则建立关联关系。例如,主次关联,主告警产生后,等待次告警产生的时间长度。如果超出时间窗发生的次告警也不再与主告警进行关联。衍生告警触发门限值。在主次关联里没有例如,衍生关联,某网元的信令链路20分钟内中断超过10条,产生一条衍生告警,这里的10条,就是X、们设置的是否合理,直接决定告警关联规则是否能够正确、合理呈现关联参数的意义关联参数的定义告警关联方法(四)设置告警关联规则参数O.,009告警关联规则生效子告警原自动派单规则失效告警关联规则失效子告警原自动派单规则生效。自动派单服务子告警B子告警C父告警A自动派单依赖关联关系关联关系解除,子告警自动派单规则生效子告警被抑止派单只有父告警被自动派单针对关联后的父(主告警或衍生告警)告警派单,如果相关的次告警或子告警在缓存时间内,还没有派单,则需要抑制其派单。即关联告警的父告警和子告警如果都配置了自动派单规则,只要满足某条告警关联规则后,该子告警的原有自动派单规则失效,除非告警关联规则失效。告警关联方法(五)关联派单O.,009原理方法网管部署验证优化O.,009告警关联实施步骤规则梳理?对告警关联梳理表按牵头省进行梳理?告警关联规则梳理表评审功能开发?设计告警关联各规则业务流程?网管厂家根据已评审过的关联规则,进行开发并测试09年7月2009年7月底2009年8月功能部署?现网部署告警关联主程序,配置告警关联规则?解决现网运行过程中产生的各类问题,确保功能稳定。调测优化?对已部署规则生成的关联告警,进行合理性的验证与优化?对无法产生关联告警的规则,进行分析,解决?从析优化关联告警生成、呈现、入库、派单O.,009关联规则程序部署前的准备网络运维关联规则验证测试平台搭建梳理告警关联关系,明确关联条件,结合实际情况核查告警关联的准确性、完备性、可行性。软件环境境硬件平台应用服务器4G/O.,009报表关联规则入库及阈值同步自动派单服务告警关联关系入库数据库建表脚本及汇总告警关联程序模块逻辑功能告警统计基础数据入库底层关联规则维护上层数据库则维护联呈现O.,009关联规则功能模块部署步骤第一阶段第二阶段第三阶段告警关联规则入库及阈值同步告警统计基础数据入库告警统计基础数据入库告警关联关系入库关联规则维护O.,009关联规则部署过程经验总结结合告警关联规则功能模块部署过程,对其中相关模块环节功能及规则验证过程中出现的问题及经验进行了总结,具体分析如下功能模块常见的问题经验4个告警关联程序重新启动后,日志中显示接受告警的启动程序,如果报上述错误,等待一段时间即可告警关联程序重新启动后,日志中显示一分钟没有接受告警,重新连接启动程序,如果报上述错误,等待一段时间即可告警关联程序部署时无法正常运行,提示内存溢出错误。在关联程序部署过程中,告警关联规则条数较多时(例如安徽公司关联条数超过100条),如果导致告警关联程序无法正常运行。建议设置值28m。关联程序启动后,日志报连接启动程序,如果报上述错误,检查是否有未启动的告警关联规则入库及阈值同步(1个)关联规则导入数据库不成功。在告警关联规则导入时如果出现批量导入不成功,可能是由于们建议不再采用索引查询数据库的方法。O.,009关联规则部署过程经验总结功能模块常见的问题经验告警统计基础数据入库(1个)程序部署正确,但汇总不出数据。行点符号必须在英文模式下。3个)报表不显示数据性能库不能直接访问标准化数据库,需要在上访问的库名。格式转化异常不同的数据库,表中的列属性不同,转换容易出问题需要确认是否列属性设置正确。按厂家分析关联分析有效率报表中告警入库率超过100告警入库率超过100,是关联规则界面维护(1个)程序部署后,主次告警能够维护,衍生告警不能修改。内部程序出现问题,主要是更新语句执行问题,修改后解决。O.,009原理方法网管部署验证优化O.,009告警关联规则验证(一)18验证目的观察每条关联告警在生命周期(生成、呈现和清除)内是否正确,是检验网管告警关联功能部署情况的最好手段。验证方法方式一手工模拟人为在告警标准化系统底层制造假告警,观察告警关联规则是否触发,关联是否有误方式二界面观察在现网上观察真实告警关联是否有误优点节约验证时间,效率高缺点制造假告警过程繁琐,并且验证结果并不能100%可靠优点验证结果最全面,可靠性100%缺点需要专人实时监控面板,并且对于长期不触发的规则无法验证?根据安徽公司告警关联规则验证经验,建议关联规则部署后的第一、二周使用方式一验证后期使用方式二长期验证。安徽公司牵头制定西门子厂家告警关联规则,目前现网部署了包括话音网和无线网共计6个厂家,14种类型设备,95种关联规则。厂家设备关联规则数量卡特17华为36西门子15爱立信17诺基亚10O.,009告警关联规则验证(二)?发现有问题的或长期不触发的告警关联规则后,根据安徽公司的经验,可以按照以下步骤进行原因查找19首先检查是否是由于告警未产生而导致对应关联规则未触发如果告警有产生,但未触发关联规则,检查关联告警匹配映射用的检查关联告警梳理表和告警多维梳理表里的告警信息是否一致,特别是作为D如果告警的清除有问题,则检查该规则的清除方式设置是否合理如果告警的派单逻辑有问题,则检查该规则的X/检查配置脚本文件的正确性O.,0093、现网验证1、效果分析2、参数优化根据规则优化分析结果,修改时间窗或关联规则条件,在现网中进行验证通过关联数据统计和分析,发现存在的不足,例如衍生告警过多,不能有效进行告警合并和频次告警压缩规则无法产生告警关联在测试环境中通过对同一关联规则配置不同条件,通过分析同样环境下不同条件的规则,得出最优解告警关联规则优化(一)告警关联规则在完成在现网部署和功能验证后,根据现网关联效果进行评估优化,寻求最能满足各省本地情况的规则条件。O.,009?优化举例告警关联规则优化(二)关联参数优化问题现象一某种衍生关联,网管上有涉及的告警,但无法产生关联关系通过调测,我们发现是由于实际情况下,在设置的关联等待时间窗5分钟内无法达到数量阀值,通过降低该告警数量阀值Y=4,该单条关联规则取得压缩率。提示告警关联优化的目的不是为了尽可能的产生关联关系,是在于帮助监控人员快速定位故障和挖掘隐患,所以,规则参数的设置要从实际需求的角度出发,不能为了产生关联关系而一味的将问题现象二某主次关联,网管有涉及的主、次告警,但关联压缩率低例如,一条衍生关联告警西门子交换同一网元产生多个联参数X5,Y10,即当5分钟内同一网元产生10条不同端口的例如,一条主次关联告警西门子目的信令点不可达和信令链路故障关联,关联参数X2,即当2分钟内同一网元产生目的信令点不可达和信令链路告警,产生主次关联。通过调测,我们发现是由于实际情况下,是由于关联等待时间窗太窄,在设置的关联等待时间窗2分钟内无法全部包括有关联关系的一组告警,通过放大该告警关联等待时间窗X=10,该单条关联规则取得压缩率。O.,009?关联告警派单的时间参数设置某告警警关联触发时间警关联结束时间点告警结束时间生新告警y,x。?联告警时分三种情况?关联告警?t4结束之后继续按照原有规则派单。告警关联规则优化(三)派单参数优化24总结1、如果关联告警的派单时延设置过长,可能总是大于关联告警的恢复时间,关联告警永远不会派单2、建议如果警的派单时延最好要大于则很可能告警总是在衍生告警产生前派单,工单量激增。O.,009关联告警派单优化情况?关联自动派单情况(派单优化前后比较)23设备厂家正常工单量衍生告警工单量10周工单量8月周工单量变化量西门子741-2356华为277-1-113爱立信214计418099徽公司根据告警关联试点情况发现,合理科学的关联规则,能够起到告警高效收敛、工单压降、故障定位的明显效果。而有问题的规则在试点过程中很难触发关联关系,基本没有效果。告警关联规则参数优化和派单优化过程是解决这个难题的必须选择O.,009原理方法网管部署验证优化O.,009?告警标准化实施之后,需要一个合理的评价体系来体现标准化相关工作的成效,体现告警标准化对运维管理的提升作用。评价体系应以数字化的考核指标为主要手段,后续告警标准化的深入开展提供扎实的现实基础。?通过分析告警标准化的处理过程,在每个关键流程环节,设置指标采集点,得到运维管理相关的O.,009关联规则的重点指标介绍1、单条关联规则的关注价值某条关联规则涉及告警种类的告警总数/全部告警总数关注价值是用于发现关联规则的潜在压缩能力,关注价值高,表明它涉及告警量大,通过调整规则,可能会提高关联规则对告警的压缩能力。2、单条关联规则的压缩量主次关联的次告警或衍生关联的原始告警压缩量是用于体现关联规则的具体贡献即这条规则压缩了多少告警派单。O.,009告警关联效果评估规则名称(牵头西门子设备)关注价值压缩量压缩率【阀值】西门子交换阀值衍生10%226【阀值】西门子无线阀值衍生11%236【主次】西门子无线主次2【阀值】西门子交换阀值衍生1%9【阀值】西门子交换阀值衍生17206【阀值】西门子交换阀值衍生25链路中断告警合并215【阀值】西门子交换阀值衍生114【阀值】西门子交换阀值衍生2【阀值】西门子交换阀值衍生1204【阀值】西门子交换阀值衍生7122【阀值】西门子交换阀值衍生条9115【阀值】西门子无线阀值衍生接口呼叫过载7【阀值】西门子交换阀值衍生条11【阀值】西门子无线阀值衍生07【阀值】西门子无线阀值衍生01O.,009告警关联效果评估统计日期11告警入库率告警关联规则压缩率告警总量整体压缩率派单拦截率实际派单率自动派单率O.,009我省特色支撑通过告警与处理部门关系映射的实时在线创建,可以对各类告警,灵活实现告警与处理部门关系映射的创建,查询与删除。例如,通过基站名称区分不同基站下告警对应的受理部门,实现告警的自动流转处理。一、告警信息与处理流程路由自适应功能二、基于告警内容的最小粒度工程屏蔽面向告警内容的工程标识,实现到告警而非网元的工程屏蔽粒度。通过告警标题、告警网管警正文等多个维度准确过滤无效告警,规避了传统屏蔽整个网元粗粒度屏蔽带来的网络风险。三、智能预处理通过对故障告警进行处理的资源定位、信息判断、修复操作进行规则梳理设计并实现系统固化,有效提升故障处理效率和缩短故障处理时长。O.,009告警关联附件1、安徽公司告警关联优化月周报2、安徽公司告警关联配置规则3、安徽公司告警关联O.,009感谢您的聆听
编号:58197 && 大小:1.88MB && 格式:PPT && 上传时间:
关&键&词: 安徽 移动 话音 告警 关联 总体 情况 介绍
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。5. 人人文库网仅提供交流平台,并不能对任何下载内容负责。6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
& 人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
当前资源信息
浏览:16次
官方联系方式
客服手机:&&& 1:&&&
2:不支持迅雷下载,请使用浏览器下载&&&
3:不支持QQ浏览器下载,请用其他浏览器&&&
4:下载后的文档和图纸-无水印&&&
5:文档经过压缩,下载后原文更清晰&&&
&& && && && && && && &&
copyright@
人人文库网网站版权所有 苏ICP备号-5中国移动推进网管告警标准化
> 当前位置
中国移动推进网管告警标准化来源:/article/show.asp?id=28172   作者:   日期:日
简要内容:通过推进网管告警的标准化,中国移动希望在新的竞争环境下具备业务快速提供能力、业务质量保障能力和低成本运作能力。通过告警标准化,中国移动网络部门将为日常网络告警和故障处理提供指导,以便最终实现网络维护的规范化、精细化管理。   通过推进网管告警的标准化,中国移动希望在新的竞争环境下具备业务快速提供能力、业务质量保障能力和低成本运作能力。   近日,定于今年第三季度末完成的中国移动集团话务网管告警标准化工作已经接近尾声,试点省份程序部署、数据核查已经完成。目前全国部署工作正在全面展开。  这是中国移动正在推进的包括话务、传输、数据网管在内的网管告警标准化的一部分。话音业务作为主营业务,其调整尤为重要。通过推进网管告警的标准化,中国移动希望在新的竞争环境下具备业务快速提供能力、业务质量保障能力和低成本运作能力。  运维精细化管理的重要组成  告警是进行故障管理的必要条件。作为网络运维支撑的重要组成部分,故障管理提供了对异常状态的检测、隔离和修复的能力,其主要功能包括:故障发生的检测与报告,维护和使用错误日志,跟踪和定位故障,执行故障诊断测试等。及时发现定位网络故障,快速排除故障,尽量减小故障对业务的影响,减少用户的不良体验,是运维工作的核心之一。告警监控平台则是为故障管理提供具体的操作系统。中国移动集团“告警标准化”就是对告警监控平台进行的一项改造和完善工作。  通过告警标准化,中国移动网络部门将为日常网络告警和故障处理提供指导,以便最终实现网络维护的规范化、精细化管理。  中国移动集团主要从告警数据采集、呈现、与电子运维系统关联等层面推进告警标准化。  中国移动话务网管系统的告警涉及集团和省两层数据,其告警数据源包括一级干线网(下简称“一干”)直连网元设备告警数据和省分公司网管系统通过省部接口上报的告警数据。对于集团一干设备告警,通过接口适配,完成设备原始告警的收集,并按照标准化要求完成格式化工作;对于省网标准化告警,集团需要完成接入省部接口的各省已经标准化了的告警数据。各省话务网管告警系统必须实时上报标准化后的告警通知消息以及告警确认、清除、工单状态等同步信息。  在话务网管告警数据采集方面,移动集团编写了告警标准化字段表格,详细地定义了字段数量、字段名称、存储方式等规范。在告警呈现方面,对工程告警(一般指各省网元工程项目,如设备割接、新设备入网等)的工程状态、工程公文号、公文内容(工程网元范围描述、工程类型、计划开始时间、计划结束时间、负责人姓名、负责人联系方式)做了详尽要求。  通过对工程状态管理要求的细化,使得工程责任到人、关键时间点明确。在统计报表方面,给出了集团告警报表要求需要的细化表样,使用统一的报表样式,使统计结果更加直观、可信。  另外,对于由移动集团负责的一干设备告警,网管系统会将相应的告警信息以规范的格式通过标准接口传送给电子运行维护E-OMS系统,由E-OMS系统生成相应的故障工单,实现话务网管与E-OMS系统的标准化对接。这样一来,如果将来两个系统有升级改造,操作起来也会相对独立,降低系统改造升级的难度。  科学实施着眼长远  以前对于各类告警解析和分类这一问题,在各省之间存在很大的差异,一直以来都是令开发人员和工程人员困扰的事情。“告警标准化”以后,对于网管系统开发人员来说,厂家差异被屏蔽,告警数据结构一致、格式统一,告警应用功能明确、模式清晰,这将大大节省开发时间;对于工程人员来说,设备割接、新设备的接入将有规范化的操作流程,在降低劳动强度的同时,故障率也会随之降低。  但是,由于涉及大量在网设备的运行,中国移动集团网络部在制定对现有网管系统实施改造方案时,强调必须“科学实施、长远有效”。  在实施告警标准化之前,中国移动以建立离线系统并与现网系统并行的方式,在不影响现网系统运行的前提下,对告警标准化功能进行试点验证。移动集团组织各试点省份逐一对主要的设备告警进行确认和审核,全面地掌握了各类型网元和各厂家设备的告警信息。  通过整理这些信息,中国移动统一了全网告警、故障处理分级和处理标准,为设备接入、网管开发提供技术依据。维护人员可以通过完善故障处理流程、告警过滤和关联派单规则,简化繁缛工作,并实现省间的经验共享。这样一来,告警产品更容易获得以往欠缺的“规模效应”,而“规模效应”正是标准化所带来的期望收益。
简要内容:通过推进网管告警的标准化,中国移动希望在新的竞争环境下具备业务快速提供能力、业务质量保障能力和低成本运作能力。通过告警标准化,中国移动网络部门将为日常网络告警和故障处理提供指导,以便最终实现网络维护的规范化、精细化管理。   为建设综合网管创造条件  之前中国移动的多套网管系统是分别建立的,比如话务网管、数据网管、传输网管等。它们各自有独立的告警监控平台,需求多、实现繁、分布散,给移动带来网络运行、维护的不便,增加了设备投资和人力成本。  而通过告警标准化,中国移动可以按照制定的“先专业、后综合”的原则,首先统筹规划各专业网管系统中告警监控的建设,然后将各系统间告警监控相融合,实现综合的全专业故障智能处理平台的建设远景。这样一来,有利于故障处理的集中化,完成相关人才专业化、实用化。  此外,告警标准化能够使中国移动充分利用已有投资,合理分配资源。标准化后,原有的网管系统之间互联互通明显加强,可以整合利用,充分发挥已有功能,并提供新作用。  电信运营是综合过程,网络管理的质量关系着网络运行的质量,也关乎着业务服务的质量,更影响着用户感知。3G时代,一般认为,业务快速提供能力、业务质量保障能力和低成本运作能力这“三力”将决定企业的竞争力,也是运维支撑部门工作的核心。中国移动从“告警标准化”入手,试图通过优化故障处理,在以“三力”为基础的竞争中领先一步。  链接 重庆移动:TD网络纳入告警标准化  重庆移动TD网络二期工程共建设了1300余个基站,庞大的数量使得对TD网络维护和监控的重要性凸显出来。  为尽快将TD网络纳入集中监控,提升用户感知,重庆移动梳理并细化了监控工作制度和流程,制定告警、故障、投诉等相关工作的管理办法,将TD小区退服等关键告警纳入实时监控和派单督办。同时,在TD告警标准化方面,参照以往GSM告警标准化工作,对TD告警进行系统分析,并在话务网管上落地,实现话务网管系统按TD告警标准化要求对告警进行分级呈现等功能。
· · · · · · · · · ·
版权所有:江苏省中小企业发展中心        电话:025-      邮  编:210029
地  址:江苏省南京市广州路199号天诚大厦9楼  传真:025-      ········
频道头条 Big News
中医药科技成果推广
凤凰网财经
今日热图昨日热图
最热万象VIP

我要回帖

更多关于 网管告警级别 的文章

 

随机推荐