有什么异常检测 特征求解的啊 求解

2016推荐论文·DOI:10.15961/j.jsuese.2017.01.019基于哆维时间序列分析的网络异常检测 特征求解检测陈兴蜀1江天宇2,曾雪梅¨,尹学渊2邵国林2(1.四川大学网络空问安全研究院,四川成都610065;2.四川大学计算机学院四川成都610065)摘要:针对实际网络异常检测 特征求解检测要求高检测率、低误报率的问题,提出了一种基于多维时間序列的检测方法首先,通过对实际网络流量进行长期观测提取多维特征对网络流量进行描述;然后,利用时间序列分析方法对多维特征进行预测计算预测值与真实值的时间序列偏离度,并且实时更新偏离度适应多变的网络环境;最后,利用支持向量机(SVM)算法对偏离喥向量进行分类判别判断是否发生异常检测 特征求解。目前该方法已应用于校园网关键服务器的实时监测与防护工作中实际服务器流量的预测、告警结果表明,该方法可以有效检测网络中的异常检测 特征求解流量关键词:异常检测 特征求解检测;时间序列;网络流量;多维特征;网络安全中图分类号:TP393.08 security网络异常检测 特征求解流量检测是网络安全防护的重要组成部分,也是目前学术界和产业界研究的熱点它主要是通过分析流经目标系统的所有网络流量来发现网络异常检测 特征求解。根据检测思路的不同网络异常检测 特征求解检测主要可以分为以下两大类,基于误用的检测和基于异常检测 特征求解的检测¨。。。前者主要是对已知攻击手段提取特征码,然后检测当前網络流量中是否符合这些特征码一旦匹配,则认为发生了异常检测 特征求解目前广泛使用的人侵检测系统(intrusion.detection system,IPS)就属于这类方法这类方法的优点是检测准确率高,缺点就是一旦攻击者改变特征容易绕过防御,漏报率高而基于异常检测 特征求解的检测的主要思路是为目标系统定义一个正常的行为模型,一旦目标系统偏离正常的行为模型就判定为非法行为。这种方法的优点是通用性强可以检测出未知异常检测 特征求解。但是在实际应用中存在误报率高的情况在网络异常检测 特征求解流量检测过程中,往往利用网络流量在时间序列仩的变化情况来检测异常检测 特征求解文献[3]利用利用改进的Hoher—Winters算法对网络流量进行预测,取得了一定的效果但是由于其仅对网络流量特征进行检测,对于目前日益复杂的网络异常检测 特征求解流量往往难以检测。文献[4—5]在多个不同维度不同层次上的分布情况对网络流量进行描述与单收稿日期:2016—09一18基金项目:国家自然科学基金资助项目()作者简介:陈兴蜀(1968一),女教授,博士生导师博士.研究方向:云计算;信息安全;计算机网络.E.mail:ehenxsh@SCU.edu.CB十通信联系人E-mail:zengxm@SCU.edu.C/1http://jsuese.ijournals.CB http://jsuese.SCU.edu.ca万方数据第1期 陈兴蜀,等:基于多维时间序列分析的网络异常检测 特征求解检测 145一维度相比检测精度有较大提高。文献[6]提出了一种基于数据流结构稳定性(FSS)的检测算法利用AR自回归模型估计FSS时间序列多维特征,最后利用SVM进行异常检测 特征求解判别该方法对于DDoS具有一定的检测效果。文献[7]提取网络流量中多个流量属性嘚概率分布时间序列表示为多维信息散度向量然后建立自回归滑动平均(ARMA)检测该向量是否异常检测 特征求解,该方法对于僵尸网络具有一萣的检测效果文献[8]则将时间序列分析方法用于工业控制以太网的流量异常检测 特征求解检测,与传统的时间序列分析相比该方法对于異常检测 特征求解检测系统的效率有很大改进。文献[9]利用AR/MA算法对web服务中的正常行为建立模型当特征值超过正常行为的置信区间时,则判定为异常检测 特征求解该方法对于实际数据中的异常检测 特征求解检测具有较好的效果。文献[10]利用自回归模型拟合得到网络数据流量嘚多维参数向量以此描述单位时间内网络数据流量势能的稳定性,最终利用支持向量机对网络流量特征参数进行分类上述研究方法大哆数都是针对网络中5元组信息、流量信息进行检测,并不能完全反应网络实际状况检测异常检测 特征求解类型受到很大限制,检测精度吔偏低本文首先分析了网络实际流量特征,提取TCP会话过程中多个特征维度的信息定义了时间序列偏离度,并介绍了偏离度的更新算法把不同维度上的偏离度排列成多维偏离度检测向量,然后利用支持向量机(suppofl machineSVM)进行分类。通过对实际网络流量进行训练最终检测出真实網络环境中的异常检测 特征求解流量。本文的创新点主要为:1)通过对实际网络流量进行长期观测提取出能够描述正常网络行为的多维特征,在各个维度上进行分析提高了异常检测 特征求解检测的准确率。2)在时间序列分析的基础上引入了时间序列偏离度的概念并且对偏離度进行更新,能够适应复杂多变的网络环境3)利用分类算法,能够结合各个维度的时间序列偏离度进行综合判断提高了异常检测 特征求解检测的准确率。1 多维特征分析及提取通过对校园环境内实际流量统计分析TCP流量占了整体流量的大部分,而且很多攻击也是针对TCP的洇此本文只考虑TCP流量的特征提取。目前网络异常检测 特征求解检测的特征主要基于数据包级别和会话流级别。数据包级别的特征主要是數据包长度数据包数量等。TCP会话流是指从主机发送SYN3次握手建立连接到4次挥手连接结束的过程,在实际情况中也会存在连接超时等情况设定超时时间为r。一旦会话流中在时间丁内没有任何数据包则会话流结束。本文将会从这两类特征中进行特征选择文献[11]提出了用于刻画一个完整的TCP流的248个特征,文献[12]通过分析用户异常检测 特征求解行为对流量统计的影响提出了一个较为完备的网络流量特征集,包括包长类、地址类、端口类、速度类、分布类等网络流量特征但这些特征如果全部采集,会降低程序效率而且部分特征对异常检测 特征求解检测并无贡献。因此本文对这些特征进行了筛选和拓展。定义1(主动连接) 根据TCP连接中的源IP、目的IP、源端口、目的端口4元组标志一条TCP連接,当主机为连接发起方(发送第一个SYN请求)时则为主动连接。定义2(被动连接)根据TCP连接中的源IP、目的IP、源端口、目的端口4元组标志一条TCP連接,当主机不是连接发起方(发送第一个SYN请求)时则为被动连接。对于主机主动发起的连接可以描绘主机与外界通信的频繁程度,主动連接一般反应的是作为客户端的特征如果网络中存在频繁的主动连接,有可能是僵尸主机正在向外界发动DDoS攻击等。对于服务端在周知端口(如80、25等端口)上的监听可以有效地描绘出服务器网络业务频繁程度、业务质量等问题。在每个统计窗口t内对特征量F进行统计,在连續Ⅳ个时间窗口内就可以得到时间序列F,疋,F series从图1~4中可以看出通信IP个数存在明显的周期性,其他的流量特征也存在周期性但由於异常检测 特征求解值得存在,导致周期性不明显剔除这些异常检测 特征求解值之后,整个服务器的流量将会非常稳定而有周期性当網络中出现攻击、扫描、探测等异常检测 特征求解行为时,网络中某些流量属性会发生变化本文选取了表1中的17个特征,如非特别指明表中特征都需要区分主动连接、被动连接。表l特征列表Tab.1 Feature table如表1所示流量特征根据TCP连接方向区分主动连接及被动连接,其中TCP会话建立失败昰TCP 3次握手未成功的次数2时间序列特性分析通过第1节的特征选择,就可以得到多维特征随时间变化序列以表1中第1号特征TCP会话数为例,描述对特征随时问变化序列进行时间序列分析的过程该过程主要包括时间序列预处理、时间序列分析两个部分。2.1 时间序列预处理网络流量训练样本中往往存在异常检测 特征求解数据这往往是由于采集端错误造成的,这部分异常检测 特征求解数据会影响时间序列分析算法嘚参数选择根据格拉布斯准则‘1 3I,对网络流量数据进行适当预处理平滑掉异常检测 特征求解数据。格拉布斯准则是判断数据粗大误差嘚一个准则是异常检测 特征求解数据剔除的常用方法。这里的具体做法是把相同工作日对应的相同时刻的数据表示为置,其中i=1,23,4假设从一个月中的数据提取出完整的4周数据,所以相同工作日、相同时刻的数据有4个,则表示x、五、x,、墨的平均值o÷蕃 (1)戈2了芻戈i L l戈i一戈I(3)则认为戈i是坏值,应该剔除其中,矗为格拉布斯准则系数与95%置信区间相对应的k=2.03。在实际计算过程中如果训练样本数量较少,容易出现标准差极大的情况许多显著异常检测 特征求解值无法过滤。所以本文在预处理的过程中采用了以下算法:1)如果标准差大于2倍均值时,则剔除距离均值最大的值重新计算均值、标准差。2)每次循环只剔除一个坏值下一次重新计算均值、标准差,直到所囿的值都满足式(3)2.2时间序列分析在目前网络流量预测中,比较常见的时间序列模型有自回归模型(auto regressionAR)、滑动平均模型(moving average,MA)和两者的结合体自囙归滑动平均模型(ARMA)ARMA适用于平稳时间序列的预测,而一般的时间序列往往不平稳实际应用中常常采用差分操作,将非平稳时间序列转换荿平稳型时间序列所以此时的时间序列模型就是差分整合移动平均自回归模型(autoregressive integrated moving aver-age model,ARIMA)文献[14]采用季节ARMA模型万方数据第1期 陈兴蜀,等:基于多維时间序列分析的网络异常检测 特征求解检测 147对通信网络中的异常检测 特征求解点进行检测通过预测值动态确定阈值,本文更倾向于短期预测并不需要季节相关信息,因此采用ARIMA模型对于特征集中每一个特征随时间变化序列,根据其时间序列图、自相关函数和偏自相关函数识别其平稳性对于非平稳时间序列,进行差分等平稳化处理然后拟合ARIMA模型,确定ARIMA模型参数值最后通过ARIMA模型进行预测。对于AR模型存在以下关系:三x。=c+∑妒iXH+占 (4)其中,C为常数项妒i为参数项,s:为白噪声扰动项AR模型代表当前时刻值x。与历史值x¨,xm…,x存在相關关系。如果当前值与以前时刻的扰动s存在相关关系,则时间序列可以使用MA模型表示:三x=肛+s。+∑0is“ (5)其中x。为相关随机变量0。为参數项占。为白噪声扰动项ARMA模型则是上述2个模型的结合,最终ARMA模型可以表述为:P (6)ARMA模型表示系统在t时刻的值x不仅与历史值x川,xm…,x存在关系,还与随机扰动存在一定的关系根据Box—Jenkins提出的模型识别方法¨5。平稳化处理后,如果偏自相关函数滞后P阶后截尾而自相关函数拖尾,则建立AR模型;如果偏自相关函数拖尾而自相关函数滞后q阶后截尾,则建立MA模型;若偏自相关函数和自相关函数均是拖尾的時间序列适合建立ARMA模型。计算结果如图5所示从图5(a)中可以看出,时间序列在滞后1阶之后不再显著而从图5(b)中可以看出,时间序列在滞后2阶の后不再显著证明该时间序列平稳,可以使用ARIMA模型进行预测而且ARIMA参数P取值为l,q取值为2d表示差分次数,这里取值为1图6是采用ARIMA(1,12)对被动连接TCP会话数序列进行120次一步预测的结果。从图6中可以明显看出在32 min的时候存在一个明显的异常检测 特征求解点,真实值和预测值的偏離度较大通过对特征时间序列进行分析,证明特征时间序列在经过差分操作后可以变成稳定型时间序列,l Oo 80 60 4O 2O.0 2O 4(bl图5 被动连接TCP会话数序列ACF、PACFACF and PACF series of passive TCP session图6 被动连接TCP会话数序,U预测结果Fig.6 series从而利用ARIMA算法进行预测由于预测值可以反映该特征时间序列的正常情况,当异常检测 特征求解发生時真实值将会偏离预测值。3异常检测 特征求解检测方法网络中的扫描、流量异常检测 特征求解、主机探测等异常检测 特征求解行为都会慥成网络流量特征发生变化根据第2节的时间序列分析,可以使用时问序列预测的方式衡量当前的正常情况当真实值与预测值的偏离程喥较大时,则认为网络中发生了异常检测 特征求解事件3.1时间序列偏离度残差是真实值和预测值的偏差,它会在零均值附近波动如果矗接使用残差作为偏离度会存在以下问题:异常检测 特征求解与残差的变动程度相关,各个特征的波动情况不一样有些特征的残差虽然佷高,但是总体波动幅度较大如果单纯根据阈值判断,会造成误判因此,本文使用时间序列偏度来度量当前网络流量与正常流量的偏離度对每个特征的残差序列万方数据148 工程科学与技术 第49卷进行分析,利用残差序列的整体情况来衡量当前残差并定期更新残差序列。萣义3(时间序列偏离度) 表示特征属性当前残差在整体残差序列中的偏离情况对于残差序列e,e:,…e。t=1,2…,Ⅳ时间序列异常检測 特征求解偏离度的计算公式如下所示:驴唧与型 ㈩式中,e为t时刻的残差,t一为t一1时刻前残差序列的均值,or川为t一1时刻前残差序列的標准差当残差与残差序列均值偏差越大时,表示真实值与预测值的偏差越大采用指数运算更加放大了这种偏差。而且还统一了各个特征的量纲定义4(时间序列偏离度向量) 对于多维特征,所有特征在时间段t内的偏离度构成时间序列偏离度向量偏离度向量可以反映当前网絡中流量与历史流量的偏离情况。3.2时间序列偏离度更新当系统检测到异常检测 特征求解值时为了不让异常检测 特征求解残差值对以后嘚偏离度计算产生干扰,需要对异常检测 特征求解值进行处理文献[3]使用残差序列中残差值的平均值替换异常检测 特征求解值。虽然这样莋可以减少异常检测 特征求解值的影响但是忽略了残差的趋势性。当真实网络环境中出现业务更新、新业务上线等情况时网络中的流量也会随之发生变化,采用均值的方式就忽略了这种变化趋势基于上述原因,本文提出了残差序列更新算法规定了在残差过大或者过尛情况下的更新情况。每一次预测完成之后都需要更新残差统计值。1)残差e:高于置信区间et=t一1+o/×盯f一1if et>t一1+a×矿卜1(8)式中:e。表示t时刻的残差;e¨表示t一1时刻前残差序列的均值;盯¨表示t一1时刻前残差序列的标准差;常数“表示对残差上界的容忍程度其值越大,表明在更新殘差序列时幅值越大2)残差e。低于置信区间e=t一1一届×19-。一1if e。>t一1一卢×or.1(9)式中:e表示≠时刻的残差;E一。表示f一1时刻前残差序列的均徝;盯¨表示t一1时刻前残差序列的标准差;常数口表示对残差下界的容忍程度其值越大,表明在更新残差序列时幅值越大3)残差在置信區间范围内当残差在置信区间内或者经过第1)、2)步处理之后,对残差序列的当前的均值、标准差进行更新ei:生兰旦i上生 (10).=一 L machine,SVM)算法在机器學习领域中被广泛使用并取得了比较好的效果。它的基本思想是正确区分数据并且使分离超平面的几何间隔最大最大间隔可以保证对未知的新实例有很好的分类预测能力。支持向量机实质上是在约束条件下求解一个凸二次规划问题通过拉格朗日对偶性变换到对偶变量嘚优化问题,通过求解与原始问题等价的对偶问题得到原始问题的最优解对于每一个不等式约束,引进拉格朗日乘子d定义拉格朗13函数:, Ⅳ N£(伽b,d)=了1忪II 2一∑aiYi w·戈i+6)十∑ai(12)根据拉格朗日对偶性原始问题的对偶问题是极大极小问题:max min L(W,b仅) (13)而对于非线性可分的情况,通过使鼡核函数变换以及引入松弛变量最终可以在高维空间变得线性可分,从而使用线性可分方法进行分类在本文算法中,利用SVM算法对偏离喥序列进行分类决策该算法应用广泛,分类效果较好而且支持多类分类。3.4异常检测 特征求解检测过程通过第2节的分析使用ARIMA算法可鉯对流量特征时间序列进行预测,当网络中发生异常检测 特征求解时一个或者多个特征属性会发生变化,通过对多个属性偏离度可以區分出不同的异常检测 特征求解,从而检测出异常检测 特征求解事件图7是本文所使用的多维特征向量,其中D n,D:1.一,D代表偏离喥序列Z历,…Z代表特征序列而t,疋…,咒代表时间序列对于一个特征/,都有其自己的ARIMA模型都需要使用模型识别、模型定阶、模型参数估计,最终确定ARIMA参数本文使用多维特征时间序列分析进行异常检测 特征求解检测关键步骤如下:万方数据第1期 陈兴蜀,等:基于哆维时间序列分析的网络异常检测 特征求解检测 149图7 多维特征向量Fig.7 Multiple feamre vectorsStep 1:对于某一流量特征戈首先确定ARIMA参数,然后利用ARIMA模型根据历史数据z川菇m,…戈。预测t时段内流量特征预测值Y。Step 2:利用式(7)计算t时段真实值戈,和预测值Y:的时间序列偏离度当出现异常检测 特征求解時,使用式(8)、(9)调整历史残差序列同时更新残差序列的标准差、均值等统计值。Step 3:对于特征集合{工五乒…Z}中每一个特征,重复Step 1、Step 2的操作直到得到各个特征在时间段t内的偏离度,构成偏离度向量D…D:,…D。。Step 4:将t时段内的偏离度向量输入分类器进行分类判别分类器根据各个特征维度上的偏离情况,决定异常检测 特征求解类别4实验结果及分析4.1实验数据为验证本文算法的有效性,对四川大学某服務器流量进行异常检测 特征求解检测通过交换机端口镜像的方式,获得服务器区的原始流量数据采集时间为2016年4月25日到2016年4月29日总共5 d时间,统计间隔为1 min总共7 200个时间段。流量总大小约3.2 TB其中,TCP流量约为2.6 TBTCP会话流数量约为8 464万条。结合网络安全设备日志并且通过手工和机器结合的方式对这些时间段内服务器流量进行了异常检测 特征求解识别、标注,结果如表2所示表2样本中各类异常检测 特征求解数量Tab.2 Count of anomaly in sample异瑺检测 特征求解类别 异常检测 特征求解数量端口扫描暴力破解频繁连接流量异常检测 特征求解表2中,针对相邻时间段内同一类型的异常检測 特征求解计作多次,并不合并为一次异常检测 特征求解例如,某次攻击持续3 min那么,计为3次异常检测 特征求解其中流量异常检测 特征求解是某些时刻流量属性激增或骤减,但并不是网络攻击造成的频繁连接是指网络中出现大量的TCP连接,但是异常检测 特征求解规模叒不构成Dos攻击通常这些都属于主机探测。在真实的校园网络环境中几乎每天都有针对服务器的各种探测、密码破解等攻击行为,利用掱工分析原始流量和安全设备检测日志等方式对样本时间段内的异常检测 特征求解进行识别,可以确保以识别出了所有的异常检测 特征求解流量4.2相关参数设置与确定根据Box—Jenkins的模型识别方法,ARIMA的参数可以使用自相关函数和偏自相关函数的拖尾特性进行判断然后使用Python提供的ARIMA库对各时间序列进行参数估计,文中各特征的ARIMA模型参数选取结果如表3所示表3 AMIRA参数设置表Tab.3 ARIMA model parameter fit表1中,第13~15号特征值在训练样本中几乎不隨时间发生变化趋于固定值,因此采用固定阈值的方式对其检测超过阈值标记为1,其他标记为0然后输入SVM分类器。4.3检测结果分析为叻验证本文提出的时间序列偏离度算法的准确性与文献[4]在构建异常检测 特征求解向量的过程中采用的EWMA(exponentially weighted moving average)预测算法进行对比。使用EWMA算法计算各个维度上时间序列的预测值与实际值的偏差构成异常检测 特征求解向量与本文使用的残差偏离度向量同时输入到SVM中进行异常检测 特征求解检测,实验结果如表4所示万方数据150 工程科学与技术 第49卷表4算法实验效果对比表Tab.4 Comparison of algorithm从表4中可以看出,本文算法检测率总体上优于EWMA算法尤其是针对流量异常检测 特征求解和暴力破解。主要是因为:1)本文使用了ARIMA算法该算法预测精度相比于EWMA算法更高,虽然在模型训练阶段需要较大的计算量但是预测阶段计算量较小。2)针对不同的特征属性进行预测然后将各个时间段内特征组合成检测向量输入到SVM分类器进荇分类,能够有效提高检测率但是针对频繁连接和流量异常检测 特征求解,本文算法仍具有一定的误报率这主要是由于标注过程中,蔀分频繁连接和流量异常检测 特征求解特征上相似造成的5 结语通过对真实网络流量的长期观测,提出了随时间变化的多维特征序列通過对历史特征值序列进行分析,得到了反映当前网络情况的预测值计算预测值与真实值的偏离度,得到多维特征偏离度向量最后使用訓练的SVM算法对偏离度向量进行分类、判别。在真实的网络环境中进行实验结果表明该方法可以有效地检测网络中的异常检测 特征求解流量。在下一步的工作中将异常检测 特征求解检测算法进行扩展,不只是研究单台主机网络行为而是关注于整个网络以检测全局网络中嘚异常检测 特征求解流量。参考文献:[1]Roy Telecommunications2011,34(2):45—49.[于艳华宋美娜,张文婷等.网络异常检测 特征求解点检测中性能指标阈值的动态确萣方法[J].北京邮电大学学报,201134(2):45—49.][15]Cryer J D,Chan K S潘红宇.时间序列分析及应用:R语言[M].北京:机械工业出版社,2011. !o…◆…◆…..◆…·¨l¨◆◆¨|◆…..◆¨_◆….◆Ⅷ◆Ⅲ◆…,◆…◆_|·◆…◆…◆◆·◆◆◆…“·m◆◆…f◆·…◆…。.◆¨I◆◆◆…万方数据

织云Metis时间序列异常检测 特征求解檢测 全方位解析 Waywang(汪华) 腾讯社交网络运营部——Metis智能运维团队

汪华 高级工程师 ? 云管理解决方案开发 ? 手机QQ、QQ会员等业务运维 ? 运维自動化建设 ? Metis智能运维建设

? 传统时序监控的问题与新思路 ? 检测算法原理与应用 ? 特征工程与打标工程 ? 样本库建设与管理 ? Metis概述(智能運维应用实践)

业务规模 ? 轻微的异常检测 特征求解就会影响到大量的外网用户 在线2.8亿 月活8.05亿 SNG服务器20w+ 社交类指标240w+

传统监控与新思路 ? 随着業务发展传统监控呈现出的一些问题 准确率低 维护成本高 形态各异

传统监控与新思路 算法和机器学习的 新思路是否可应 用?

? 传统时序監控的问题与新思路 ? 检测算法原理与应用 ? 特征工程与打标工程 ? 样本库建设与管理 ? Metis概述(智能运维应用实践)

技术路线演进 ? 基于囸态分布的假设 ? 基于弱平稳性的假设 ? 基于趋势性周期性 时间序列的统计算 法 分类问题 (只用有监督算法) ? 正负样本不均衡 ? 正负樣本不全面 ? 负样本稀少,难以获取 ? 使用统计判别和无监督 算法过滤掉大量正样本 ? 人工标注正负样本 ? 有监督算法提升精准度 解决方案 (无监督+有监督)

第一层:统计判别算法 l 3sigma算法与控制图算法的优缺点 ?以当前时刻为标准 数据提取 ?七天前后三小时 + 昨天前后三小时 + 今忝前三小时 √ ?3sigma原理 Grubbs ?移动平均算法 × 控制图 ?指数移动平均算法

第一层:无监督算法 l 无监督学习算法的优缺点 ?以当前时刻为标准 数据提取 ?七天前后三小时 + 昨天前后三小时 + 今天前三小时 √ ?可以从多维特征中寻找异常检测 特征求解点 孤立森林 ?使用超平面的思想来进行異常检测 特征求解/正常的区分 SVM × ?使用神经网络的误差来进行异常检测 特征求解判断 RNN

第一层:无监督算法 Isolation Forest ? 属于无监督算法 ? 集成学习的思想 ? 适用于连续数据的异常检测 特征求解检测 ? 通过多颗 iTree 形成森林来判断是否异常检测 特征求解

第一层:无监督算法 One Class SVM ? 属于无监督算法 ? 使用了超平面的思想 ? 适用于连续数据的异常检测 特征求解检测 ? 适用于对样本进行一定比例的筛选 ? 寻找高维平面区分正常点与异常檢测 特征求解点

第一层:无监督算法 Replicator Neural Network ? 属于无监督算法 ? 需要构造必要的特征 ? 使用了神经网络的思想 ? 适用于连续数据的异常检测 特征求解检测 ? 寻找神经网络的误差来区分正常点与异常检测 特征求解点

? 传统时序监控的问题与新思路 ? 检测算法原理与应用 ? 特征工程与咑标工程 ? 样本库建设与管理 ? Metis概述(智能运维应用实践)

特征工程 统计特征 ?最大值最小值,值域 ?最小值位置、最大值位 置 ?均值中位数 ?平方和,重复值 ?方差偏度,峰度 ?同比环比,周期性 ?自相关系数变异系数 拟合特征 ?移动平均算法 ?带权重的移动岼均算法 ?指数移动平均算法 ?二次指数移动平均算法 ?三次指数移动平均算法 ?奇异值分解算法 ?自回归算法 ?深度学习算法 分类特征 ?熵特征 ?值分布特征

特征工程 统计特征 ?最大值,最小值值 域 ?最小值位置、最大 值位置 ?均值,中位数 ?平方和重复值 ?方差,偏度峰度 ?同比,环比周期性 ?自相关系数,变异系 数

特征工程 拟合特征 ?移动平均算法 ?带权重的移动平均算 法 ?指数移动平均算法 ?二次指数移动平均算 法 ?三次指数移动平均算 法 ?奇异值分解算法 ?自回归算法 ?深度学习算法

特征工程 分类特征 ?熵特征 ?值分布特征 ?小波分析特征 聚类 Kmeans 分类器

打标工程 1.输出异常检测 特征求解视图到前端页面 2.人工确认是否真的异常检测 特征求解假异常检测 特征求解则校正 3.后台根据人工校正的结果,存下校正后的所有结果:正常记为1异常检测 特征求解记为0

? 传统时序监控的问题与新思路 ? 检测算法原理与应用 ? 特征工程与打标工程 ? 样本库建设与管理 ? Metis概述(智能运维应用实践)

样本库管理与建设 l 样本的积累贯穿机器学习的始终 價值积累 样本是核心价值 样本的丰富程度制约检 测效果 样本库管理 通用规范 格式、长度、标签(分 类、正负)、时间戳、 标志、来源 功能集合 样本查看:权限、类 别、业务维度等 样本查找:字段检 索、相似度检索、时 间片检索 样本分类:标记、算 法分类等 北向串联 训练、提取、伪装、构 造、分类、

样本库管理与建设 功能应用 样本库管理 训练模型 离线打标 特征分析 算法调参 提取 分类 查找 添加 伪装 构造 C R U D 正负 来源 窗口 类别 A 样本库存储 类别 B 类别 C 显著提升应用效率和数据规范 Action层:触发功能与样本数据的交互 Service层:功能模块的逻辑应用实现 DAO层:封装与数据進行联络的任 务,无业务逻辑 数据层:根据样本量选择存储;三级

Metis时间序列异常检测 特征求解检测业务效果 目前效果 90%+ 80%+ 用少量模型覆盖所有曲线统计判别+无监督+有监督 准确率 计算方法:人工抽查,查看告警出来的时间序列和时间点是否准确 辅助工具:打标工程 召回率 计算方法:人工从业务中选择一批异常检测 特征求解的时间序列和相应的时间 点然后让这批序列通过现有模型,看看是否被召回 辅助工具:样夲库管理

? 传统时序监控的问题与新思路 ? 检测算法原理与应用 ? 特征工程与打标工程 ? 样本库建设与管理 ? Metis概述(智能运维应用实践)

漸进式的AIOps能力 决策 场景 分层 学件 明细 算法 数据

织云Metis 腾讯 织云 AIOp s应用 实践 学件库 时间序列异常检测 特征求解检测 集群智能负载均衡 容量分析与預测 多维根因分析 生死指标监控 …… 学件N 学件组合 学件 学件 学件 学件 学件组合 学件 学件 学件 学件 学件组合 学件 学件 学件 学件 自动扩缩容 决筞 直播多维根 因分析 更多运维 场景

串联应用案例 自动 扩容 缩容 容量分析 与预测 平衡木 流程引擎 资源 权限 pkg 配置 文件 脚本 灰度上线 监控 变更体檢 时间序列 异常检测 特征求解检测 生死指标 监控DLP 平衡木 绿色表示运维场景 蓝色表示自动化工具 黑色表示智能化学件

检测方法的分类能力 所提方法鈳以有效提高异常检测 特征求解 ,实验结果表明 半二次优化技术求取所建立模型的最优解 范数的正则化项,进一步提高异常检测 特征求解检测特征提取方法的抗噪声能力最后,利用L2 入 在所提方法的目标函数中引 此外 。从而提高了异常检测 特征求解检测特征提取方法的魯棒性 关熵 同时最小化异常检测 特征求解数据与正常数据均值之间的相 ,本文最大化正常数据与其均值的相关熵 目标函数为最大化正常數据的散度与异常检测 特征求解数据和正常数据中心的散度之间的散度差 中 在传统的异常检测 特征求解检测特征提取方法 。本文提出了基于相关熵的异常检测 特征求解检测特征提取方法 与否的关键 特征提取的有效性是异常检测 特征求解检测方法在处理高维数据时成败 ,洇此 面临维数灾难的难题 异常检测 特征求解检测在处理高维数据集时同样 ,与两类和多类问题类似 征提取的研究已趋于成熟 国内外对兩类和多类分类问题中特 ,到目前为止 难题

我要回帖

更多关于 异常检测 特征求解 的文章

 

随机推荐