首页 > 新闻 > 内容
智能运维系统的骨干网异常判定策略
- 2018-12-07 -

江苏智能运维系统使得我们尝试在判障策略中采用分类器模型,并人为设计特征来减少特征维度,减少模型过拟合的风险。

判障策略的具体步骤如下:

确定省份异常状态真值

我们根据各省份异常率以及人为设定的阈值,判定该省份到机房的异常状态,并且以此状态作为省份异常状态的真值。

寻找划分线位置

在判定各省份到某机房的异常状态后,对所有省份按照纬度进行排序,并将每个省份都作为可能的划分位置进行遍历,寻找使得“划分误差”最小的位置,作为划分线位置。

每个可能划分位置都会将省份集合分为划分位置以南的集合与划分位置以北的集合。根据南北链路异常的特点可知,若异常机房为南方机房,则应为正常省份的集合,而应为异常省份的集合。若异常机房为北方机房,则为相反情况。

对于每个省份,若由划分得到的省份状态与省份异常状态真值不符,则认为该省份被划分错误,划分误差可以通过划分错误的省份数/总省份数得到。

机房位置、异常省份纬度中位数

两者的相对位置关系在南北链路异常时具有明显特征,因此这两维数据的引入增强了南北链路异常的可识别性。例如,南北链路异常发生时,到南方机房异常的省份通常在纬度上远大于机房所在的广东省。取中位数为了消除极端点和噪声带来的影响。

划分位置两边省份异常率均值

机房侧异常发生时,异常省份的分布通常是较为均匀分布于全国各地,因此划分线两边省份的异常率均值差距通常不会很大。因此这两维特征有助于分类器识别机房侧异常。

分类器训练

为了区分两类异常类型,我们将训练一个二分类器,训练数据正例为南北链路异常按上述步骤提取到的特征,反例为对机房侧异常提取的特征。在分类器的选取上,我们选择了支持向量机(SVM)这一常用的分类器模型,并根据实验回溯效果选择了合适的核函数。通过以上步骤,我们实现了骨干网链路异常的判定策略。自上线运行以来,江苏智能运维系统取得了极佳的异常判定效果。

总结

本文从外网异常监控遇到的实际问题出发,介绍了江苏智能运维系统的骨干网链路异常以及判定策略的设计思路。该策略有效地解决了骨干网异常与机房侧异常混淆的问题,使得百度云智能运维产品Noah能够精确定位骨干网链路异常,完善监测能力。