Banner
首页 > 行业知识 > 内容
智能运维是否就是由AI 代替运维人员
- 2018-05-07-

 计算机方面的技术现在的发展速度非常快,不同的计算机语言、计算机技术让大家每天都感觉跟不上其趟。对于智能运维,我们也是在一个边探索边发展的境地。在一个传统企业中,如果摆脱以前的脚本从事现在的智能运维该怎么走?现在南京风城云码软件技术有限公司的工作人员就和大家分享一下:

 要做好智能化运维之前,我们经过深入的分析,提了四个要求:

 第一个是规范化。规范化就是尽可能的把操作规范下来,比如模板里是什么基础配置和安全基线,有一个规范化的标准。

 第二个是可控性。就是能够通过云监控平台发现各个业务存在的瓶颈,包括资源瓶颈和性能瓶颈,对可能产生的问题可控可分析。

 第三个是数据化。基于海量数据的决策分析,才能方便作出准确的判断和科学决策。

 第四个是主动性。从被动响应变为主动服务,主动发现问题,把问题消灭在萌芽中,在业务发生问题之前及时告知,这个感觉就不一样了。

 我们希望构建现代化和智能的运维管理模式,主要是以下5个方面,如下图:

 基于大数据平台的日志分析和多维报表

 基于大数据平台,提供日志的采集和聚合处理,通过日志关联分析帮助准确全面定位提升效能和满意度,智能预测和预警,为科学决策提供量化依据。

 基于大数据平台的多维报表,根据自己的需要,按照日、周、月来生成运维报告,发送给管理层的领导,这些数据是他们比较关心的,比较清晰的图示出在这些时段发生了哪些问题,造成了多大面的影响,然后决定相关的资源是否进行扩充,相应的业务部署是否需要调整。

 综合展示比较关注的则是性能分析、容量分析和自动化配置。比如今年采购了500TB存储,我用了多少,明年还需要扩容多少,业务增长量会有多少,这个都影响到企业的采购计划。根据业务的实际进行评估,来推算出明年大概需要买多少TB的存储。

 故障管理及自治自愈

 简就是要确保业务和SLA服务级别,出现问题要及时响应、自动分析和优化,把处理的流程精简和高效组合起来,让问题匹配正确的场景,找到正确的人,在第一时间正确处理。

 机器学习主要就是突出智,这个需要大量的数据来训练,故障出现的形态是千奇百怪,对故障的历史数据进行场景分类和标注,不断用模式识别和数据来训练机器识别和分析,然后让机器自动准确判断。

 当然标注不能完全靠人,也需要通过机器来自动进行关键词标注,而标注的合理性就需要人为进行判断,然后再利用到机器学习上,这样才能真正辅助我们做一些决策。

 基于架构、工程师的经验和概率来做到收敛告警事件,基于规范和分工产生告警事件发送到对的人,基于数据和模型来提高事件的处理能力。很多事件有的工程师处理的特别快,反之如果对这个故障不熟悉的人可能花费的时间就很长。这就需要构建一个策略知识库,让其他人来参考和学习,提高同类场景事件处理的能力。

 南京风城云码软件技术有限公司智能运维的目标是,用智能化的运维系统减少对人的依赖,相信智能运维系统,让智能运维系统自己去判断和处理。现在的技术都是在不断进步的,AI技术的出现在未来会解决掉一些耗费大量人力精力才能解决掉的问题,而不是让AI代替运维人员。