Banner
首页 > 新闻 > 内容
运维工程师如何利用大数据实现运维监控?
- 2018-12-13-

找到数据;分析定义从数据里中我能得到什么;从大数据平台中挑选你要的组件完成搭积木式开发。运维监控所有系统最可靠的就是日志输出,系统是不是正常,发生了什么情况,我们以前是出了问题去查日志,或者自己写个脚本定时去分析。现在这些事情都可以整合到一个已有的平台上,我们唯一要做的就是定义处理日志的的逻辑。这里有几点注意的:

如果你拥有复杂的产品线,那么日志格式会是一个很痛苦的事情。以为这中间Storm(或者SparkStreaming)的处理环节你需要做大量的兼容适配。我个人的意见是,第一,没有其他更好的办理,去兼容适配吧,第二,推动大家统一运维监控日志格式。两件事情一起做。我一个月做不完,那我用两年时间行么?总有一天大家都会有统一的日志格式的。
如果你的研发能力有富余,或者有大数据团队支撑,那么可以将进入到SparkStreaming中的数据存储起来,然后通过SparkSQL等做即席查询。这样,有的时候原先没有考虑的指标,你可以直接基于日志做多维度分析。分析完了,你觉得好了,需要固化下来,那再去更新你的SparkStreaming程序。运维监控从搭建到完成SparkStreaming程序开发,到数据最后进入HBase存储,大概只花了一天多的时间。当然为了完成那指标分析