事件管理决定网管软件成功与失败

来源:网络发布时间:2009-07-31
 很多人用网管软件很长时间了,但是还是觉得用起网管软件来,很不方便。这是什么原因呢?笔者认真分析了种种原因,最终发现,原来是很多人并没有把网管软件中的事件管理用好。下面笔者来说明一下,为什么要用好事件管理。
  什么是事件管理
  首先向大家说明一下,什么是事件管理,首先我们想象一下,网络中各种IT元素也像人类这个社会一样,每天都会发生各种各样的事情,如某个网络设备宕机了,某个服务器重启了,或者某个网络端口宕掉了,等等。因此一旦网络中某些设备或者某些资源出现了问题,或者说设备的状态发生了变化,就自然而然会产生事件,如端口由UP状态变为Down状态;或者反之,由Down状态变为Up状态,都会产生事件。
  那么,我们再想象一下,如果没有事件管理,网管将会怎样?如果没有事件管理的话,针对IT资源的管理永远将会是处于一片混乱,我们根本不知道过去整个网络中到底发生了什么,我们只能够通过网络拓扑图仅仅看到红灯由绿变红,而后又由红变绿。这也就是为什么,很多人使用了网络管理软件后,总觉得网管软件不好用的原因之一,因为他觉得只要看网络拓扑图就足够了,而真正的驱动整个网络管理的运维流程和为管理维护人员产生短信通知等,都是事件管理的功劳。因此,说事件管理决定一个网管软件的成功和失败是不为过的。
  好的事件管理软件好在何处
  在这里,我们就为大家好好说一说一个好的事件管理软件是如何做到的:
  1.好的事件管理是能够进行根源性分析的。
  一旦网络中某个核心路由宕机,导致某个网段内的IT设备都不可访问,如果没有根源性分析的话,网管人员将会看到成百上千的故障事件,而有了根源性分析的话,管理人员只会收到一个故障事件的报告,网管人员只要恢复该故障事件即可解决问题。因此,一个好的事件管理能帮助网管人员减轻大量的工作量,而且能起到一剑封喉的作用,直接解决问题,省却大量的故障查找时间和故障分析时间。
  2.好的事件管理是能够防止误报的。
  一个网管系统上线后,网管人员常常会收到大量的故障告警,而通过查找和对比,网管人员往往会发现,其中95%的故障告警是垃圾告警,长此以往,真正的故障告警发生的时候,将会是狼来了,却没有人理会。这个是为什么呢?因为,市面上,很多网管软件都没有做误报过滤处理,很多的时候,一个性能超标事件常常是因为某个偶然因素,会向上跳至超标线,而后迅速恢复至正常。如果将该种超标视为故障而报警的话,将会导致网管人员疲于奔命的效果,因此摩卡软件公司的网管软件采用了Flapping技术,当某个指标连续超标N次后,才会告警。这个N是可以根据用户的实际需求,而灵活调整的。
  3.好的事件管理是能够提供压缩事件的。
  当一个服务器宕机后,如果在1个小时内没有恢复的话,很多网管软件会每隔几分钟就不间断的发出短信告警,但实际上运维人员已经在处理故障了,因此摩卡软件根据这个特点,实行了故障事件压缩处理,当故障事件产生后,只会发出一条告警事件,直到故障恢复。
  4.好的事件管理能够和问题指标自动关联的。
  很多时候,一个设备出现问题,往往不止是一个原因,因此摩卡软件的事件管理能够将性能故障和多个性能指标事件相关联,方便管理人员进行综合分析。
  5.好的事件管理是能够产生自定义事件,以方便和运维流程整合。
  故障事件产生后,是需要流程去解决的,因此必须为流程的启动和工单的触发预留足够的接口,而摩卡网管软件支持用户自定义事件,为流程的整合提供了灵活的接口,方便网管软件和IT运维流程管理软件进行整合。