事态管理(事件管理),原来称作事件管理,是ITIL运营管理体系中的一个主要流程之一。所谓事件(事态)是指对于配置项或它服务有重要意义的状态变化。比它如系统中的服务器。
监控对于事态管理是必要的,但不是所有监控都会导致检测到事态,并非所有事态都具有相同的意义或需要相同的响应。事态可以分级,通常可以分为信息(信息),告警(警告),例外(例外)。信息在识别时不需要采取行动,但可以在事后的分析过程中提供数据支撑以采取措施改进服务。告警通常在达到一定的条件下触发,使团队能够在业务发生实际负面影响之前采取措施应对。而例外则表明已经实际发生了违反预定义规范的事态,异常事态一定要采取措施。
通过监控工具或自动化监控对象的做法可能会产生大量数据,但如果没有关于如何限制,过滤和使用此数据的明确政策和策略,那么它将毫无价值。
JITStack集合主流开源监控平台并结合在监控领域的实施经验,为客户组织打造纵向层次化,横向大规模可扩展的灵活,成熟,可扩展的可视化统一监控解决方案。方案以Zabbix,普罗米修斯,麋鹿为开源监控平台,Grafana技术框架为开源可视化平台,结合Ansible开源自动化技术,打造纵向可以监控从硬件基础设施,系统,应用状态,业务数据,虚拟化环境,容器,日志等全方位信息系统以及对监控数据的分析,展示;横向可以实现从监控小规模几台到几十台的中小规模的集中式高可用部署,到监控几千台设备的分布式监控系统部署。
客户组织利用JITStack监控系统平台实行监控和事态管理流程中的重要活动:
定义监控项:确定哪些配置项,设备,系统,服务及其组件并确定监控策略。
实施和维护监控:利用设备,系统自身的监控功能或者使用专用的监控工具可实现监控,不同的系统产生的大量监控数据,各种事件分布在不同的系统中,如主机,网络设备的本身往往都有不同的监控系统,其监控信息,事态告警都分布在各自的监控系统中,通过JITStack统一监控系统将各种监数据汇集到统一监控系统,有利于简化事态管理复杂性,提高运维效率。
修正降噪:由于系统之间的耦合,同一个故障可能会导致各个不同的层级关联系统产生一系列相关的事态信息,告警和例外,使运营团队淹没于大量告警之中,增加了排查处理问题的难度.JITStack通过修正降噪方案,将相同原因的事态告警合并,只显示有限数量的事态通知,帮助运营团队专注于处理有意义的告警通知,提高效率。
建立维护阈值:确定哪些状态变化将被视为事态,并选择标准对事态进行分级.JITStack监控系统默认支持6级安全级别定义,满足更精细,灵活的响应操作管理。
JITStack监控系统支持分级层次多途径通知,结合客户组织实际,建立和维护应如何处理每级事态的政策以及适当的管理,在JITStack监控平台实施定义的阈值,标准和策略所需流程,并结合自动化工具实现运维管理的自动化。
JITStack统一监控平台与事态管理