扎心的运维告警
扎心的运维告警
如何最佳的配置“告警”
是每一个运维伙伴工作中面临的棘手问题
引
随着企业数字化转型的深化,许多行业都卷入了数据爆炸的洪流之中。健康大数据、金融大数据、政务大数据等等…而运维从业者这一群体,与数据的关联更加紧密。
当下APM产品逐步普及,运维伙伴可以轻易将所需关注的数据进行可视化的展现,对业务的变化可以做到一目了然。但同时,也给自己套上了“紧箍咒”,监控平台的“红色标识”,邮箱、短信收到的告警提示,紧牵着运维伙伴的神经。
问题也随之而来,如何最佳的配置“告警”,是每一个运维伙伴工作中面临的棘手问题。
业务越来越复杂,越早的发现局部小问题,才能更好的保障业务的运行。
如何实现精细化的告警?
“可用性”是判断应用健康状况的一项重要指标。但这一项指标告警可能存在一些遗漏及误报,比如在金融行业常见的前置应用到核心应用这一架构中,当核心应用的“成功率”、“响应率”等指标正常时,是否即可判定应用正常?
实际情况中,核心应用通常承载许多程序模块,当其中某一程序模块出现问题时,而整体的指标在正常的范围时,“可用性”告警可能就失效了。
这一场景下,“过滤器”即可发挥出价值。
“过滤器”可通过一组搜索条件,在已归类好的交易里将我们关注的某种特征的交易筛选出来,例如IP端口、不同交易渠道、不同交易类型等维度,再结合运算,做单独的分析,即可实现更加精准的告警配置。
举例来说,在配置高危事件告警时,可通过监控关键交易及关键节点的性能指标,对交易中出现的关键错误码的重点识别来实现对高危事件的告警。当然,这仅是“过滤器”应用的冰山一隅,在面对更加复杂的场景时,“过滤器”有更大的发挥空间。
随着业务的增长、告警的精细化要求,监控的需求越来越大,传统的配置方法显然无法满足,如何应对?
当需要对数据按照维度进行过滤时,当一个维度下的值成千上万时,当一些值只在离散的时间段内出现,动态增减,人工难以及时响应调整时,想实现对其全面的监控便会十分的困难。潜在的巨大工作量更是难以承受。
此时,“聚合维度告警”挺身而出。通过聚合维度告警,在设置告警对象时,不必再人工对要监控的所有值逐个的指定,只需告诉监控系统所关注的维度,该维度下所有值均会按照告警条件进行监控,并且可以通过例外值的独立设置,确保监控的精准与可靠。
业务在变,监控需求也在变,告警能不能更加智能?
绝大多数的监控系统都是通过阈值来实现告警的,阈值是固定的,而业务却是不断变化的,随之而来的问题便是告警的泛滥,隐患不言而喻。
近年,很多企业也开始尝试“去阈值”,动态基线的科学性自然成为了举足轻重的大事。
在即将发布的EZSonar4.1版本中,华青融天优化了原有的“动态基线告警”算法。优化后的AI算法基于模型多周期因素综合考虑,管理员不需要再额外配置其他参数,在指定需要监控的指标后,便可以自动地实现学习和监控。
运维之路,艰苦漫长,告警的持续改进也不能一蹴而就,运维伙伴需要不断的优化、不断的总结。
华青融天亦身先士卒,通过不断的更新、迭代产品,助力运维伙伴。
华青融天自2007年成立,一直致力于IT智慧运营的产品研发和技术服务,以AI驱动IT智慧运营,发展出一个平台、三个业务线产品:业务运维EZSonar、安全运营EZAccur、业务洞察和行为分析EZUBA,全力为用户打造一个高粘度的实时大数据平台。
目前,公司拥有数十项发明专利、技术资质、软件著作权以及多项自主知识产权产品,并与清华、北大、北航等院校开展产学研合作,共建“人工智能综合实验室”
“北航大数据与智能安全管理联合实验室”。
拥有包括招商银行、中信银行、国开行、平安集团等在内的众多客户,行业遍及金融、保险、税务、医疗、航空、军工等十多个领域。