破解“关系”制约,升级全域AIOps价值|鼎茂亮相双态IT武汉论坛
随着分布式架构和云原生技术加速推进,运维工具相比过去呈现出更高强度的进化态势,从多个相对独立的软件向EA形态的一体化系统进化。基于这一新的变革点,4月7日,DCMG和双态IT联盟,以“分布式架构和云原生时代的运维软件进化”为主题,在武汉举办樱花论坛,央国企、金融机构等行业专家和运维厂商齐聚,深入探讨运维平台发展之道,鼎茂科技作为联盟成员单位受邀出席。
鼎茂发表了《基于对象指标管理体系的一体化AIOps探索》的主题Topic,与业内嘉宾探讨在分布式云原生背景下AIOps对企业运维和业务的赋能空间,并针对目前制约AIOps发展的瓶颈问题,分享了鼎茂在数据治理、算法应用和场景构建等关键领域,运用创新技术和知识沉淀,全面升级AIOps价值落地的探索实践。
以下为观点性内容
分布式和云原生带来的运维挑战,AIOps仍然是解决之道
分布式系统和云原生环境都是高度动态和复杂的环境,而且这些环境正处于不断变化中。这些环境包含大量的微服务、容器和虚拟机等组件,这些组件会频繁部署、扩展或缩小。同时环境中还面临各种复杂的风险、故障,并且由于它们的动态性,传统的手动方法往往无法解决这些问题。
同时各种组件和服务之间存在着复杂的依赖和影响关系,这给运维工作增加了了解和维护系统的难度。由于这些影响关系,跨服务进行故障排除和性能分析变得更加困难,当分布式架构中的一个模块出现问题时,可能会影响整个系统的性能和可用性,需要花费更长时间来诊断和解决问题。
因此在分布式系统和云原生环境中,AIOps变得尤为重要,通过人工智能来补足应对节点数量巨大、资源复杂的IT环境和弹性业务的可能。
在很多实际应用中,AIOps尚未达到最大化价值利用
虽然AIOps已经被广泛应用于各种组织中,但实际应用还存在许多挑战和限制,同时一些企业可能认为AIOps只是一个技术,还没有真正体验应用场景,因此AIOps尚未达到最大化价值利用。
依托AIOps原生具备的能力,可以从整体上赋能企业运维甚至运营。但从应用实践来看,对于AIOps的应用局限在一些单一技术场景,比如告警的异常检测、日志分析、性能管理和故障定位等,通过某一领域数据和算法赋能,也获得了速度快、准确性高的效果。但应用场景在复杂IT环境下也快速显现出了场景局限,比如:在金融交易当中,我们能够看到的一些关键指标是:交易的成功率、交易的延时、交易的失败率、交易的时间。在单一维度上进行算法分析时,看到好的效果;当它拓展到IT业务层、交易层、服务层、乃至基础设施层,就出现了无法关联定位的情况,也同样难以支撑分布式系统的跨服务整体分析。
回归IT本质,用【关系】一体化,突破AIOps制约
拉通服务和组件,拉通业务和IT,拉通数据和组织,是一体化运维的追求目标,反观来看,目前制约AIOps发展的瓶颈,主要是数据治理的质量、算法应用的效果,和构建有业务价值的智能场景。突破了AIOps的制约,也就能够实现一体化智能运维的建设。
从原因找到破解方案。
首先从数据层面来看。AIOps需要整合各种数据源,包括日志、指标、业务等数据。但是,在企业中这些数据通常散落在不同的系统和应用程序中,并且它们之间相互依存。如果这些系统之间的【关系】没有得到清晰建模和定义,那么就很难将这些数据整合起来,从而限制了AIOps的效果和范围。
其次从算法层面来看。AIOps需要对发生的事件进行分析和诊断,以确定根本原因并提出解决方案。但是,在复杂的IT系统中,一个问题可能会涉及多个组件和依赖关系。如果这些【关系】没有追踪分析,就很难确定问题的来源和影响范围。
最后从场景的层面来看。AIOps分析场景众多,维度复杂,在业务监控领域,部分还有很强的关联【关系】,所以当需要进行问题追踪的时候,不仅发现算法受到了局限,导致业务和IT管理剥离。
针对【关系】的解决思路。
1. 以运维对象为视角构建运维体系
运维对象是指对于某个运维任务需要被管理的具体实体,针对不同的运维管理角色,支持不同的运维对象定义,例如一个应用程序、一个数据库或一个虚拟机。每个运维对象都与若干个运维指标相关联,这些指标反映了该对象在一定时间范围内的性能和状态,例如CPU使用率、内存利用率、磁盘空间占用等。
IT 的本质是很多不同的组件构建起一个个复杂的业务体系,在复杂的业务体系里,我们能看到的就是不同的对象,和对象之间的关系。一个有效的运维体系应该基于具体的运维对象,以确保运维活动能够对这些对象进行全面的管理和支持。
2. 面向运维对象的指标管理体系
在传统数据库的分类里,构建的是一套一套的业务体系(比如金融的营销、项目管理、保险理赔等等),这些都是烟囱式的竖井结构。我们需要把它们拉通,建立横向的关联结构——运行时数据关系。
基于关键指标的监控,利用AI进行计算和数据追踪,得到对象间的关系指标,我们称之为衍生指标。衍生指标,就是基于IT本质的对象关系,对关键指标重要补足,更深入地了解系统运行情况。并以此快速评判目前的监控体系是不是完整的、是不是覆盖度全面的,观测对象整个健康度评估状态。如何把这些对象指标,按照运维经验把整个规范和校准体系建立起来,是比较重要的。
3. 以对象+指标为中心建立数据治理和筛选
区别于传统基于数据湖为目标的数据治理方法,鼎茂AIOps的数据治理结合了对象指标关系,面向对象的关系体系,也就是常说的血缘、因果关系等等,再加上蕴含整个运维管理指标模型的体系,基于对象和对象的关系企业建立拓扑,以获得整个系统内的相互依赖的关系。
应用于分析的数据筛选难点在于如何确定哪些数据与故障有关,哪些数据是无关或者干扰数据。在大规模的系统中,数据可能非常多,需要对数据进行快速准确的筛选。
这样的数据治理和筛选机制可以基于场景进行设计和实施,确保数据质量、准确性和可信度,并确保数据可以在正确的时间和地点进行分析和使用,从而帮助组织做出更好的决策,降低数据治理上的成本。
4. 用关系为算法和场景赋能
传统依赖数据特征的算法分析是根据规律来标识异常点。但加上对象指标为中心的数据治理体系之后,上层不仅是单线条触发,而变成了多条线的交错的、一个因果范围里的触发。
在事前监控阶段,包括面向业务环境的指标趋势、面向IT架构的指标监控等,都注入了对象指标,将传统基于数据特征的算法升级到了以对象、指标、关系元素的多维分析。比如:上层一个系统出了问题,当有对象关系的话,可以分析道具体是哪个IP、哪个交易码的问题。带来的业务价值是:提前做预测、降低传统的误报漏报、快速定位;以及面向海量Infra指标的全量智能覆盖。
在事中的观测阶段,利用基于对象指标的数据全域治理,加上端到端可视化数字运营工具,可以低成本实现托拉拽建设,还可以将业务过程、IT系统、网络设备等多种运维对象联系起来,形成一张全面的运维管理图。
在时候的告警及处置阶段,依赖对象指标关系模型,可以把不同来源、不同维度的告警放到一张按照告警分类分层分级的标准规则视图,实现根因级告警能力。
鼎茂基于面向企业运维数据对象指标体系为核心的深层治理,全面建设以事前问题智能发现、事中快速收敛聚焦、事后多维高效分析为一体化的智能运维蓝图,综合提升持续透明管理效能、打造算法和场景双向赋能的一体化闭环运维,探索面向更具纵深场景能力的全域AIOps体系建设。