IT运维对象关系在AIOps中的价值探索
1月6-7日,中国信息通信研究院主办的[2022 GOLF+ IT新治理领导力论坛]在京召开,会议围绕“共创研运生态,释放智效动能”、“深化科技治理,夯实合规基石”和“深化数字赋能,助力审计转型”三个主题展开。鼎茂科技作为AIOps厂商代表,亮相XOPS产业生态主题论坛,分享《创新IT数据服务化和关系化治理模式探索》。(以下为分享内容节选)
01. 为什么我们要强调“关系”
——关系,是IT对象之间的互相依存和影响的过程
关系,在中文里的意思,是发生在两个人之间的一种社会交往的过程。在使用的过程中,通常要加上拉、搞、走、跑、套这样的动词,可见关系的价值在于动态的过程。绝大多数情况下,关系到位,则事可成。
换在IT架构中,关系,是存在于IT对象之间的一种互相依存和影响的过程。尤其在云架构普遍应用的状态下,各对象之间的关系脉络早已成为激素变化的动态过程,在当前IT运维分组而治的团队管理模式下,关系处理到位,则运维可大成。
02.以搞清“对象关系”作为数据治理的目标
——形成用于提升AIOps场景广度和深度的数据基础
数据治理,是一项庞大和复杂的工程,目标是实现静态数据的标准化、规范化,从而净化数据环境,解决企业数据的质量问题。而数据质量的高低,评判的标准取决于数据所处的环境,因此,没有应用场景设定的数据治理过程,实际上并没有衡量依据。
运维数据治理,是一项目标清晰且场景明确,同时花费代价可控的日常管理事务,目标是实现IT对象之间、对象指标之间、指标数据之间的依存和影响状态可追查,为智能运维场景降本增效而服务。可以通过指标覆盖率、完整性、健康度以及全业务链路RCA过程追踪和预测场景结论作为衡量和补充依据。
鼎茂科技将运维数据关系治理过程换用可视化手段进行呈现,以可拖拽方式实现数据规范化设计要求,大大简化数据标准处理过程和工作量,同时纳入多样化算子,以清洗指标关系为目的,通过简单的算子组合过程,明晰数据脉络,可覆盖全局运维数据,包含业务应用各项黄金指标以及基础设施运维指标,从IT对象和指标层面拉通业务层与基础设施层,形成用于提升智能运维场景广度和深度的数据基础。
03. AIOps由“算法驱动”升级为“关系驱动”
——解决过往AIOps应用范围有限以及算法准确率不高等问题
众所周知,过往的AIOps应用场景一直强调的是“算法赋能”,但不可否认的是,算法属于数学工程,实现的是用机器帮人了解某一维度数据的前世今生并做出规律化推测。
而IT的本质则是业务与基础设施整体架构之间数据、指标、对象之间的依存和相互影响关系。因此,算法可以赋能传统运维单一维度的数据预测,而关系则可以从IT的本质角度赋能算法深化智能运维场景的应用范围,从而解决过往智能运维应用范围有限以及算法准确率不高等问题。
简单来说,运维对象关系模型对于AIOps的价值提升体现诸多:
·提升→海量日志中关键数据抽取分散且耗时的现状,可由关系模型主动拉取关联数据提升效率和准确性
·降低→海量告警中告警降噪和关联只能依赖事后规则化处理的现状,可由关系模型主动收敛降低大量规则化带来的维护成本
·扩大→异常检测场景中当前只能聚焦在业务黄金指标,现在可由关系模型主动扩大至业务和基础设施范畴实现基础设施层的海量机器指标异常检测
·深化→根因分析场景中单依赖数学特征无法进行有效推测的现状,可由关系模型主动提供IT架构间运行态数据关系作为算法驱动,深化AIOps场景应用能力
·增强→容量预测场景当前只可依赖简单指标做曲线预测的现状,可由关系模型主动加载业务与基础设施关联数据做影响性评估,准确性和可参考性大大增强
·实现→有了IT本质属性的对象关系模型后,诸多AIOps应用场景才有了实现的可能