基金证券行业的运维智能监控场景探索
基金证券行业与其他金融机构相比,在业务模式、风险特征、监管机构等方面都存在鲜明差异,这也意味着相比于其他金融机构,基金证券行业在运维监控工具的选择与应用上,必须更加关注业务数据及投资运营的相关指标,而不仅仅是基础设施的状态。
同时基金行业机构的业务、技术和数据提速极快,各类基础和应用系统相互交叉,带来了更为复杂的影响关系,也带来了指数增加的业务风险和运维挑战,最容易感知的影响就体现在——曾经靠人力做到的问题定位时间被无限拉长。大多机构虽然已部署多种监控系统,但由于缺乏一体化、智能化的监控分析手段,在监控的全面性、日志有效分析、异常定位准确和效率、容量预估精细度等方面,已明显表现出不满足实际工作需求的现状。
基于关键指标的传统监控,难以应对复杂IT和业务
传统基于关键指标的监控方法,通常是通过设定一组指标或阈值来实现监控。当这些指标或阈值超出预设范围时,系统就会发出预警信号或自动化处理。然而,在基金证券行业的运营中,传统基于关键指标的监控方法已经不再适用,原因和影响如下:
第一,传统监控方式忽略了交易链路中的细节环节,容易造成大量业务故障。
基金证券行业的交易链路非常复杂,包括多个环节和参与方。传统基于关键指标的监控方法难以对每个细节环节进行有效的监控,监控的粒度较低,不能很好地捕捉交易链路中的所有异常情况,容易产生漏报和误报。
第二,基础IT设施和业务缺乏有效关联,问题无法快速定位。
对于业务而言,其判断标准为:是否能够打开、慢不慢、是否卡顿、有没有崩溃。但这些业务系统的表象对于运维而言,需要通过大量监测手段和经验才能够匹配业务系统,传统监控和处理方式经常导致问题发生不能快速定位,造成业务停滞风险。
第三,业务系统间数据互不相通,复杂故障的权责定位耗时耗力。
基金证券行业的运营模式越来越复杂,涉及多个产品、客户和业务流程。传统基于关键指标的监控方法难以有效地跟踪和管理所有运营环节,很难满足日益增长的市场需求。
最后,传统监控方式对于各类网络安全威胁无法实时进行风险提示。
基金证券行业的风险类型繁多,风险事件的发生具有一定的随机性和不确定性。传统基于关键指标的监控方法无法准确识别和评估风险,也无法快速做出相应的决策和响应。
业务链路复杂、风险控制严格、资产多样化、数据决策实时性等行业强特征带来的系统稳定性挑战,促使基金证券行业机构需要加速升级更加智能化和全面化的监控方法。
对于监控能力的需求,从单点发展到全链路升级
同时,随着人工智能技术的发展,预测性运维已经逐渐成为运维领域的主流趋势。在运维的监控场景管理中,也已经不仅停留在监控的全面性上,从监控的问题发现,到告警的智能化管理,再到根因定位辅助决策和一些问题的自动化修复,对于基金证券行业机构而言愈加重要。这也让很多机构对于运用AIOps能力来提升运维管理的需求,也从单点AI赋能快速扩充至端到端全链路流程闭环管理上来。
在多年的行业实践中,鼎茂发现:以运维对象为视角出发,可以实现针对每个运维对象的全面管理和优化,从而有效实现运维流程的自动化和规范化管理。
具体来说,以运维对象为视角出发,可以实现以下几个方面的优化:
从监控方面来看,对于每个运维对象,需要定义相应的监控指标和阈值,建立监控规则和策略。通过对运维对象的监控,可以实时了解对象的状态和运行情况,及时发现问题并进行处理。
从告警方面来看,当运维对象发生异常或出现故障时,需要及时进行告警。通过对每个运维对象设置告警规则和通知方式,可以快速响应告警事件,并及时进行相应的处理。
从根因分析方面来看,当出现故障时,需要对每个运维对象进行根因分析,找出故障的原因和来源。通过对对象的日志、指标、配置等信息进行分析,可以确定故障的根本原因,并提供相应的解决方案。
从决策辅助方面来看,针对每个运维对象,可以通过数据分析和挖掘,提供决策支持和参考。通过运用各种算法和模型,可以对数据进行分析和挖掘,帮助运维人员更加科学地做出决策。
从运维对象的角度出发,可以将系统中的各个组件、服务或应用作为独立的运维对象进行管理和监控。通过对每个运维对象进行定义、建模和配置,可以实现系统的自动化管理和优化,从而提高运维效率和质量。
在针对兼顾满足上述需求和挑战的情况下来看,相比传统基于关键指标的监控方法,以运维对象角度来进行监控,可以将整个交易链路分解为多个运维对象,并可以根据需求灵活调整监控对象和监控指标,针对每个运维对象的指标和阈值进行监控,并建立运维对象的模型和预测算法……以此支持粒度更精细、灵活性更高、支持实时监测风险、趋势预测和定位问题根源的全流程智能化监控升级。
鼎茂科技在监控场景中的双需求满足探索
基于对监控场景本身的难点,以及全链路解决方案的价值实现,鼎茂科技在其基于运维对象的一体化智能监控解决方案中,从基金行业的电商、APP、交易、商户等多类业务系统监测指标作为切入视角,通过对多源指标、日志、调用链、事件、CMDB等数据的统一治理和建模分析,跨系统、跨层级映射到基础设施,形成关联业务与IT设施的一体化智能监控体系,涵盖运行监测、趋势预估、端到端分析、告警管理、故障定位、容量预测等场景功能,帮助不同数字化阶段的基金机构轻松应对业务扩展和系统运行风险。
该解决方案植入了鼎茂多年在基金证券行业的运维管理知识沉淀,根据各类管理角色视角设定运维管理对象,通过指标管理体系和AI分析,全面透视对象和对象、对象和指标、指标和指标之间的影响关系,将传统监控升级为基于对象的全域指标可观测,实现对整个交易链路的监控和管理,并自动做出相应的处理和反应。这样可以有效提高监控的效率和精度,降低交易风险和成本,提高市场的透明度和稳定性。
在技术架构的处理上,解决方案除了采用面向各类混合云环境和分布式、微服务等技术环境的云原生架构,还创新采用了全流计算体系架构,来应对监控运营类场景要求极高的数据实效性。
在数据治理层面,实时采集数据,经过数据解析、字典附意和数据脱敏等实时计算,提升运维大数据质量,并且根据不同的数据应用场景进行数据分发,从而确保智能监控场景的顺利构建;系统内置关于指标时空多维预测和异常检测、日志智能分析和基于时空多维分析的根因定位等标准场景件的AI引擎,通过批处理与数据流式计算结合,实时产生数据洞察;同时,系统中包含了低代码前端构建、数据模型映射、算法模型编排和流批任务配置等分布式组件模块,快速支撑形成个性化智能监控场景。
解决方案在数据和计算层上,搭载了开箱即用的应用层功能模块,包括智能检测中心、智能分析中心、智能安全中心、智能预测中心和智能定位中心,以及紧贴业务和运维人员的可视化大屏、ITSM系统对接和告警事件平台等。
同时方案紧贴业务系统和IT物理架构,不管是负责基础设施还是应用运维的员工,都能快速、清晰、准确地获取所需要的监控及分析信息,同时在管理及应用上,实现统一视觉,统一语言。
基于这些功能模块,可以快速协助基金证券机构实现从监控到问题定位的全流程、业务&IT一体化的智能管理能力。
能力1.实现各类信息系统运行状态的监控
基于【智能监测中心】功能模块,实现完整的、端到端的IT基础架构、网络及业务应用程序可用性和性能综合监控。支持通过对系统和应用进行智能分组,来创建自定义的业务视图,更为有效地管理系统和应用。更重要的是能够帮助运维人员了解底层设备在每个业务流程中的运行情况以及哪些业务将受到影响,及时捕获各类系统报错及异常信息。
能力2.支持对各类应用的跨系统数据勾稽
基于【智能分析中心】功能模块,支持根据不同业务,配置各类勾稽规则,实现不同系统之间各类关联业务数据的自动核对及告警,运维人员可以通过平台页面及大屏,第一时间发现异常。
能力3.实现对各类业务结果的分析与监控
基于【智能分析中心】功能模块,支持使用时空多维离群分析,定位不同业务行为异常,并进行包括频繁交易、频繁撤单和频繁交易失败等业务行为异常场景组合,以此对异常账号进行风险等级评估和预警。
能力4.实现对各类攻击信息的分析与监控
基于【智能安全中心】功能模块,使用大数据分析结合机器学习算法,对基础架构内链路上所有的设备日志进行串联分析,精细化定位各类攻击的行为与路径,匹配特征库实时进行风险提示。
能力5.支持基础及应用系统运行趋势的分析
基于【智能预测中心】功能模块,对基础架构性能指标、服务吞吐指标、服务响应指标和业务容量等指标进行时空多维分析,实现业务容量预测、IT规模预测和吞吐增长预测等。
能力6.协助各类异常的快速定位
基于【智能定位中心】功能模块,针对基金行业较多业务系统架构相对稳定的特性,以业务问题为入口,在业务系统固定服务链路下定位根因组件和指标,再结合日志模式的异常检测与事件引发链的分析,实现更细粒度的问题根因定位。
对鼎茂科技来说,“为企业数智化运营续航”不仅仅是一句口号,每个企业数字化转型过程中的每一个差异化,都在不断的驱动我们持续创新。鼎茂科技也将继续全力做到深度洞察、深度融合、深度探索、深度钻研、深度耕耘、深度思考,基于全域AIOps解决方案体系,充分帮助我们的客户解决数智化进程中的各种问题。