打开网易新闻 查看更多图片

“苦救火、背锅久矣!”

一句心酸,道出多少IT运维人的心声。

很多故障和问题在理论情况下都不会发生,可偏偏在生产环境里发生了,还找不到原因,而如果恰巧这是个单点故障,那运维人可真是“表面稳如泰山,内心慌如老狗”。然而,一通操作猛如虎之后,一个小问题会不会变成连锁故障?俗话说:运维无小事,小事不运维。想必这正是让运维人心力交瘁的原因。

其实,很多风险规避机制都不是靠人,规避运维风险,同样如此。云智原生时代,智能运维相伴而生,人工干预越来越少,“今天”的智能运维和“昨天”的运维有什么不同?“明天”的运维又将走向何方?

在数据上做文章

2016年,Gartner首次提出“智能运维”的概念,当时,学界认为,智能运维指的就是通过机器学习或者深度学习的算法,形成了算法的包,这样的算法平台就是智能运维平台。

在产业界,则更倾向于认为智能运维是利用AI算法和大数据分析等技术,帮运维人员解决从数据采集、数据监控,到数据分析,再到基于数据分析形成结论,并且反馈到日常工作中,以提高运维效率的这样一个闭环。

从早期由运维人员手工完成IT运维工作,到后来的自动化运维阶段,再到如今的智能运维,面对更大规模、更具复杂性的系统,人的认知局限和生理极限已经无法应对,运维在这一过程中面临的挑战越来越多。运维人员的职责也从操作性的维护工作,发展为需要多方面知识、具备 IT 综合能力的研发运维工作。

打开网易新闻 查看更多图片

以某银行IT系统架构为例,其数据中心有400多万个节点,每个节点都有自己的监控数据,常见的可观测性数据包括指标、日志、调用关系等等,这些数据间的关系又非常复杂。而且,随着云计算、微服务等技术的流行,以及业务的迅速发展,运维数据也呈现了指数级增长。毫不夸张地讲,运维需要面对的场景越来越复杂和庞大了。

对于运维,每个企业都有自己的想法和思路,大家理想中的运维系统各不相同。有的公司希望能有把功能做深的专用运维软件,从全局视角,通过统一运维的能力把数据都拉通;有的公司运维团队很小,认为没有必要建立这么多分域的运维系统,希望一个独立的运维系统把所有数据都处理了。

除了CPU等常规KPI数据,还能不能采集一些非传统的数据?比如随流检测、芯片级转发丢包的数据,清楚地知道数据丢在哪里了。无疑,这是把数据采集的范围又往外扩张了一大步。“智能运维如果想达到好的效果,第一步就是要在数据上做文章。”新华三集团智能管理与运维产品线总经理敖襄桥直言。

新华三集团智能管理与运维产品线总经理 敖襄桥

用统一平台降低运维复杂度

在运维整个系统中,会有安全、网络等一系列特定领域的运维软件,但这些运维软件的数据往往没有拉通,运维人员对多个系统进行运维的时候会有很多困扰。比如,在流程方面,运维工程师们就经常面临这样一个困扰:申请安全防火墙的配置,给相关的工程师分配权限、视图、操作,有一套流程要在安全系统里去操作,而要申请虚拟资源时,又需要到云的系统上去申请。

能不能有一个统一的平台来降低运维的复杂度?在今年的领航者峰会上,新华三重磅发布U-Center5.0统一运维平台,通过“统一门户、统一告警、统一资源、统一流程、统一分析”这“五个统一”来进一步降低基础设施与应用之间的统一运维复杂度。

统一门户:

让运维人员只需要面对一个统一的入口,通过U-Center就能够进入到企业全视角的IT系统里进行运维,实现云、网、端异构全域混合资源的“一站式”管理。

统一资源:

通过CMDB把企业运维资产全部纳管起来,从而实现数据的统一收集,让IT资产全域可视、可管、可用,各种维度资源情况一览无余。

统一告警:

U-Center可以实现多个来源的“统一告警”。敖襄桥表示:“客户自己运维系统里的告警信息,我们会把它再纳管到U-Center里面来,基于告警的过滤、压缩、渲染、聚合规则及智能算法,实现告警降噪和风险的抑制,依懒OBASHI理论及CMDB中资源的关联关系,最终实现根因定位,比如,告警发生在什么地方、运维人员是谁、发生问题的原因是什么等等,然后把告警和分析结论推给特定的运维同事。”

统一流程:

通过U-Center接入规范和流程自定义,打通各种运维工具之间的“主动脉”,使用一套流程工具替换各产品组件中的多个流程模块,实现规范化的统一流程管理。

统一分析:

把多源、多类型的运维数据汇聚到U-Center上,通过数据基建、数据资产、数据服务、数据应用实现多级价值提升。将各业务组件孤立的数据拉通,实现各专题或业务域数据的关联对比及趋势分析,充分萃取数据价值。

当智能运维遇到AIGC

智能运维与传统运维最大的区别在于大数据的关联分析能力,以及随之带来的故障预测能力。当前,业界也有标准将智能运维成熟度划分为L1-L5,走到L3这个阶段,一部分故障业务已经可以自动处理,不需要人工参与,但更复杂问题的处理过程中还需要人来参与决策。

智能运维确实也在吻合不同应用场景的成熟度方面一步步往上走,而AIGC的能力正好作为加速升级的工具。“AIGC的出现让我们看到了一个新的解决问题的方法。借助AIGC,智能运维的故障预测、趋势预测、故障诊断可以真正地把过往的知识注入进去。没有AIGC的时候,知识是知识,算法是算法,它们之间是没有关联的。”敖襄桥说。

在运维领域,需要训练一个“懂运维”的大模型,而不仅仅是一个通用大模型。新华三在AIGC这件事情上,实际上有一个比较宏大的布局。据笔者了解,现在新华三内部就有多个团队正在进行相关研发,以今年领航者峰会上正式发布的百业灵犀大模型为例,它背后就包含了一套相关软件的布局,运维领域相关的一些数据的收集、相关模型的尝试和评测都已经在完整开发过程中。

“新华三在AIGC,包括智能运维方面的方向很清楚:第一个是将新华三过往20年的内部积累数据,整理和构造成新华三独有的ICT领域运维数据集;第二个是关注学术界的技术进展,并遵循通用大模型的趋势;第三是基于将新华三的历史经验积累数据和学术界的进展,为客户提供有新华三知识注入的ICT领域、智能运维领域的大模型。”敖襄桥说。

借助AIGC,通过自动化和预测分析来减少人工干预,提高IT运维的效率和效果是必由之路,也为运维服务打开了新的想象空间。

所有的变革都是为了未来做得更好,是向生而生。发展到今天,智能运维已经不仅仅是对过程和方法的描述,它已经开始渗透到企业管理和实践层面,甚至慢慢影响了企业文化。正如敖襄桥所说:“运维是没有尽头的行业,不断会有新的诉求出现,新的诉求会牵引着我们一起来前进。”

打开网易新闻 查看更多图片