随着信息通信技术的飞速发展,网络运行安全成为全球关注的焦点。近年来,国外运营商频发重大网络事故,暴露出传统运维方式的局限性。AI运维凭借其强大的数据处理和分析能力,正逐步成为提升网络运行安全水平的关键手段。
12月23日,在“2025中国信通院深度观察报告会”上,中国信通院泰尔系统实验室副主任张大元表示,网络云化、设备软件化、业务复杂化、运维集约化是造成网络运行事故多发、易发,持续时间长,影响范围大的深层次根因,AI运维为网络运行带来了无限可能,未来将有更多智能运维技术得以实施,助力网络运行安全水平迈向新高度。
AI 运维并不是凭空而生
在信息通信领域里,AI运维是指利用大数据和机器学习等技术实现对信息通信网络的运行维护,事前感知网络状态,实时监测分析网络运行指标;事中通过智能算法对监测到的数据进行深度挖掘,及时发现网络中的潜在隐患和故障苗头;事后精准定位故障点,给出解决方案,识别故障根因并自动修复。
张大元强调, AI 运维并不是凭空而生、拔地而起,它是经历了人工运维、自动化运维的发展阶段,在此基础上逐步演进的。“在这个过程中,机器学习所依赖的大量的案例、数据都是一代代的运维行业专家们所积累的宝贵实践经验和智力成果。”
“通过AI运维可以有效识别出传统运维方式下难以辨识、可能疏漏的风险点,形成各种复杂多变场景的应对策略,生成智能高效的运维方案,从而保障网络运行更加稳定可靠。” 张大元说。
网络事故严重频发的背后
近年来美国、加拿大、日本、澳大利亚、荷兰等国的主流运营商频频发生大规模的网络中断事故,事故范围波及所在国全境,事故持续时间均在数小时至数十小时,故障期间,不仅民众无法正常使用通信和互联网服务,交通、物流、金融等众多行业也陷入混乱,更有甚者连紧急呼叫都无法接通,严重影响社会秩序和人民生活。究其原因,张大元认为,网络云化、设备软件化、业务复杂化、运维集约化是造成网络运行事故多发、易发,持续时间长,影响范围大的深层次根因,具体到每一起事故的直接原因,主要有以下三类:
一是网络自身存在缺陷,网络架构的健壮性与发展速度不匹配,关键网元设备和新型网元设备的测试验证不充分;
二是运维操作能力不足,逐渐复杂的网络场景对运维能力提出更高要求,当前部分操作人员技能不匹配或风险意识缺失,导致动网操作易出错且应急处置效率低;
三是运维管理不严格,缺乏极限思维,应对极端场景没有预备合理的容灾方案,且隐患排查治理力度不够,未能提前识别网络运行风险。
AI运维助力网络运行水平提升
面对日益严峻的网络安全形势,AI技术能够显著提升网络运维的效率与质量,实现网络智能治理、智能治愈。张大元总结称,主要表现为四个方面:
一是智能监测,通过在网智能化测试,有效加强隐患排查治理能力,挖掘网络设备设施存在的隐患;
二是智能预测,通过构建多信息联动的智能化预测模型,强化风险识别能力,提前做出警示;
三是智能诊断,采用智能算法提升故障定位效率,解决云化网络故障定位难的问题;
四是智能决策,能够主动或辅助运维人员实现决策,对多方案进行客观评估和优选,实现完整决策链闭环。
AI运维作为信息通信领域的新兴技术,正在逐步改变着传统的网络运维模式。它不仅提高了网络运行的安全性和稳定性,还为未来的智能运维技术发展奠定了基础。随着AI技术的不断进步和应用场景的拓展,我们有理由相信,AI运维将在未来发挥更加重要的作用,助力构建更加安全、高效的网络环境。