今年以来,全球发生多次大规模电信网络故障并造成了较大影响。2月,日本电信运营商NTT DoCoMo在引入“IPv6 单栈”方法后,发生了全国范围通信故障,约18000家用户无法上网和进行 VoLTE 语音通话;7月2日,日本电信运营商 KDDI的移动网络发生大规模通信故障,约3915万手机用户无法正常通信 ;7月8日,加拿大电信运营商罗杰斯继去年事故后,再次出现大规模断网,其互联网、电话和电视服务中断,至少数百万用户受影响 ;9月11日,日本KDDI再次发生网络故障,受到影响的日本用户约有3915万人,补偿总额可能将达到157亿日元。
网络中断将带来两方面不利影响
一方面,网络中断的经济损失巨大。首先,电信运营商自身将面临巨额赔偿。按照行业惯例,如电信网络中断超过规定时间,提供网络服务的电信运营商需支付相应赔偿。例如,2022年7月日本发生的断网事故,运营商KDDI需要向用户和受影响企业赔偿至少200亿日元。其次,依托互联网相关企业的业务开展将受到冲击。一旦发生网络中断,电商等互联网企业的进货、出货、日常办公和正常运转均受到影响,企业经济损失巨大。例如,2020年6月,美国云服务商Fastly服务中断,数千家企业和政府机构网站无法访问并暂停交易,全球零售业损失预计超过10亿美元。市场调查机构Merchant Machine指出,中国有超9亿网络用户,网络中断10个小时可致经济损失17.87亿英镑。
另一方面,公众的正常生活将受到严重影响。一是移动支付受限。5G时代,商品和服务的交易越来越依靠智能手机、智能手表等移动端,一旦电信网络中断,将无法进行移动电子支付,也无法收取短信验证码等身份认证信息。二是与外界的联系受阻。大部分手机用户已习惯通过各类移动端社交媒体平台保持联系和获取新闻、天气预报、出行导航等信息,一旦电信网络中断,将与外界隔绝,易陷入情绪化和恐慌的状态。三是紧急求救无法进行。一旦电信网络中断,将无法拨打应急电话,需要紧急救助的病人、灾难现场等将不能得到及时救援,人民群众的生命财产安全难以得到有效保障。
断网事件背后的深层次原因剖析
核心网云化部署带来风险隐患。一是核心网云化部署可能导致软硬件配合出现故障。5G核心网一般采用云化部署方案,在核心网中间加入虚拟层,使软件与硬件全部解耦,两者之间的紧密配合度明显降低,核心网的稳定性和安全性可能受到影响。二是云化部署软件在更新升级时出现问题。例如,2021年4月,加拿大罗杰斯公司的核心网已经实现了基于NFV的软硬件解耦,在网络云化和功能虚拟化后,复杂性从此前的硬件转移到了软件,在核心网软件更新时出现错误,从而导致网络中断。
运维过程中人为操作失误。一是未制定网络运维故障处理流程。故障处理流程的建立和执行直接决定了网络的正常运行。例如,日本KDDI公司运维人员在更换核心网的路由器时出现问题,由于无具体故障处理流程,运维人员尝试了进一步的操作,最终导致了有史以来最大的网络中断事故。二是网络运维人员未严格遵守故障处理流程。运维人员在解决网络故障时,仅凭经验进行操作,未按照故障处理流程进行。例如,Hosting.com 停机事故是由于运维人员操作顺序不正确造成了数据中心UPS系统关闭。
设备和服务供应商优化选择存在问题。一是运维服务商实力参差不齐。随着移动通信网络日益复杂,运营商更加专注于网络建设和服务质量,从而选择将大部分运维外包。如果第三方运维的能力较差,在网络发生故障时不能及时有效处理,将导致断网事故。二是国际政治因素影响设备商选择。在国际政治日益复杂的背景下,部分国家要求只能选择少数的供应商,导致有较强实力的供应商被排除在外。例如,加拿大政府要求罗杰斯公司拆除已经部署完成的华为、中兴设备,是它不得不改用爱立信的设备,从而可能导致其网络架构和硬件设备在更换后出现各类不兼容等问题。
遭受恶意的电信网络攻击。一是互联网公司实施网络制裁。互联网基础服务公司可对各类使用其网络服务的用户进行网络制裁。例如,互联网提供商科根特通信公司宣布停止向俄罗斯出租端口和互联网协议地址。二是通过网络战瘫痪电信网络。在某些特别军事行动早期,相关国进行了网络战,导致政府部门网站、银行系统以及电信网、广播电视网和互联网等关键网络基础设施遭遇了持续的、系统的分布式拒绝服务攻击并瘫痪。三是黑客入侵关键基础设施网络导致服务器被破坏等。例如,今年2月,沃达丰的葡萄牙公司遭受了“以损害与破坏为目的的蓄意网络攻击”,使得该公司的4G和5G网络服务瘫痪,导致大部分用户的网络服务中断。
启示和建议
加大运营商核心网软硬件可靠性建设。一是加强核心网硬件安全设施建设。将重要设备分散机动配置,通过预设虚拟网络系统,建立多中心、次中心、分中心等节点,增强核心网络的稳定性。二是持续研发网络运行维护创新算法和解决方案。面对大规模网络建设过程中遇到的网络风暴、网络连接 的流量控制等挑战,通过采用创新算法和解决方案,使核心网在发生网络干扰的情况下,能够平滑处理,使服务质量不会大幅下降。三是革新网络安全技术。充分运用大数据、人工智能、区块链等新兴技术以及先进的网络攻防技术,增强薄弱环节,保障核心网的安全稳定。
提升运营商网络运行维护稳定性能力。一是定期检查更新网络设备和系统软件,观察网络设备、服务器设备等是否存在老化、故障等问题,通过及时更换与升级服务器等硬件设备以及配套的软件平台等,避免网络发生故障。二是网络运维需“化繁为简”。随着网络复杂度增加,网络运维更加困难,利用人工智能等技 术进行智能网络运维,能有效提升运维的效率和稳定性。
保证设备商和运营商的多元化选择。一是打造多元化的竞争市场。通过建立良性竞争的电信网络 市场,允许多种创新网络技术、网络产品和网络服 务产生,减少对单一设备商或服务商的依赖,改善网络基础设施建设质量和服务质量。二是对第三方设备商和服务供应商的网络信息安全风险进行审查。 通过独立的事前、事中、事后审查,评估设备商的软硬件安全漏洞管理、软件开发过程管理和威胁管 理的程序性问题,以及运维服务商的网络运行维护和故障应急处理能力等方面。
强化网络冗余与备份等应急措施。一是加强网络冗余。硬件方面,通过进一步完善一主一备的“双路由”系统,确保网络设备或线路出现故障时,系统可自动启动备用设备或线路。软件方面,当网络核心设备、主设备或线路发生故障时,通过专用软件程序及时识别网络故障,准确选择备用设备或线路并及时切换,保证网络运行不中断。二是完善即时同步的灾备数据中心。当网络服务的数据中心出现故障时,可即时将正在进行中的网络业务和网络连接数据整体切换到灾备数据中心继续运行,保证网络服务的流畅性。